《现代汉语语法信息词典详解》规格说明书
(本规格说明书摘自《现代汉语语法信息词典详解》第二版3.1.3以及4.3-4.5)
3.1.3 词语分类体系 1.名 词 n 2.时间词 t 体 3.处所词 s 基 实 4.方位词 f 词 5.数 词 m 6.量 词 q 7.代 词 r (体词性) 本 代 词 r (谓词性) 谓 8.动 词 v 词 词 9.形容词 a 10.状态词 z 词 11.区别词 b 12.副 词 d 13.介 词 p 虚 14.连 词 c 类 词 15.助 词 u 16.语气词 y 17.拟声词 o 18.叹 词 e 小的 19.前接成分 h 附 于单 20.后接成分 k 加 词位 21.语 素 g 类 22.非语素字 x 别 大的 23.成 语 i 于单 24.习 用 语 l 词位 25.简称略语 j 26.标点符号 w 图3.1 现代汉语词语分类体系
4.3总库项目
电子版词典的优势之一是便于更新。从本节起,以下3节根据目前最新版的规格说明书详细解释词典中各个数据库包含的所有字段的含义及填写规范。
以下编排中位于最左边的楷体字是字段名,字段名后面的数字一般代表字符型字段的长度。由于总库中“字数”、“同字词”、“同音调”、“同音”、“音节数”、“使用频度”这6个字段是数值型的,数字代表整数位数。
词语 8 词典中所收录的1~4个字的词语。 词类 2 填词语所属词类的代码。 如:名词填“n”,动词填“v”,成语填“i”,前接成分填“h”,名语素填“Ng”,
动语素填“Vg”,非语素字填“x”等。
同形 2 词类相同的同形词中,全拼音不同或者词项不同的,分别注以A,B,C等;
词项相同而义项不同的,则填 1,2,3等;字母与数字同时存在时,则将字母置于数字之前,如 A1,A2,A3,B1,B2等。
1
字数 1 数值型。填该词语所包含的字数。如:“人”的字数填“1”,“花儿”的字数
填“2”。
同字词 2 数值型。填与该词语汉字相同的词语的个数。 本词典中的同字词包括以下3种情况: (1)汉字相同但读音不同的词,如:“重(chong2)” 和“重(zhong4)”、“合
计(he2ji4)” 和“合计(he2ji5)”。
(2)汉字、读音皆同,但词类不同的词,如:“编辑(名词)”和“编辑(动词)”、
“制服(名词)”和“制服(动词)”;“巩固(动词)”和“巩固(形容词)”。
(3)汉字、读音、词类皆同但词义不同的词(包括同形词和多义词),如:“拐
全拼音 24 同音调 2 拼音 20 同音 2 音节数 1 虚实 2 体谓 2 单合 2 (1) (2) (3) (4) (1) 弯”的“拐”和“拐骗”的“拐”、“抄笔记”的“抄”和“抄小路”的“抄”。
这些同字词各作为一个词语看待。这样,总库中就有两个“重”、“合计”、“编
辑”、“制服”、“巩固”、“拐”、“抄”,每个记录的本字段均填“2”。
填每个词语的汉语拼音,声调用 “1,2,3,4,5”表示,其中“5” 表示
轻声。如:“常识”的全拼音是“chang2shi2”,“尺子”的全拼音是“chi3zi5”。
数值型。填与该词语全拼音相同的词的个数。 填该词语抹去声调的汉语拼音。 如:“常识”的拼音是“changshi”,“尺子”的拼音是“chizi”。 数值型。填与该词语拼音相同的词的个数。 数值型。填该词语的音节数目。 如:“人”填“1”,“学习”填“2”。需要指出的是,词语儿化以后,音节数
不变。如“花”的音节数是“1”,“花儿”的音节数仍是“1”。
虚词填“虚”,实词填“实”,其他不填。
对介词、连词、助词、语气词,本字段填“虚”;对名词、时间词、处所词、
方位词、数词、量词、代词、动词、形容词、状态词、区别词和副词这12类基本词,填“实”。词典中所收录的其他词语类型,比如:叹词、拟声词、前接成分、后接成分、语素、非语素字、成语、习用语、简称略语,本字段不填。
体词填“体”,谓词填“谓”,其他不填。
对名词、时间词、处所词、方位词、数词、量词、代词(体词性)7类基本
词,本字段填“体”;对动词、形容词、状态词、代词(谓词性),填“谓”;词典中所收录的其他词语类型,比如:区别词、副词、叹词、拟声词、前接成分、后接成分、语素、非语素字、成语、习用语、简称略语等,本字段不填。
单纯词填“单”,合成词及其他成分不填。
?单纯词:指由一个语素构成的词。它包括以下几种: 包含一个语素的单字词,如:人、走、红、吗、了 音译词,如:沙发、逻辑、巴黎、蒙太奇、奥斯卡
译自少数民族语言的地名,如:哈尔滨、呼和浩特、吐鲁番
双音节连绵词,如:鸳鸯、蜻蜓、垃圾。但如果构成连绵词的两个语
素还可以分别构成其它的词(如“怅惘”),本词典则不把它看作单纯词。
?合成词:指由两个或两个以上语素构成的词。现代汉语合成词的构造方式
有以下三类:
重叠,如:“妈妈、星星、看看、个个、刚刚、整整齐齐”等分别是由“妈、
2
星、看、个、刚、整齐”重叠而成的。
(2)附加,即由“前接成分 + 词根”构成的(如:“阿爸、老虎、微处理器、
超低温”等)或“词根 + 后接成分”构成的(如“桌子、盖儿、盼头、积极性、人们”等)。
需要指出的是,“了、着、过、的、地、得”在本词典中均处理成助词,
而不看作后缀,因此,“走了、看着、后悔过、飞快地、金黄的、说得(快)”这样的词语,语法词典都不看作是附加式合成词,而看作准短语,不予收录。
(3)复合,即由两个或两个以上的词根成分组成合成词的构词方式。用这种
方式构成的合成词叫复合词。汉语复合词的内部结构基本上是和句法结构一致的,都有主谓、述宾、述补、偏正、联合等结构关系,如:“年轻、到底、扩大、优点、重视、并且”。
语法词典中收录的其他词语类型,如:语素、非语素字、成语、习用语、简
称略语等均不是“词”,因而也就谈不上单纯词或合成词,本字段就不填。
切分歧义 1 有些词语字面上有组合歧义,如“学会”是一个名词,又可以从左边第1 个
字后切分为两个动词“学/v、会/v”;“将来”是时间词,又可以切分为一个副词和一个动词“将/d 来/v”。“学会”和“将来”的这个字段,就填 “1”。
分词标识 4 词语左边有典型的分词标识,填“左”;右边有典型的分词标识,填“右”;
左右都有分词标识的,填“左右”。无典型分词标识的,不填。具体地说:
(1)连绵词如“葡萄、鸳鸯、蜻蜓、垃圾、蜈蚣”等,其中左边第一个语素
“葡、鸳、蜻、垃、蜈”总是前置的,没有后置的情况。因而可以说这些词左边有典型的分词标识,本字段就填“左”。
(2)由“阿 + 词根”构成的名词如“阿妈、阿婆、阿妹”等,其中“阿”一
般是前置,本字段就填“左”。
(3)由“名词性语素 + 们”构成的名词如“人们、哥们、爷们”等,其中“们”
总是后置(不考虑儿化如“哥们儿”),这就是说这些词右边有典型的分词标识,本字段就填“右”。
(4)由“代词 + 们”构成的代词如“我们、他们、你们”等,其中左边第一
个语素“我、他、你”通常前置,右边第一个语素“们”总是后置,因而可以说这些词左右两边都有典型的分词标识,本字段就填“左右”。
(5)其他由构词能力较强、位置不固定的语素构成的词,本字段均不填。比
如“酸性”一词中“酸”前置,“性”后置。但并非必然如此,可以很容易地找到相反的例子,如:“盐酸、性质”等词中“酸”后置,“性”前置。这也就是说,“酸性”一类的词语左右两边都没有典型的分词标识。
使用频度 数值型。(长度暂缺,将由统计语料的数量来定。)
领域 3 填该词语适用的领域,如“政治、经济、军事、历史、生物”等范围。 文体 3 填该词语适用的文体名称,如“戏剧、小说、诗歌、议论文、叙事文”等。 部首 2 填单字的能够表意的偏旁部首特征,如“木,水,虫,鱼,鸟”等。
注:①“切分歧义、分词标识、使用频度、领域、文体、部首”等6个字段,由于条件
不成熟,目前还未能填写属性值,有待今后补齐。
② 各类词库都带有“全拼音”字段。限于篇幅,印刷版总库将不出“全拼音”、“拼音”字段。
4.4各类词库共同项目
3
词语 8 同上。 同形 8 同上。 全拼音 24 同上。
义项 20 填写该词语的简明释义。如:词典中收录了两个“天才”,为了让人更为方
便地将其区分开,就分别在本字段填上“人”和“智慧”。即前一个“天才”指人,比如可以说“他是一位数学天才”,后一个“天才”指“智慧”,可以说“他在数学方面很有天才”。
粘着 2 若该词语是粘着的而且恒前置,填“前”;恒后置,填“后”;恒中置,填“中”;
位置不固定的,则填“粘”。自由词不填。
汉语有的词能够单独成句,如“书、我们、走、好”;有的词不能单独成句,
如“企图、男、最、很、吗”。能单独成句的词叫自由词,不能单独成句的词叫粘着词。
自由词在跟别的词语组合的时候,位置是不固定的,有时在前,有时在后。
例如“书”可以组合成“书本、书面、书的价值”,也可以组合成“图书、英语书、这本书”。因此,本字段就不填。
粘着词在跟别的词语组合的时候,有些也是位置不固定的,如“企图、很”,
既可以说“企图越境、很凉快”,也可以说“有越境的企图、凉快得很”。对于这类词,本字段就填“粘”。
但有些粘着词位置是固定的。例如“阿、也”只能前置,不能后置(只有“阿
X、也X”的格式,没有“X阿、X也”的格式);相反地“吗、的(de5)”只能后置,不能前置(只有“X吗、X的”的格式,没有“吗X、的X”的格式);“得(de5)”则只能中置(只有“X得Y”的格式,如“写得好、洗得干干净净”,没有“得X、X得”的格式)。对于这些词,本字段就分别填上“前、后、中”。
在“语素”库中,由于语素都是粘着的,因此,本字段的意义是指语素在构
词中的位置。
兼类 2 填该词语兼属的词类代码,可以不止填一个。如:名词“锁”的兼类填“v”,
动词“锁”的兼类填“n”。
备注 40 填写词语某些用法的简明示例或说明,用“~”代替该词;各示例或说明之
间用斜道“/”隔开。 注:①成语、习用语、简称略语3个库,目前没有“同形”、“兼类”字段。
②各个词库中的“义项”和“备注”字段的长度不完全相同,所标为典型值。
4.5 各类词库专有项目
4.5.1 名词库专有项目
子类 2 填写名词子类的代码。
根据与不同量词的搭配关系,本词典将名词划分为以下8个子类: 可数个体名词(书、教师)填“na”,不可数物质名词(水、石灰)填“nb”,
可分集合名词(师生、 姐妹)填“nc”,不可分集合名词(花朵、船舶)填“nd”,种类名词(用处、学问)填“ne”, 专有名词(长江、中国)填“nf”,过程名词(内战、风暴)填“ng”,无量名词(盛况、注意力)填“nh”。此
4
外,指人名词在相应的子类后加上“p”。如“教师”的本字段填“nap”,“毛泽东”填“nfp”。
数名 2 有些名词如“姐妹、人口、军队”可以直接受数词修饰表示数量,如“三姐
妹”、“12亿人口”、“500万军队”;有些名词如“连、处、班”可以直接受数词修饰表示序数,如“二连”、“五处”、“三班”。对这两种名词,本字段均填“数”。而“玻璃、教师”只能说“两块玻璃”、“40位教师”,不能说“两玻璃”、“40教师”,对此,本字段不填。
数量名 2 一般不受任何数量短语修饰的,填“否” ,如“长短、心胸、四肢”等;
个体量词 集体量词 容器量词 度量词 12 种类量词 成形量词 不定量词动时量词 否则不填,如“人、学校、水”等。
填能够与该名词搭配的个体量词。如:“鱼”可以说“一尾鱼、两条鱼”,本
字段就填“尾,条”,同样,“牛”填“头,条”,“纸”填“张”,“医生”填“个,位,名”。
本字段中可填的个体量词主要有:“把、本、部、册、出(一~戏)、处、床
(两~被子)、道、点(两~意见)、顶、栋、朵、封、幅、副、杆、个、根、管、户、级、家、架、间、件、节、具、句、棵、颗、口、块、粒、辆、列(一~火车)、领、轮、枚、门、面、名、幕、盘(一~录像带)、匹(两~马)、篇、片、扇、首、艘、所、台、堂、条、挺、头、尾、位、项、眼、页、员、则、盏、张、枝、支、只、帧、株、桩、幢、尊、座”等。
填能够与该名词搭配的集体量词。如:对“人”,本字段填“群,伙,帮”;
对“衣服”,填“套”。
本字段中可填的集体量词主要有:“班、帮、笔、队、对、份、副、股、伙、
批、剂、群、双、套、窝、宗、组”等。
填能够与该名词搭配的容器量词。如:对“水”,本字段填“瓶,桶,杯,
碗,缸”;对“荔枝”,填“筐,袋,篓”。
本字段中可填的容器量词主要有:“包、杯、车、池、袋、缸、罐、盒、壶、
筐、篮、盘、盆、瓶、勺、坛、桶、碗、箱、桌”等。
填能与该名词搭配的度量词。如:对“布”,本字段填“米,尺,寸”;对“奶
粉”,填“克,千克,斤”。考虑到汉语的历史情况和实际用法,本字段仍填写了一些应废除的市制计量单位。
本字段中可填的度量词主要有:“丈、尺、寸、度、吨、伏、分、公斤、公
里、 公顷、毫米、毫升、斤、卡、克、里、两、立方米、米、亩、平方公里、平方米、千克、千瓦、顷、升、元”等。
填能够与该名词搭配的种类量词。如:对“鸟”,本字段填“种,类”;对“功
课”,填“门”等。
本字段中可填的种类量词主要有:“级,类,门,样,种”等。 填能够与该名词搭配的成形量词。如:对“冰”,本字段填“块”;对“报纸”,
填“叠,摞,沓,堆”等。
本字段中可填的成形量词主要有:“把、层、串、丛、簇、撮、滴、叠、段、
堆、垛、股、挂、行、卷、块、捆、绺、摞、缕、排、片、束、摊、团、线”等。
填能够与该名词搭配的不定量词。如:“鱼”可以说“(吃)一点儿鱼、(买)
一些鱼”,本字段就填“点,些”。
填可与该名词搭配的动量词或时量词。如“掌声”填“阵”,“雨”填“场,
阵”,“课”填“节”。
5
12 10 10 8 8 10 13