词性成分”则是“词组本位”语法体系坚持的另一个更重要的、更显示其理论特色的论点。对此,朱德熙先生早有阐述[14]。坚持这个论点,可以比较方便地分析下面的句法结构。
需要/v 支持/v
需要/v 支持/v 有/v 创造性/n 的/u 探索/vn 需要/v 群众/n 的/u 支持/vn
需要/v 群众/n 的/u 大力/d 支持/v
“群众的支持”是体词性短语,其中心语“支持”标成了vn。对vn 的完整理解应当是: “支持”首先是动词,但在这个具体的句法位置上起名词的作用。“群众的大力支持”也是体词性短语,其中心语“大力支持”是谓词性的,是状中结构。在这个结构层次中“支持”是动词v,“大力”是副词d。由于“大力”只有一个副词词性,这样分析就不会有困难。如果主张“体词性短语的中心成分只能是体词性成分”,“支持”固然可标注为vn,但“大力”作为副词是不能修饰体词性成分的。类似的,还有: 钢/n 产量/n 的/u 逐步/d 增加/v 这里的“逐步”也只有一个副词词性。
当上下文信息不充分时,标注可能出现歧解。如上面①中的“调查”标为v或vn都不能算错。在⑦和⑧中,“大规模调查”也有两种都可以接受的标注结果。 在“现场考察是重要的”中的“现场考察”是有歧义的。有两种标法。 现场/s 考察/v 是/v 重要/a 的/u
(去/v 现场/s 考察/v 工艺/n 流程/n 是/v 重要/a 的/u) 现场/s 考察/vn 是/v 重要/a 的/u
(进行/v 一/m 次/q 现场/s 考察/vn 是/v 重要/a 的/u)
如果缺少更多的上下文,只对“现场考察是重要的”进行标注,则认为这两种标注都是正确的。
注:“现场”的词性是处所词s,处所词可以作状语修饰动词,也可以作定语修饰名词。 ? 当动词直接作状语时,标注为 vd 。 他/r 讽刺/vd 说/v 主任/n 强调/vd 指出/v
若动词后加“地”作状语,仍标为v。 他/r 讽刺/v 地/u 说/v 主任/n 强调/v 地/u 指出/v
? 部分形容词在语料中具有以下3种语法功能之一时,标注为名形词an。
a. 作了“有”的宾语,
b. 充当了准谓宾动词的准谓词性宾语, c. 直接充当体词性短语的中心语。
他/r 有/v 很多/m 苦恼/an 这里/s 有/v 奥妙/an
维护/v 环境/n 的/u 整洁/an
交通/n 安全/an 是/v 第一/m 要/v 注意/v 的/u
需要注意,形容词直接作主语或谓宾动词的宾语,仍标为a,不标作an 。
需要/v 努力/a
需要/v 进一步/d 努力/a
21
? 形容词直接作状语时,标注为 ad 。
认真/ad 学习/v 邓小平理论/n
深入/ad 研究/v 语法/n 有利/a 于/p 自然/a 语言/n 处理/vn 技术/n 的/u 进步/vn
形容词后接“地”作状语时,那形容词仍标注为 a 。
我们/r 应当/v 深入/a 地/u 研究/v 语法/n
7. 结语
陆俭明、亢世勇、孙宏林、王惠、詹卫东、郭锐、赵强等同仁参与了本规范的制订。富士通公司的专家和技术人员提出了有关专有名词加工的基本要求。
在完成了大规模语料的基本加工任务之后,笔者对本规范有了更深切的认识:基本上是合适的、可操作的,但也存在一些缺点。一些学者和朋友也提出过一些意见和建议。无论如何,现在毕竟有了依据此规范而开发的2700万字的高质量的标注语料库,即便以后规范需要修订,适应新规范的代码转换或局部调整总是比较容易实现的。
衷心欢迎专家、学者和用户对本规范以及标注语料库的缺点与错误继续提出批评和指正。
参考文献
[1]冯志伟,中国语料库研究的历史与现状,国际会议ICCC2001主题报告(新加坡),Proceedings of ICCC2001, 1-24
[2]周强、俞士汶,一个人机互助的汉语语料库多级加工处理系统CCMP, 见陈力为、袁琦主编《计算语言学进展与应用》,清华大学出版社, 1995年, P50-55 [3] Qiang Zhou and Shiwen Yu, Annotating the Contemporary Chinese Corpus,
International Journal of Corpus Linguistics, Volume 2, Number 2, P239-258, 1997
[4]周强、张伟、俞士汶,汉语树库的构建,《中文信息学报》,1997年第4期,42-51 [5]俞士汶,网上的基础语言信息资源,《术语标准化与信息技术》,2001年第4期,
[6]俞士汶、段慧明、朱学锋等,大规模标注汉语语料库开发的基本经验,国际会议ICCC2001主题报告(新加坡),Proceedings of ICCC2001, 56-60
[7]俞士汶、朱学锋、段慧明,大规模现代汉语标注语料库的加工规范,《中文信息学报》, 2000年第6期,58-64
[8]中国国家标准GB13715《信息处理用现代汉语分词规范》,见刘源等著《信息处理用现代 汉语分词规范及自动分词方法》,北京:清华大学出版社,1994年第1版 [9]俞士汶、朱学锋、王惠,《现代汉语语法信息词典》的新进展,《中文信息学报》,2001年第1期58-65
[10]朱德熙,语法讲义,北京:商务印书馆,1982年
[11]朱德熙,语法答问,北京:商务印书馆,1985年 [12]俞士汶、段慧明、朱学锋, 汉语词的概率语法属性描述,《语言文字应用》,2001年,第3期,21-26 [13]陆志韦等,《汉语的构词法》,科学出版社,1964年 [14]朱德熙,《现代汉语语法研究》,北京:商务印书馆,1980
22
附录 按代码的字母顺序排列的标记集
代码 名称 帮助记忆的诠释
Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 a 形容词 取英语形容词adjective的第1个字母。
ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
b 区别词 取汉字“别”的声母。
c 连词 取英语连词conjunction的第1个字母。
Dg 副语素 d 副词 e 叹词 f 方位词 g 语素 h 前接成分 i 成语 j 简称略语 k 后接成分 l 习用语 m 数词 Ng 名语素 n 名词 nr 人名 ns 地名 nt 机构团体nx 非汉字串nz 其他专名 o 拟声词 p 介词 q 量词 r 代词 s 处所词 Tg 时语素 t 时间词 u 助词 Vg 动语素 v 动词 vd 副动词 vn 名动词 w 标点符号 x 非语素字y 语气词 z 状态词 副词性语素。副词代码为d,语素代码g前面置以D。 取adverb的第2个字母,因其第1个字母已用于形容词。 取英语叹词exclamation的第1个字母。 取汉字“方” 的声母。
绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
由于实际标注时,一定标注其子类,所以从来没有用到过g。
取英语head的第1个字母。
取英语成语idiom的第1个字母。 取汉字“简”的声母。 习用语尚未成为成语,有点“临时性”,取“临”的声母。
取英语numeral的第3个字母,n,u已有他用。
名词性语素。名词代码为n,语素代码g前面置以N。 取英语名词noun的第1个字母。
名词代码n和“人(ren)”的声母并在一起。 名词代码n和处所词代码s并在一起。
“团”的声母为t,名词代码n和t并在一起。
“专”的声母的第1个字母为z,名词代码n和z并在一起。 取英语拟声词onomatopoeia的第1个字母。 取英语介词prepositional的第1个字母。
取英语quantity的第1个字母。
取英语代词pronoun的第2个字母,因p已用于介词。 取英语space的第1个字母。
时间词性语素。时间词代码为t,在语素的代码g前面置以T。 取英语time的第1个字母。
取英语助词auxiliary 的第2个字母,因a已用于形容词。 动词性语素。动词代码为v。在语素的代码g前面置以V。 取英语动词verb的第一个字母。
直接作状语的动词。动词和副词的代码并在一起。 指具有名词功能的动词。动词和名词的代码并在一起。 非语素字只是一个符号,字母x通常用于代表未知数、符号。
取汉字“语”的声母。
取汉字“状”的声母的前一个字母。
(2002年2月20日最后修订)
23

