北京大学现代汉语语料库基本加工规范(4)

2025-11-19

经过/p 苦苦/d 追求/v 而/c 获得/v 幸福/a 者/k 不/d 顾/v 劝告/v 而/c 执意/vd 闹事/v 者/k

④ 词加多个后接成分,仍为一个切分单位。

物理学/n, 物理学家/n, 语言学/n, 语言学界/n

? 前接成分+语素或词+后接成分,此种形式组成的合成词,也为一个切分单位。 非党员/n, 无政府主义者/n, 超大型/b

? 注意:单音节区别词与前接成分的处理方式不同,见2.2?。

5.3 复合词

“复合”方式可将两个构词成分结合成一个新词[13]。构词成分通常认为是语素。由于复合词的构成方式和短语的构成方式是一样的,包括定中、状中、述宾、述补、主谓、联合、连动等。当语素是成词语素时,复合词与短语的界限是不清晰的。只有当构词成分中至少有一个是不成词语素时,才有把握判断新组合的结构是一个未登录词,否则存在一定的弹性。形式上,两个字的或三个字的组合可以较宽地认为是一个词。以下使用的“名”指标注为n的名词或标注为Ng的名语素。“形”,“动”的含义与可以类推。

? 二字名词

① “名+名”的定中结构, 一般为一个切分单位。 牛肉/n, 铝锅/n, 敌营/n

② “动+名”的定中结构,一般为一个切分单位。

炒菜/n, 烤肉/n, 绑腿/n, 来函/n, 恋人/n ③ “动+名”如为述宾结构,则是短语,应切分开。

我/r 喜欢/v 吃/v 烤肉/n 。/w 我/r 来/v 烤/v 肉/n 吃/v 。/w

但有些结合紧密或使用稳定的述宾结构已在词典中登录,则处理成一个切分单位(离合词),标注为动词v,如:吃饭/v, 洗澡/v, 讲话/v。

④ “形+名”的定中结构,若中间不能插“的”或插“的”后意义改变,则作为一

个切分单位;否则,应予切分。

红茶/n , 苦瓜/n , 红花/n(一种药材) 小/a 床/n , 白/a 花/n , 红/a 花/n

? 三字名词

① “动(双音)+名(单音)”的定中结构,一般为一个切分单位。

消耗品/n, 证明信/n, 救济粮/n, 控制阀/n

② “名(双音)+名(单音)”结构,通常为一个切分单位,但弹性较大,若前面

的双音节名词与后面的单音节名词组合后意义不变,也可以分开

牛仔服/n, 电流表/n, 热带鱼/n, 河北/ns 人/n, 手表/n 厂/n

③ “名(单音)+名(双音)”结构,通常为一个切分单位,但弹性较大,若前面

的单音节名词与后面的双音节名词组合后意义不变,也可以分开

手指甲/n, 马尾巴/n, 电/n 暖壶/n

④ “形(单音)+名(双音)”的定中结构,处理原则同二字的“形+名”组合

16

小媳妇/n, 老姑娘/n

黄/a 砂糖/n, 硬/a 橡皮/n, 甜/a 点心/n

⑤ “形(双音)+名(单)”的定中结构,处理原则同④ 美丽岛/n, 贫困/a 县/n, 富裕/a 村/n

? 单纯方位词+名(单音)的定中结构,为一个切分单位。所组成的合成词一般是处所词,但在某些特殊情况下可能是名词或时间词。

前院/s, 里屋/s, 后街/s

左肩/n, 旁杈/n, 前天/t, 后天/t

6 标注规范

6.1 词性标注与语法信息词典的关系

根据《语法信息词典》,对于那些只属一类的词,在切分的同时就可以确定其词性。标注规范重点描述那些多类词的词性,即在特定的上下文环境下如何选择一个正确的词性。

? 尽管自动标注的依据是《语法信息词典》,但由于还需要“多选一”和确定“未登录词”的词性,因此自动标注的正确性还是需要鉴别的。

? 由于上下文的信息充分,文本中的词性标注相对于词的归类要容易,但在北大的语法体系内应坚持词类的多功能性,主要防止的倾向是仅仅根据一个词在当前句子中所实现的功能来确定其词性。如果将主宾语位置上的词一律定为名词,那是不恰当的。

? 由于词典的空间限制,不仅存在未登录词问题,已登录的词也存在兼类不完备的问题。如有些名词可兼量词(“一/m 船/q 水/n”的“船”就是量词),词典中可能只描述它可以临时作量词,而未明确规定它兼属量词类,这时仍应以文本中的实际功能决定其词性。又如“新”,词典中只确定它是形容词,也有人认为“新同学”中的“新”是区别词,标成“新/b 同学/n”也是可以的。这样将充分发掘每个词形可能兼有的词性。至于新兼的词性以后是否收入词典则还要考虑其他因素。

6.2 常见多类词的词性选择

由于文本数据的特点,机器无法区分同形异音词与同形同音异类词,这就造成了汉语词类标注过程中词类歧义现象较多。可以笼统地把具有这种现象的词称为多类词。下面说明多类词的一些标注原则。

? n-q多类情况。

汉语中的一些名词(主要是单音节名词)可以兼作量词,对于这些词,依据上下文来确定句子中的词的词性。

① 数词+ n-q + n,取q。

一/m 车/q 煤/n, 三/m 桶/q 水/n 另外,汉语中有一部分名词临时作量词且只能前接数词“一”,对于这种情况,也是应该把它标为量词q。

做/v 了/u 一/m 桌子/q 菜/n, 生/v 了/u 一/m 肚子/q 气/n ② “这”,“那”,“每”等指示代词+ n-q+n, 取q。

这/r 床/q 被子/n, 这/r 门/q 亲事/n ③ 其它情况,一般取n。

上/v 车/n, 进/v 门/n, 买/v 车/n, 送/v 桶/n 去/v 工地/s

? a-v多类情况

17

① 若该词在句子中带了真宾语,则标为v。

他/r 跟/p 她/r 没/d 红/v 过/u 脸/n, 繁荣/v 市场/n, 端正/v 态度/n ② 若该词受“很”一类程度副词修饰,则标为a。

这/r 花/n 很/d 红/a, 市场/n 很/d 繁荣/a ③ 若该词修饰名词作定语,则一般应标为a。

繁荣/a 的/u 景象/n, 红/a 颜料/n, 巩固/a 的/u 国防/n ④ 若该词作动词的补语,则应标为a。 放/v 明白/a 一些/m 涨/v 红/a 了/u 脸/n

? v-n多类情况

实际上指的是广义兼类现象。当该词表示一种动作时,后面带真宾语,则是v;当它指称人或物时,则是n。

编辑/v 科技/n 文献/n 她/r 是/v 责任/n 编辑/n 要/v 锁/v 上/v 门/n

忘/v 了/u 买/v 一/m 把/q 锁/n 及时/ad 报告/v 首长/n 一/m 份/q 重要/a 报告/n

? p-v多类情况 这类词主要有“在”,“到”,“比”,“朝”,“跟”,“给”等,它们的区分主要依据以下方法:

① 从词的语法功能与分布考虑,若该词(包括带“着、了、过”的情况)单说或单独做谓语,则为动词。

“你/r 爸爸/n 在/v 不/d 在/v ?/w ” “在/v 。/w”

北京/ns 到/v 了/y , 新加坡/ns 我/r 到/v 过/u 别/d 老/d 跟/v 着/u, 咱们/r 比/v 一/m 比/v

② 对“p-v+其他成分” 的结构,若单说或单独作谓语,则其中的p-v为动词;若不是单说也不是单独作谓语,而是作状语或补语,则其中的p-v为介词。试比较:

动 词 介 词

他/r 不/d 在/v 教室/n 他/r 在/p 教室/n 自习/v

他/r 在/v 不/d 在/v 家/n ?——在/v 我们/r 走/v 在/p校园/n 的/u 小路/n 上/f 列车/n 已/d 到/v 了/u 北京/ns 老王/nr 到/p 北京/ns 出差/v 去/v 了/u 到/v 没/d 到/v 站/n?——到/v 了/u 从/p 东/f 到/p 西/f 共/d 长/a 30/m 米

/q

狗/n 总/d 跟/v 着/u 主人/n 我/r 常/d 跟/p 他/r 学/v 日语/n 葵花/n 向/v 太阳/n 运动员/n 正/d 跑/v 向/p 终点/n

? p-c多类情况

常见的词有“和”,“跟”,“同”,“与”,这些词的词类排歧主要依据下列原则:在句子中,如果这些词的前后成分不能互换位置或者在这些词的前面可以加修饰成分,则这些词为介词;如果这些词的前后成分可以互换位置即互换位置后句子的意思基本不变并且在这些词的前面

18

不能有修饰成分,则这些词为连词。

我/r 跟/c 他/r 都/d 是/v 大学生/n 你/r 别/d 跟/p 他/r 跑/v 我/r 跟/p 他/r 请教/v 问题/n

注意:下面的句子是有歧义的(括号内信息为判定标准)。

我/r (已经/d) 和/p 他/r 见面/v 了/y 。/w 我/r 和/c 他/r (已经/d) 见面/v 了/y 。/w 因此,需结合前后上下文信息,才能确定正确的词类标记。

? b-d多类情况

① 若此词作状语, 则为副词。

我们/r 会/v 共同/d 进步/v 自动/d 取消/v 订单/n

② 若此词作定语, 或与“的”组成“的”字结构,则为区别词。 共同/b 目标/n 是/v 完成/v 这/r 项/q 任务/n 这/r 个/q 玩具/n 是/v 自动/b 的/u

? c-d多类情况

这类多类词,主要有“不过”、“尽管”、“但”、“可”等。一般来说,若该词在句子中修饰谓语(形容词、动词)则为副词。若此词主要连接句子和子句,表示子句之间转折、让步等语义组合关系,则为连词。试比较:

① 不过

我/r 受/v 了/u 点/q 伤/Ng ,/w 不过/c 不/d 要紧/a 他/r 不过/d 随便/ad 谈谈/v

② 但

雨/n 停/v 了/y ,/w 但/c 地上/s 还/d 很/d 湿/a 。/w 但/d 见/v 门上/s 贴/v 着/u 一/m 副/q 对联/n 。/w

③ 可

大家/r 虽然/c 累/a ,/w 可/c 都/d 很/d 愉快/a 。/w 她/r 待/v 我/r 可/d 好/a 了/y 。

④ 尽管

尽管/c 天/n 下/v 着/u 雨/n ,/w 他/r 还是/d 出发/v 了/y 。/w

你/r 尽管/d 说/v ,/w 别/d 怕/v 。/w

6.3 关于标记vn, vd, an, ad

这4个标记分别是动词v和形容词a的特殊用法标记。当将文本中的一个词标为vn、vd或 an、 ad时,首先认为它们是动词或形容词,只不过它们 在语句中表现了特殊的语法功能。有时也赋予这些标记以中文名称,如名动词等,只是为了方便。

? 有一部分双音节动词,当它在句法结构中具有以下4种语法功能之一时,标为vn: a. 作特殊动词“有”的宾语。

b. 充当了形式动词或其他准谓宾动词的准谓词性宾语。 c. 直接充当体词性短语的中心语。 d. 不加助词“的”,直接充当体词性短语的修饰语。

19

领导/n 对/p 这/r 件/q 事/n 有/v 考虑/vn 进行/v 一/m 次/q 深入/a 的/u 考察/vn 予以/v 严肃/a 处理/vn 加以/v 整理/vn

语法/n 研究/vn 很/d 重要/a 必须/d 改进/v 训练/vn 方法/n

这个/r 研究/vn 思路/n 很/d 新颖/a

需要注意,动词直接作主语或谓宾动词的宾语,仍标为v,不标作vn。 考察/v 是/v 必要/a 的/u

我们/n 来/v 的/u 目的/n 就是/v 考察/v 考察/v 需要/v 考察/v

需要/v 考察/v 实际/a 情况/n

通常只在该动词所在的短语结构的层次内决定将它标注为v还是vn。例如, ① 我们/r调查/v目的/n 是/v 了解/v 实际/a 情况/n 。/w

② 大规模/d 调查/v 语言/n 的/u 实际/a使用/vn 情况/n 是/v 一/m 项/q 重要/a 的/u 基础/n 工作/vn 。/w ③ 通过/p 调查/v

④ 通过/p 调查/v 语言/n 的/u 实际/a使用/vn 情况/n ⑤ 进行/v 调查/vn

⑥ 进行/v 大规模/b 调查/vn

⑦ 通过/p 语言/n 实际/a 使用/vn 情况/n 的/u 大规模/b 调查/vn ⑧ 通过/p 语言/n 实际/a 使用/vn 情况/n 的/u 大规模/d 调查/v

以上8个例子中对“调查”的标注都是正确的。 在①中,“我们”和“调查”首先结合成主谓结构,然后再修饰“目的”。如果在“目的”之前加一个“的”,结构更清晰,读起来更流畅。不过在书面语中,这个“的”常被省掉。如果认为“的”加在“我们”和“调查”之间,“调查”和“目的”先构成定中结构,则“调查”应标注为vn。这里有歧解。

在②中,“调查”或者先同“大规模”构成状中结构,或者先同“语言的实际使用情况”构成述宾结构,都要标成v。

在③中,“调查”本身作介词“通过”的宾语。在《规范》遵循的语法体系内,介词可以带谓词性宾语。“调查”是动词的理由可在④中找到。

在④中,“调查”先同“语言的实际使用情况”构成谓词性的述宾结构,再作介词“通过”的宾语。

在⑤中,“调查”作形式动词“进行”的准谓词性宾语,当然标成vn。 在⑥中,“进行”的准谓词性宾语“调查”可以带定语,“大规模”应该标成区别词。 在⑦和⑧中,对“大规模调查”的标注是不一样的。为什么前面说它们都对呢?首先,⑦是对的。因为从整体上看,“语言实际使用情况的大规模调查”是体词性的,将其中心语“大规模调查”也标成体词性的定中结构,不会引起争议。而在⑧中,“大规模调查”却被标成了谓词性的状中结构。这样标算不算错?理论上有没有困难?前面所说的“介词可以带谓词性宾语”是“词组本位”语法体系的一个重要论点,而这里认为“体词性短语的中心成分可以是谓

20


北京大学现代汉语语料库基本加工规范(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:计量经济学实验二 一元线性回归 2

相关阅读
本类排行
× 游客快捷下载通道(下载后可以自由复制和排版)

下载本文档需要支付 7

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219