北京大学现代汉语语料库基本加工规范(3)

2025-11-19

形得成/v, 形不成/v

*? 四个字以上的短语,通常应切分。

总结/v 经验/n, 贯彻/v 执行/v, 调查/v 研究/v, 一/m 慢/a 二/m 看/v 三/m 通过/v

但像“生产资料/n ”、 “国民经济/n”、 “生产关系/n”等若作为一个词已收入词 典的就不再切分。

*⑴ 四个字的成语或习惯用语为一个切分单位,并标以词性i或l。

胸有成竹/i, 欣欣向荣/i, 众所周知/i, 由此可见/l, 新春伊始/l

⑵ 超过四个字的习惯用语或成语,一般不予切分,标注为 l或i 。

近水楼台先得月/i, 一年之计在于春/i,

不管三七二十一/i, 众人拾柴火焰高/i, 铁公鸡一毛不拔/l,

挂羊头卖狗肉/ i。

中间用标点符号分开的成语,则先切分,再用方括号括起来,标注为i。 挂羊头,卖狗肉——> [挂羊头/i ,/w 卖狗肉/i]i

百尺竿头,更进一步——>[百尺竿头/i ,/w 更进一步/i]i 上不着天,下不着地——>[上不着天/i ,/w 下不着地/i]i

⑶ 表达一个完整概念或集合的缩略语为一个切分单位,并标以j。

三好/j, 爱委会/j, 教科文/j, 农工牧副渔业/j, 中西方/j

*在有顿号分开的情况下,则切分:

德/j 、/w 意/j 、/w 日/j, 港/j 、/w 澳/j 、/w 台/j, 港/j 、/w 澳/j 同胞/n,

林/j 、/w 牧/j 、/w 副/j 、/w 渔/j 等/u 副业/n

最后一个简称如与后面一个字(语素)可合成一个词的,则不单独切分出来。

农/j 、/w 林/j 、/w 牧/j 、/w 副/j 、/w 渔业/n

国名、地名的简称并列在一起时,即使中间没有顿号也应切分开。 中/j 美/j 跨/v 国/n 公司/n [京/j 津/j 唐/j 地区/n]/ns 中/j 日/j 联合/vn 公报/n 港/j 澳/j 台/j 同胞/n

用括号表示的一种特殊形式的缩略语 建(构)筑物——>建(构)筑物/j 武术馆(校)——>武术馆(校)/j 国(边)境——>国(边)境/j 厅(局)长——>厅(局)长/j *⑷ 语素和非语素字的处理

除下列特殊情况外,语素和非语素字一般不作为切分单位。

① 某些双音节离合词分开使用,其中一个是语素,可将它标注为语素。 出/v 过/u 两/m 天/q 差/Ng, 理/v 了/u 一/m 次/q 发/Ng, 洗/v 了/u 一个/m 舒舒服服/z 的/u 澡/Vg

11

② 单字名词或名词性语素后接单纯方位词,通常应合成为一个处所词或时间词,但

为了同“分词规范”保持一致,也为了汉外机器翻译处理的方便,这里采用以下的处理方法:

a. “单字名词 + 单字方位词”的组合,切分为两个单位。

饭/n 前/f, 树/n 上/f, 包/n 里/f, 床/n 下/f

b. “单字名词性语素字+单字方位词”的结构,合为一个处所词或时

间词。

桌/Ng 上/f --> 桌上/s, 午/Ng 后/f --> 午后/t, 身/Ng 上/f -->身上/s, 胸/Ng 前/f -->胸前/s

c. “省、市、县、乡、村、部、局、处、团、营、连、院、系、班”等名词后“里、

上”等方位词,仍有组织、机构的意义,作为一个切分单位,标为名词。 如: 部里/n, 县里/n, 村里/n, 系里/n, 班上/n

③ 非语素字单独在文本中时,标注为x。

“/w 鹌鹑/n ”/w 的/u “/w 鹌/x ”/w 字/n 怎么/r 读/v ?/w

*⑸ 文本中非汉字的字符串的处理意见

① 已经约定俗成的或科学技术中已通用的符号保持原有的意义,根据其原有的意义决

定相应的标记。

阿拉伯数字:121/m 号/q 房间/n

2000年/t 8月/t 15日/t 单独的罗马数字:II/m IX/m xv/m

英文字母(或字母组合)代表常用的度量单位: A代表“安培”,例句:然后指针回指在1.5A处 正确的切分、标注为:

然后/c 指针/n 回指/v 在/p 1.5/m A/q 处/n 又如V代表“伏特”;W,“瓦特”;m,米;kg,千克; 等等。

② 其他英文字母(或字母组合或语句)一律标注为nx,如:

世界杯/n 足球赛/n A/nx 组/n 的/u 两/m 场/q 比赛/vn (这里的A起代词作用)

A/nx 公司/n ,B/nx 先生/n ,X/nx 君/Ng (这里的A, B, X 起专有名词或代词作用) 24/m K/nx 镀金/n

(这里的K实际上是含纯金量的度量单位,中文用“开”,计算机将它标注为nx,人又未校对出来,不算错,最好能保持一致。) C/nx 是/v 光速/n Windows98/nx PentiumIV/nx

I LOVE THIS GAME/nx

(尽管这是一个英语句子,但在此阶段仍作为一个切分单位)

③ 其他西文(希腊文、俄文等)的处理同英文。

12

④ 日文假名处理同英文。日文中的汉字处理同中文,但不能保证切分的正确性。

5. 切分和标注相结合的规范

汉语中的语素是构词的基本单位。语素构成合成词的方式主要有三种:重叠、附加和复合[13]。对这些情况的切分标注作如下规定。

5.1 重叠:

汉语以重叠变化方式构词的情况,主要有AA,AAB,ABB,AABB,A里AB,A不AB,ABAB等形式(其中A,B分别代表一个汉字),若这种词形作为词条收入了语法信息词典,其词性是确定的。下面的讨论主要是针对词典中没有该词形的情况:

? “AA”重叠形

① 单字动词重叠式AA作为一个切分单位,并标注为动词词性v。 如:走走/v,听听/v

② 单字形容词重叠式AA,有的成词,有的不成词。如后面不紧跟“的”就成词,作

为一个切分单位,通常为副词d。

好好/d 干/v 吧/y, 久久/d 没/d 说话/v

若后面再加“地”,不改变原有的规定,如:

轻轻/d 吊/v 起/v 又/d 轻轻/d 地/u 放/v 下/v

久久/d 地/u 没/d 说话/v

但是,如果只有紧跟着“的”或“地”才成词,则“AA的”或“AA地”合为一个 切分单位,标注为状态词z。

甜甜的/z 点心/n, 削/v 得/u 尖尖的/z, 圆圆地/z 坐/v 一/m 圈/q

③ 单字名词重叠式AA,为一个切分单位,并标注为名词词性n。 人人/n, 家家/n

④ 单字量词重叠形式AA,为一个切分单位,并标上量词词性q。 张张/q, 个个/q

⑤ 单字副词重叠式AA,为一个切分单位,并标注为副词词性d。 常常/d, 仅仅/d

? “AAB”重叠形

① VO结构形式的双音节离合动词的“AAB”重叠形式为一个切分单位,并标为动词词性v。 洗洗澡/v, 挥挥手/v, 理理发/v

② 单音节动词的重叠式AA加“看”合为一个切分单位,并标注为动词词性v。 试试看/v, 查查看/v, 念念看/v ? “ABB”重叠形

① 双音节形容词的重叠形式ABB, 为切分单位,并标注为状态词z。 孤单单/z, 亮堂堂/z, 孤零零/z

② 数量结构的“ABB”形式,不予切分,并标上数词词性m(具有数量词的属性)。 一个个/m, 一阵阵/m, 一团团/m

13

? “AABB”重叠形

① 二字动词的重叠形式“AABB”为一个切分单位,并标注动词v。 比比划划/v, 勾勾搭搭/v

② 二字形容词的重叠形式“AABB”为一个切分单位,

高高兴兴/z, 舒舒服服/z 若后加“的”或“地”,则标注为:

高高兴兴/z 的/u, 舒舒服服/z 地/u

③ 二字名词的重叠形式“AABB”为一个切分单位,并标注为名词n。 山山水水/n, 方方面面/n

④ 二字数词的重叠形式“AABB”为一个切分单位,并标注为数词m。 许许多多/m, 多多少少/m

⑤ 有两个意义相反的单字形容词并列而成的名词再重叠所得到的重叠形式“AABB”

为一个切分单位,并标注为状态词z。

大大小小/z, 高高低低/z

⑥ 凡只能处于状语位置上的重叠形式“AABB” 标注为副词d。 日日夜夜/d, 原原本本/d, 确确实实/d

? “A里AB”和“A不AB”的词形

① 双音节形容词的重叠形式“A里AB”,为一个切分单位,并标注为状态词z。 马里马虎/z, 糊里糊涂/z, 慌里慌张/z

② 用肯定加否定的形式表示疑问的动词或形容词的词组,一般切分开。

相信/v 不/d 相信/v, 容易/a 不/d 容易/a

但是如形成“A不AB”的不完整形式,则不予切分,并分别标以词性v或z。

相不相信/v, 容不容易/z, 漂不漂亮/z

? “ABAB”重叠形

双音节词的重叠形式“ABAB”,都切分开,这主要包括:

① 动词的“ABAB” 如:研究/v 研究/v, 比划/v 比划/v ② 形容词的“ABAB” 如:高兴/a 高兴/a, 舒服/a 舒服/a ③ 数词的“ABAB” 如:很多/m 很多/m, 许多/m 许多/m ④ 状态词的“ABAB” 如:雪白/z 雪白/z, 碧绿/z 碧绿/z

⑤ 数量词的“ABAB” 如:一个/m 一个/m

? 双音节拟声词的 “ABAB”重叠形式同其他词类一样,切分开,如: 哗啦哗啦——>哗啦/o 哗啦/o

? 其他形式的重叠情况

由动词形成的“V一V,V了V,V了一V”重叠形式, 作为动词词组都切分开。 谈/v 一/m 谈/v, 想/v 了/u 想/v, 读/v 了/u 一/m 读/v

5.2 附加

? 前接成分+语素或词

由“前接成分+语素或词”构成的合成词,为一个切分单位。这又可细分为以下情况:

14

① “阿”+单音节名词或名语素,组成名词,并标以n;若该名语素是指人的专名,

则标为nr。

如:阿哥/n, 阿华/nr

② “小”或“老”或“大”+单音节姓氏字,组成指人专有名词,标以nr。 如:小王/nr, 老张/nr, 大杨/nr

③ “老”或“小”+单字基数词(二,三,??,九),组成名词并标以n。 如:老二/n, 老六/n, 小三/n

④ 其它前接成分(“非”,“超”,“无”,“过”,??)与词构成的新的合成词,可能

保持原词的词性,也可能改变词性。

如:非金属/n, 超音速/b(音速/n), 超声波/n, 无公害/v(公害/n), 无条件/d(条件/n), 过饱和/z (饱和/a)

若“非”等前接成分所管辖的范围超过一个词,则仍然切分开。

如:非/h 国家/n 工作/vn 人员/n, 非/h 本市/r 注册/vn 车辆/n

? 语素或词+后接成分

由“语素或词+后接成分”组成的合成词,一律为一个切分单位。 详述如下: ① #+“儿”(#表示任意语素或词,下同) 儿化词一般为名词,如:花儿/n,画儿/n

也有例外: 一/m 堆儿/q,玩儿/v,颠儿/v,滚圆儿/z,好好儿/d, 好好儿的/z ② #+“们”

a. 表示名词复数的“们”单独切分,并标以k。如: 朋友/n 们/k ,孩子/n 们/k

b. 二字词中的“们”或口语中的 “们”同前面的名词的组合(可儿化)拆开了无

意义,就合起来作为一个切分单位,并标以n。如:

人们/n ,哥儿们/n ,爷儿们/n, 老少/n 爷儿们/n, 老少/n 爷们儿/n

③ 有类化作用的后接成分 a. 由后接成分“家”,“员”,“生”,“长(zhang3)”,“性”,“机”等组成的合成词,

一般为名词。 如:艺术家/n ,办事员/n ,劳动者/n ,毕业生/n ,参谋长/n ,革命性/n ,磁盘机/n

b. 由后接成分“头(tou5)”,“子(zi5)”等组成的合成词,一般为名词,如: 对头/n ,码子/n

但也有特殊情况,如: 前头/f ,后头/f 应该注意的是,具有实在意义的“头(tou2)”、“子(zi3)”不看作后接成分,试比较:

对头/n(dui4tou5), 对头/a(dui4tou2) 砖头/n(zhuan1tou5), 子弹/n 头/n(tou2) 桌子/n(zhuo2zi5), 围棋/n 子/n(zi3) c. # +“化”, 一般组成动词,如:标准化/v, 多元化/v;也有例外:四化/j,

理想化/a。

d. # +“者”,“者”前面为较短的词或短语时,它和前面的词一起合成一个切分

单位,标注为 n;“者”前面为较长的短语或句子时,分开来,标注为 k 。

研究者/n, 探索者/n, 求知者/n, 屡教不改者/n

15


北京大学现代汉语语料库基本加工规范(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:计量经济学实验二 一元线性回归 2

相关阅读
本类排行
× 游客快捷下载通道(下载后可以自由复制和排版)

下载本文档需要支付 7

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219