当前位置: 首页 > 专利查询>周连惠专利>正文

一种建立大型中文语料库的方法技术

技术编号:5194433 阅读:556 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种建立大型中文语料库的方法。其特征是把汉语的4000个常用字进行组合,产生1600万左右的2字词,通过大型计算机对这些2字组合进行排序,并进行切分,删掉与目前语料库里重复的2字词和“垃圾词”,保留有可能成为词的“准2字词”。同样把目前所有的2字词与4000字进行“字+2字词”和“2字词+字”的组合,产生“3字组合”;还有进行“2字词+2字词”,“3字词(语料库所有的)+字”和“字+3字词”,产生“4字组合”。对上述的3字和4字组合,通过大型计算机进行排序,切分,删掉与目前语料库里重复的3、4字词和“垃圾词”,保留有可能成为词的“准3、4字词”;最后对这些准字词进行人工筛选,产生“生语料库”;本发明专利技术为计算机自动提取汉语新词语的奠定了基础。

【技术实现步骤摘要】

本专利技术属于中文信息处理。
技术介绍
1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉 语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其 规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡 语料库。其语料要经过精心的选材,语料的选材应受到如下限制①时间的限制语料描述具有历时特征,着重描述共时特征。选取从1919年到当 代的语料(分为5个时期),以1977年以后的语料为主。②文化的限制主要选取受过中等文化教育的普通人能理解的语料。③使用领域的限制语料由人文与社会科学类、自然科学类和综合类3大部分,人 文和社会这个语料库现在只完成了 2000万字语料的输入和校对工作,尚未进行进一步的 加工,还是“生语料库”,因而还不能提供社会使用。由于主要靠手工录入,人工劳动的成本 很高,据说单是建立生语料库,耗资约200万人民币。现在,该课题已经结项,国家语委语言文字应用研究所成立了“汉语语料库深加 工”的课题组,准备对国家级语料库的2000万字的核心语料进行深加工,逐步把这个生语料 库变为熟语料库。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语 料库的单位有《人民日报》光盘数据库,北京大学计算语言学研究所,北京语言文化大学, 清华大学,,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。还要对多 音词注音。示例1 古城/n虽/C遭/V破坏/V,/W但/C它/r留下/V 了 [le5]/u契丹族 /nz和[he2]各[ge4] /r民族/n,/w特别/d是/V汉族/nz劳动/Vn人民/n共同/d开拓 /ν祖国/n北疆/s, /w创造/ν我国/r历史/n文明/n的[de5]/u足迹/n。/w切分规范中,主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切 分单位。在汉语中,新词,即使在词典中没有登录,最理想的方式是利用现代信息技术手段, 在已经建立的国家语言资源语料库中自动提取。但是囿于目前研究和技术手段的某些局 限,计算机自动提取汉语新词语的研究尚未取得明显的进展和实质性的突破。
技术实现思路
本专利技术就是针对目前语料库的不完整而导致的计算机自动提取汉语新词语的失 败而提出了简单和切实可行的方法而这个问题的核心就是“哪些汉字可以或者有可能组 合为一个新词;哪些汉字不能或者不可能组合为一个新词”。汉语的常用字有4000字左右,在现代汉语中的使用频率多达99%以上,因此这些 常用字的所有组合,就可以建立起为未来提供参考的语料库,而不会出现面对新词无能为力的情况,比如“雷人,剩女”,那么有可能出现“雷语,剩男,剩人”,但是目前的语料库没有 储备可能出现的新词,同时词的定义在语言界比较混乱,专利技术人认为应该简化如下单字词(有意义的独力汉字)如“红,我”;二字词如我们,伟大,打击;三字词如计 算机四字词如利在千秋;多字词(多于4个字构成的词)如自由职业者、人算不如天算。从统计上可以说明,大部分的三、四字词几乎来源于二字词;因此只要把可能出现 2字词的组合全部考虑进去,对于可能的“准2字词”,如“雷人”,进行筛选,建立一个2字词 的全集,在此基础上扩展为3字词和4字词的全集,那么计算机就可以对出现的新词在语料 库中自动提取。2字词的全集建立也不是非常复杂,4000*4000 = 16,000, 000 ;一千六百万;先通 过比较删除和目前重复的词,然后再利用语言切分软件对余下的进行切分,然后排序删除 明显不能成为词的语言垃圾。这样出来的结果就是2字词的全集。在根据3字词的构词 规则,用4000字和这二字词的全集进行组合。然后通过比较删除和目前重复的词,再利用 语言切分软件对余下的进行切分,然后排序删除明显不能成为“词”的语言垃圾。这样出来 的结果就是3字词的全集;然后就是进行2字词与2字词的组合,重复上面的步骤因为大 部分的4字词都是2字词与2字词的组合。比如”博爱平等、不爱说话、备案登记、保安服 务”(博爱和平等;不爱和说话构成的),这样可以大大减少计算机的工作量。具体如下3字词的构成是2字词与常用字的组合,有2种1 “单字+2字词”2 “2字词+单 字”。假设,经过筛选后,2字词的集合有50万,那么3字词的组合有2*50万*4000 = 40亿; 目前的大型计算机的运算次数达到千亿每秒,因此完全可以完成这个任务。进行人工校对 和筛选事实上,3、4字词的数量要大大少于2字词。可能只有30万。具体实施例方式把国家规定的一级汉字3750和部分2级汉字(根据词频),建立了一个4000字的字库,1对4000个汉字进行4000*4000的组合,按照汉字的拼音排序。2对产生的一千六百万个“2字组合”,扣除与目前的所有语料库重复的2字词,然 后利用语言切分软件在大型计算机上对余下的“2字词”进行切分,删除明显不属于词的语 言垃圾。如“爱潴、爱伫”等;保留下有可能成为2字词的“准2字词”所有组合如“爱友、 爱珠、爱主”等,当然这些工作要人工完成,建立“准2字词”语料库。3对现有的所有2字词和可能的“准2字词”,与4千汉字分别进行“字+准2字 词”,“准2字词+字”的组合,重复上面的步骤,建立“准3字词”语料库。4对现有的所有2字词进行全部的“2字词+2字词”组合,对现有的3字词与4千 汉字进行“3字词+汉字”和“汉字+3字词”组合,重复上面的步骤2,建立“准4字词”语料 库。这样,一个可以说囊括所有可能的2、3和4准字词语料库建立起来。这个工程看起来非常浩大,但是由于字和字组合以及字和词组合成为“准词”的 概率非常低,可能只有5%的,大部分都是没有意义的语言垃圾,计算机直接把它们从语料 库中铲除掉,余下的需要人工筛选的不是很多。比如1600万个2字词组合,经过计算机筛 选,剩下100万,如果按照受过训练的中文毕业的大学生,每天高质量挑选的300个“准2字 词”,那么1年就是有10万个,只要10个学生就可以了,余下的经过语言学家进一步挑选。本文档来自技高网
...

【技术保护点】
一种建立大型中文语料库的方法,根据国家的1、2级常用汉字,挑选出4000个的汉字,其特征在于对选定的汉字进行“汉字+汉字”的组合,结果是1600万个的“2字组合”。

【技术特征摘要】
1.一种建立大型中文语料库的方法,根据国家的1、2级常用汉字,挑选出4000个的汉 字,其特征在于对选定的汉字进行“汉字+汉字”的组合,结果是1600万个的“2字组合”。2.一种建立大型中文语料库的方法,其特征在于,对于权利要求1选出来的“2字组 合”,通过大型计算机删除与目前的所有语料库重复的“2字组合”;3.一种建立大型中文语料库的方法,其特征在于,对于权利要求2选出来的“2字组 合”,通过语言切分软件在大型计算机删除明显不能构成词的“2字组合”,余下的就是可能 的“准2字词”语料库;4.一种建立大型中文语料库的方法,其特征在于,对于4000个汉字与目前的所有语料 库的“2字词”,进行全部的“字+2字词”和“2字词+字”组合,结果是η个“3字组合”;5.一种建立大型中文语料库的方法,其特征在于,对于权利要求4选出来的“3字组 合”,通过大型计算机删除与目前的所有语料库重复的“3字词”6.一种建立大型中文语料库的方法,其特征在于,对于...

【专利技术属性】
技术研发人员:潘文林周连惠
申请(专利权)人:周连惠
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1