一种建立大型中文语料库的方法技术

技术编号：5194433 阅读：556 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种建立大型中文语料库的方法。其特征是把汉语的４０００个常用字进行组合，产生１６００万左右的２字词，通过大型计算机对这些２字组合进行排序，并进行切分，删掉与目前语料库里重复的２字词和“垃圾词”，保留有可能成为词的“准２字词”。同样把目前所有的２字词与４０００字进行“字＋２字词”和“２字词＋字”的组合，产生“３字组合”；还有进行“２字词＋２字词”，“３字词（语料库所有的）＋字”和“字＋３字词”，产生“４字组合”。对上述的３字和４字组合，通过大型计算机进行排序，切分，删掉与目前语料库里重复的３、４字词和“垃圾词”，保留有可能成为词的“准３、４字词”；最后对这些准字词进行人工筛选，产生“生语料库”；本发明专利技术为计算机自动提取汉语新词语的奠定了基础。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于中文信息处理。
技术介绍
1991年，国家语言文字工作委员会开始建立国家级的大型汉语语料库，以推进汉语的词法、句法、语义和语用的研究，同时也为中文信息处理的研究提供语言资源，计划其规模将达7000万汉字，当时宣称，这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材，语料的选材应受到如下限制①时间的限制语料描述具有历时特征，着重描述共时特征。选取从1919年到当代的语料(分为5个时期)，以1977年以后的语料为主。②文化的限制主要选取受过中等文化教育的普通人能理解的语料。③使用领域的限制语料由人文与社会科学类、自然科学类和综合类3大部分，人文和社会这个语料库现在只完成了 2000万字语料的输入和校对工作，尚未进行进一步的加工，还是“生语料库”，因而还不能提供社会使用。由于主要靠手工录入，人工劳动的成本很高，据说单是建立生语料库，耗资约200万人民币。现在，该课题已经结项，国家语委语言文字应用研究所成立了“汉语语料库深加工”的课题组，准备对国家级语料库的2000万字的核心语料进行深加工，逐步把这个生语料库变为熟语料库。没有语料库的支持，中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有《人民日报》光盘数据库，北京大学计算语言学研究所，北京语言文化大学，清华大学，，加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。还要对多音词注音。示例1 古城/n虽/C遭/V破坏/V，/W但/C它/r留下/V 了 [le5]/u契丹族 /nz和[he2]各[ge4] /r民族/n，/...

【技术保护点】
一种建立大型中文语料库的方法，根据国家的１、２级常用汉字，挑选出４０００个的汉字，其特征在于对选定的汉字进行“汉字＋汉字”的组合，结果是１６００万个的“２字组合”。

【技术特征摘要】
1.一种建立大型中文语料库的方法，根据国家的1、2级常用汉字，挑选出4000个的汉字，其特征在于对选定的汉字进行“汉字+汉字”的组合，结果是1600万个的“2字组合”。2.一种建立大型中文语料库的方法，其特征在于，对于权利要求1选出来的“2字组合”，通过大型计算机删除与目前的所有语料库重复的“2字组合”；3.一种建立大型中文语料库的方法，其特征在于，对于权利要求2选出来的“2字组合”，通过语言切分软件在大型计算机删除明显不能构成词的“2字组合”，余下的就是可能的“准2字词”语料库；4.一种建立大型中文语料库的方法，其特征在于，对于4000个汉字与目前的所有语料库的“2字词”，进行全部的“字+2字词”和“2字词+字”组合，结果是η个“3字组合”；5.一种建立大型中文语料库的方法，其特征在于，对于权利要求4选出来的“3字组合”，通过大型计算机删除与目前的所有语料库重复的“3字词”6.一种建立大型中文语料库的方法，其特征在于，对于...

【专利技术属性】
技术研发人员：潘文林，周连惠，
申请(专利权)人：周连惠，
类型：发明
国别省市：32[中国|江苏]

全部详细技术资料下载我是这个专利的主人