一种双语语料库过滤方法及系统技术方案

技术编号：2829200 阅读：250 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开一种双语语料库过滤方法，包括以下步骤：Ａ．确定英汉双语句对的句长比例特征值；Ｂ．分别统计英汉双语句对中不同词性的数量，分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量，根据不同词性的数量和所述匹配的数量确定互翻译性特征值；Ｃ．根据预先利用训练集建立的分类模型，利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。本发明专利技术公开一种双语语料库系统。本发明专利技术提供一种双语语料库的过滤方法及系统，用于提高语料库通用性、准确率和召回率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种语料库过滤方法，尤指一种双语语料库过滤方法及系统。
技术介绍
语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。特别是平行双语语料库，它是一种包含有两种语言互译信息的特殊的语料库。平行双语语料库能够提供两种语言之间丰富的匹配信息，在翻译知识的获取、双语词典的建立、基于统计或实例的机器翻译、词义消歧等领域有着重要的应用价值，尤其是高质量的语料库作用更为凸显。语料库的建立主要有两种方法，一种是传统的手工收集的方法；另一种是通过对篇章级对齐的语料库通过计算机用自动句对齐方法获得。但这两种方法都不能保证获得高质量的语料库，总是存在着一些例如句对不匹配、包含乱码等错误。消除错误句对最常用的方法是使用人工校对的方式对语料库进行检查。这种方法准确率虽然很高，但费时费力，尤其是当语料库非常巨大的时候，这种方法就不太实用。借助计算机用自动的方法对语料库进行处理消除错误句对，其基本思路是设定一些判定句对匹配质量的特征，然后对每个特征进行打分，再依照经验，人工设定一个特征阈值进行判定。当双语句对大于这个特征阈值时确定为好句对，...

【技术保护点】
一种双语语料库过滤方法，其特征在于，包括以下步骤：Ａ、确定双语句对的句长比例特征值；Ｂ、分别统计双语句对中不同词性的数量，分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量，根据不同词性的数量和所述匹配的数量确定互翻译性特征值；Ｃ、根据预先利用训练集建立的分类模型，利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。

【技术特征摘要】
1、一种双语语料库过滤方法，其特征在于，包括以下步骤A、确定双语句对的句长比例特征值；B、分别统计双语句对中不同词性的数量，分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量，根据不同词性的数量和所述匹配的数量确定互翻译性特征值；C、根据预先利用训练集建立的分类模型，利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。2、根据权利要求1所述的过滤方法，其特征在于，所述预先利用训练集建立的分类模型具体包括Cl、构建训练集；C2、按照步骤A、 B分别计算句长比例特征值和互翻译性特征值，利用分类器进行训练；C3、确定分类模型。3、根据权利要求2所述的过滤方法，其特征在于，所述训练集是按照双语语料库中一定比例的好坏句对组成的，同时标注每个句对的类别值，设定好句对为1,坏句对为-1。4、根据权利要求1所述的过滤方法，其特征在于，所述步骤A之前进一步包括确定数词匹配特征值；所述确定数词匹配特征值具体为将双语句对中的数词分别统一进行数字的转化，当双语句对中的数词转化后的数字匹配，确定数词匹配特征值为1，当所述数词不匹配，确定数词匹配特征值为0。5、根据权利要求1所述的过滤方法，其特征在于，所述步骤A之前进一步包括统一所述双语句对中的编码类型的预处理。6、根据权利要求5所述的过滤方法，其特征在于，所述双语句具体为英汉双语句；统一所述双语句对中的编码类型的预处理具体包括11) 将所述英汉双语句对进行全角转半角处理；12) 将繁体编码转换为简体国...

【专利技术属性】
技术研发人员：王刚，高立琦，刘挺，王海洲，
申请(专利权)人：北京金山软件有限公司，北京金山数字娱乐科技有限公司，哈尔滨工业大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人