一种双语语料库过滤方法及系统技术方案

技术编号:2829200 阅读:220 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种双语语料库过滤方法,包括以下步骤:A.确定英汉双语句对的句长比例特征值;B.分别统计英汉双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;C.根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。本发明专利技术公开一种双语语料库系统。本发明专利技术提供一种双语语料库的过滤方法及系统,用于提高语料库通用性、准确率和召回率。

【技术实现步骤摘要】

本专利技术涉及一种语料库过滤方法,尤指一种双语语料库过滤方法及系统
技术介绍
语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认 可。特别是平行双语语料库,它是一种包含有两种语言互译信息的特殊的语 料库。平行双语语料库能够提供两种语言之间丰富的匹配信息,在翻译知识 的获取、双语词典的建立、基于统计或实例的机器翻译、词义消歧等领域有 着重要的应用价值,尤其是高质量的语料库作用更为凸显。语料库的建立主要有两种方法, 一种是传统的手工收集的方法;另一种 是通过对篇章级对齐的语料库通过计算机用自动句对齐方法获得。但这两种 方法都不能保证获得高质量的语料库,总是存在着一些例如句对不匹配、包 含乱码等错误。消除错误句对最常用的方法是使用人工校对的方式对语料库进行检查。 这种方法准确率虽然很高,但费时费力,尤其是当语料库非常巨大的时候, 这种方法就不太实用。借助计算机用自动的方法对语料库进行处理消除错误句对,其基本思路是设定一些判定句对匹配质量的特征,然后对每个特征进行打分,再依照经 验,人工设定一个特征阈值进行判定。当双语句对大于这个特征阈值时确定 为好句对,当双语句对小于或等于这个特征阈值时确定为坏句对。这种方法 虽然从一定程度上实现了自动化,但缺乏一般性且准确率并不高。特征阈值 是凭经验设定的,特征阈值往往可能是设定者根据仅有的几份语料库资源来 确定的,不能涵盖大多数语料库的分布情况。而且当经验设定的特征阈值过 低会导致准确率下降,过高时又导致召回率下降。
技术实现思路
本专利技术的目的是提供一种英汉双语语料库的过滤方法及系统,用于提高 语料库通用性、准确率和召回率。为解决上述问题,本专利技术提供一种双语语料库过滤方法,包括以下步骤 A、确定双语句对的句长比例特征值;B、 分别统计双语句对中不同词性的数量,分别计算所述词性的词与所述 双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的 数量确定互翻译性特征值; 'C、 根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所 述互翻译性特征值进行过滤分类。优选地,所述预先利用训练集建立的分类模型具体包括 Cl、构建训练集;C2、按照步骤A、 B分别计算句长比例特征值和互翻译性特征值,利用 分类器进行训练;C3、确定分类模型。优选地,所述训练集是按照双语语料库中一定比例的好坏句对组成的, 同时标注每个句对的类别值,设定好句对为1,坏句对为-1。优选地,所述步骤A之前进一步包括确定数词匹配特征值;所述确定数词匹配特征值具体为将双语句对中的数词分别统一进行数 字的转化,当双语句对中的数词转化后的数字匹配,确定数词匹配特征值为1, 当所述数词不匹配,确定数词匹配特征值为0。优选地,所述步骤A之前进一步包括统一所述双语句对中的编码类型 的预处理。优选地,所述双语句具体为英汉双语句;统一所述双语句对中的编码类 型的预处理具体包括11) 将所述英汉双语句对进行全角转半角处理;12) 将繁体编码转换为简体国标编码; 13 )排除乱码的处理。优选地,所述双语句具体为英汉双语句;所述步骤A具体为确定英汉 双语句对中采用单词数或字符个数,用所述汉语句中的单词数或字符个数比 上所述英双语句中采用单词数或字符个数,得出句长比例特征值。优选地,所述双语句具体为英汉双语句;所述统计英汉双语句对中不同 词性的数量,具体为统计英汉双语句对中名词、动词、形容词及介词的数量。本专利技术还提供一种英汉双语语料库过滤系统,包括句长比例计算单元、 互翻译性计算单元、训练分类模型单元以及分类单元;所述句长比例计算单元,用于确定双语句对的句长比例特征值;所述互翻译性计算单元,用于分别统计双语句对中不同词性的数量,分 别计算所述词性的词与所迷双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;所述训练分类模型单元,用于建立的训练分类才莫型;所述分类单元,与所述句长比例计算单元、互翻译性计算单元和训练分 类模型单元相连,用于根据预先利用训练集建立的分类模型,利用所述句长 比例特征值和所述互翻译性特征值进行过滤分类。优选地,所述训练分类模型单元按照双语语料库中 一定比例的好坏句对 组成的训练集,同时标注每个句对的类别值,设定好句对为1,坏句对为-1。优选地,所述系统进一步包括数词匹配单元,用于将双语句对中的数词 分别统一进行数字的转化,当双语句对中的数词转化后的数字匹配,确定数 词匹配特征值为l,当所述数词不匹配,确定数词匹配特征值为0。与上述现有技术相比,本专利技术实施例所述双语语料库过滤方法,包括确 定双语句对的句长比例特征值和互翻译性特征值的步骤,再根据预先建立的 训练分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分 类。这样本专利技术实施例所述双语语料库的过滤方法能够快速方便的处理数据 量庞大的双语语料库。本专利技术利用训练分类模型的分类的思想将双语语料库 的过滤问题转换为二元分类问题,使得双语语料库匹配特征的权值能够更加 科学合理的确定,比现有经验的方法更具普适性,准确率和召回率也得到相 应的提高。 附图说明图1是本专利技术所述双语语料库过滤方法第一种实施例流程图2是图1中建立分类模型的流程图3是本专利技术所述双语语料库过滤方法第二种实施例流程图4是图3中建立分类模型的流程图5是本专利技术所述双语语料库过滤方法第三种实施例流程图6是图5统一所述双语句对中的编码类型的预处理流程图7是本专利技术所述双语语料库过滤系统第一种实施例结构图8是本专利技术所述双语语料库过滤系统第二种实施例结构图9是本专利技术所述双语语料库过滤系统第三种实施例结构图。 具体实施例方式本专利技术提供一种双语语料库的过滤方法,用于提高语料库通用性、准确 率和召回率。参见参考图1和图2,图1为本专利技术所述双语语料库过滤方法第一种实施例 流程图,图2是图1中建立分类模型的流程图。本专利技术第 一种实施例所述双语语料库过滤方法,包括以下步骤 S100、确定双语句对的句长比例特征值。确定双语句对中采用单词数或字符个数。用所述双语句中 一种语句中的 单词数或字符数比上所述双语句中另一种语句的单词数或字符数,所得的值 为句长比例特征值。当所述双语句为英汉双语句时,用所述汉语句中的单词数或字符个数比 上所述英双语句中采用单词数或字符个数,得出句长比例特征值。句长分别 采用单词数或者是字符的个数来计算时,二者相差不大, 一般选用单词数计 算更能体现英汉双语句对的句长比例特征。S200、分别统计双语句对中不同词性的数量,分别计算所述词性的词与 所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹 配的数量确定互翻译性特征值。统计双语句对中不同词性的数量,具体是统计双语句对中名词、动词、 形容词及介词的数量。首先,分别对双语句对进行词性标注。然后,再统计双语句对中分别含 有名词、动词、形容词和介词四种词性的词的个数。名词、动词、形容词、 介词的词性选择是基于词典翻译考虑的,因为具有这四种词性的词语的翻译 一般比较具有辨别力。对于英汉双语句对的中文句子中含有上述名词、动词、形容词、介词词 性的词,利用汉英词典翻译,并在英汉双语句对的英文句子中含有上述词性 的词中查找。若找到,则匹配,统计匹配的个数。反之,对本文档来自技高网...

【技术保护点】
一种双语语料库过滤方法,其特征在于,包括以下步骤:A、确定双语句对的句长比例特征值;B、分别统计双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;C、根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。

【技术特征摘要】
1、一种双语语料库过滤方法,其特征在于,包括以下步骤A、确定双语句对的句长比例特征值;B、分别统计双语句对中不同词性的数量,分别计算所述词性的词与所述双语的互译词典中对应的词匹配的数量,根据不同词性的数量和所述匹配的数量确定互翻译性特征值;C、根据预先利用训练集建立的分类模型,利用所述句长比例特征值和所述互翻译性特征值进行过滤分类。2、 根据权利要求1所述的过滤方法,其特征在于,所述预先利用训练集 建立的分类模型具体包括Cl、构建训练集;C2、按照步骤A、 B分别计算句长比例特征值和互翻译性特征值,利用 分类器进行训练;C3、确定分类模型。3、 根据权利要求2所述的过滤方法,其特征在于,所述训练集是按照双 语语料库中一定比例的好坏句对组成的,同时标注每个句对的类别值,设定 好句对为1,坏句对为-1。4、 根据权利要求1所述的过滤方法,其特征在于,所述步骤A之前进一 步包括确定数词匹配特征值;所述确定数词匹配特征值具体为将双语句对中的数词分别统一进行数 字的转化,当双语句对中的数词转化后的数字匹配,确定数词匹配特征值为1, 当所述数词不匹配,确定数词匹配特征值为0。5、 根据权利要求1所述的过滤方法,其特征在于,所述步骤A之前进一 步包括统一所述双语句对中的编码类型的预处理。6、 根据权利要求5所述的过滤方法,其特征在于,所述双语句具体为英 汉双语句;统一所述双语句对中的编码类型的预处理具体包括11) 将所述英汉双语句对进行全角转半角处理;12) 将繁体编码转换为简体国...

【专利技术属性】
技术研发人员:王刚高立琦刘挺王海洲
申请(专利权)人:北京金山软件有限公司北京金山数字娱乐科技有限公司哈尔滨工业大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1