当前位置: 首页 > 专利查询>清华大学专利>正文

平行句对的筛选方法和系统技术方案

技术编号:14565151 阅读:73 留言:0更新日期:2017-02-05 22:31
本发明专利技术涉及一种平行句对的筛选方法和系统,该方法包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算源语言语句中每一个词在该源语言语句中的权重值;计算目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数;计算目标函数的最优解,并根据最优解确定该待筛句对的泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据平行句对筛选标准进行平行句对的筛选。本发明专利技术针对平行句对的筛选工作而专门设计,没有假定语料都是互译的,能够对互联网上大量的粗糙的双语语料进行筛选,从而得到高质量的、可靠的双语语料。

【技术实现步骤摘要】

本专利技术涉及机器翻译
,尤其是涉及一种平行句对的筛选方法和系统
技术介绍
随着国际交流的日益深入,人们对语言翻译的需求与日俱增。然而,世界上的语言种类繁多,各有特征,形式灵活,使得语言的机器翻译成为尚待解决的难题。为了实现自动的机器翻译,目前的翻译技术一般基于统计模型,而建立可靠的统计模型需要建立大规模高质量的平行语料。然而,高质量的平行语料常常只存在于少量的几种语言中,而且往往受限于特定的领域,例如政府文件、新闻等。随着互联网的兴起,国际信息的交流变得空前便捷,人们对高质量机器翻译的需求也愈加迫切。与此同时,互联网也为机器翻译带来了新的机遇。互联网上的大量语料,使得获得多种语言、多个领域的平行语料成为可能。然而,互联网上语料的质量参差不齐,直接获取的双语语料中可能包含大量噪声,反而不适合机器翻译系统。为此,需要对粗糙的双语语料进行处理,从中筛选出可靠的平行句对。目前的平行句对筛选方法依赖于词语对齐技术,词语对齐技术并非为平行句对的筛选开发,而是假定输入语料是互译的,因此不适合充满噪声的输入语料。
技术实现思路
本专利技术所要解决的技术问题是如何从大量的粗糙的双语语料中筛选出可靠的平行句对。为解决上述技术问题,本专利技术提出了一种平行句对的筛选方法和系统。第一方面,该方法包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算所述源语言语句中每一个词在该源语言语句中的权重值;计算所述目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数,其中:该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。可选的,该方法还包括:将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。可选的,所述利用双语词向量模型确定切分得到的每一个词的词向量,包括:建立数据集,该数据集中包括单语训练集和双语训练集;利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;从训练语料的词向量中筛选出该待筛句对中切分得到的每一个词的词向量。可选的,该方法还包括:将根据所述平行句对筛选标准筛选出的平行句对加入所述双语训练集中。可选的,所述根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,包括:根据所述若干个待筛句对的泥土移动距离设置筛选比例或设置筛选距离阈值,将所述筛选比例或所述筛选距离阈值作为所述平行句对筛选标准。可选的,采用下式计算目标语言语句或源语言语句中第i个词的权重值:ti/si=TF(i)×IDF(i)Σk=1vt/vs[TF(k)×IDF(k)]]]>其中,ti为目标语言语句中第i个词的权重值,si为源语言语句中第i个词的权重值,TF(i)为相应语句中第i个词的词频,IDF(i)为所述相应语句中第i个词的逆文档频率,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量。可选的,所建立的目标函数为:该目标函数的约束条件包括:wij≥0Σj=1vswij=ti]]>Σi=1vtwij=sj]]>其中,d为泥土移动距离的最小值,cij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的距离,wij为目标语言语句中第i个词的词向量与源语言语句中第j个词的词向量之间的转移量,vt为目标语言语句所切分得到的词的数量,vs为源语言语句所切分得到的词的数量,ti为目标语言语句中第i个词的权重值,sj为源语言语句中第j个词的权重值。第二方面,该系统包括:切分模块,用于将每一待筛句对中的源语言语句和目标语言语句均切分成词;词向量确定模块,用于利用双语词向量模型确定切分得到的每一个词的词向量;第一计算模块,用于计算所述源语言语句中每一个词在该源语言语句中的权重值;第二计算模块,用于计算所述目标语言语句中每一个词在该目标语言语句中的权重值;函数建立模块,用于建立一目标函数,其中:该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和,所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;第三计算模块,用于计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离;标准确定模块,用于根据若干个待筛句对的泥土移动距离确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。可选的,该系统还包括:预处理模块,用于将所述源语言语句和所述目标语言语句切分所得到的词转换为统一的大小写。可选的,所述词向量确定模块包括:建立单元,用于建立数据集,该数据集中包括单语训练集和双语训练集;训练单元,用于利用双语词向量模型对所述单语训练集和所述双语训练集中的训练语料进行训练,得到每一训练语料的词向量;筛选单元,用于从训练语料的词向量中筛选出该待筛句对中切分得到的每本文档来自技高网...
平行句对的筛选方法和系统

【技术保护点】
一种平行句对的筛选方法,其特征在于,包括:将每一待筛句对中的源语言语句和目标语言语句均切分成词;利用双语词向量模型确定切分得到的每一个词的词向量;计算所述源语言语句中每一个词在该源语言语句中的权重值;计算所述目标语言语句中每一个词在该目标语言语句中的权重值;建立一目标函数,其中:该目标函数的控制变量为所述源语言语句中每一个词与所述目标语言语句中每一个词之间的转移量;该目标函数的优化目标为该待筛句对中源语言语句和目标语言语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句中每一个词的词向量与所述目标语言语句中每一个词的词向量之间的距离与对应的转移量之间的乘积之和;该目标函数的约束条件包括:每一所述转移量大于等于0、所述目标语言语句中每一个词的权重值等于该词与所述源语言语句中每一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等于该词与所述目标语言语句中每一个词之间的转移量之和;计算所述目标函数的最优解,并根据所述最优解确定该待筛句对的所述泥土移动距离最小值;根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选标准,并根据所述平行句对筛选标准进行平行句对的筛选。

【技术特征摘要】
1.一种平行句对的筛选方法,其特征在于,包括:
将每一待筛句对中的源语言语句和目标语言语句均切分成词;
利用双语词向量模型确定切分得到的每一个词的词向量;
计算所述源语言语句中每一个词在该源语言语句中的权重值;
计算所述目标语言语句中每一个词在该目标语言语句中的权重
值;
建立一目标函数,其中:
该目标函数的控制变量为所述源语言语句中每一个词与所述目
标语言语句中每一个词之间的转移量;
该目标函数的优化目标为该待筛句对中源语言语句和目标语言
语句之间的泥土移动距离最小,所述泥土移动距离为所述源语言语句
中每一个词的词向量与所述目标语言语句中每一个词的词向量之间
的距离与对应的转移量之间的乘积之和;
该目标函数的约束条件包括:每一所述转移量大于等于0、所述
目标语言语句中每一个词的权重值等于该词与所述源语言语句中每
一个词之间的转移量之和、及所述源语言语句中每一个词的权重值等
于该词与所述目标语言语句中每一个词之间的转移量之和;
计算所述目标函数的最优解,并根据所述最优解确定该待筛句对
的所述泥土移动距离最小值;
根据若干个待筛句对的泥土移动距离最小值确定平行句对筛选
标准,并根据所述平行句对筛选标准进行平行句对的筛选。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述源语言语句和所述目标语言语句切分所得到的词转换为
统一的大小写。
3.根据权利要求1所述的方法,其特征在于,所述利用双语词向
量模型确定切分得到的每一个词的词向量,包括:
建立数据集,该数据集中包括单语训练集和双语训练集;
利用双语词向量模型对所述单语训练集和所述双语训练集中的
训练语料进行训练,得到每一训练语料的词向量;
从训练语料的词向量中筛选出该待筛句对中切分得到的每一个
词的词向量。
4.根据权利要求3所述的方法,其特征在于,还包括:
将根据所述平行句对筛选标准筛选出的平行句对加入所述双语
训练集中。
5.根据权利要求1所述的方法,其特征在于,所述根据若干个待
筛句对的泥土移动距离确定平行句对筛选标准,包括:
根据所述若干个待筛句对的泥土移动距离设置筛选比例或设置
筛选距离阈值,将所述筛选比例或所述筛选距离阈值作为所述平行句
对筛选标准。
6.根据权利要求1所述的方法,其特征在于,采用下式计算目标
语言语句或源语言语句中第i个词的权重值:
ti/si=TF(i)×IDF(i)Σk=1vt/vs[TF(k)×IDF(k)]]]>其中,ti为目标语言语句中第i个词的权重值,si为源语言语句中
第i个词的权重值,TF(i)为相应语句中第i个词的词频,IDF(i)为所述
相应语句中第i个词的逆文档频率,vt为目标语...

【专利技术属性】
技术研发人员:孙茂松张檬刘洋栾焕博
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1