平行语料对齐的方法和装置制造方法及图纸

技术编号:15079742 阅读:65 留言:0更新日期:2017-04-07 12:16
一种平行语料对齐的方法,包括:将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;对转换后的原文中的所有原文语句分词,去除其中的停用词,获得实义词;获取原文语句的每个实义词的所有译项;将每个原文语句的每个实义词的所有译项在转换后的译文中的所有译文语句中进行匹配,获得每个原文语句的每个实义词和译文语句的相似度;根据每个原文语句的所有实义词和译文语句的相似度,将每个原文语句和译文语句进行匹配,获得每个原文语句和译文语句的相似度;将与原文语句相似度最高的译文语句和原文语句匹配并对齐。本发明专利技术公开一种平行语料对齐的装置。该方法和装置解决原文和译文对齐问题。

Method and apparatus for alignment of parallel corpora

Includes a method of parallel corpus alignment: all the sentences all the original statements and the text in the converted to the same encoding character; of all the original sentence converted in the text, remove the stop words, the real meaning of a word; all the translation of each content word from the original statement; each real word of each sentence of the text in the translation of all converted translation in all translations in the statement, the original statement for each similarity of each words and the sentence; according to the similarity all words and translation of each sentence of the original statement, match each of the original statement and the statement, obtained the original statement and the similarity of each statement; the statement and the original statement with the highest similarity matching and alignment . The invention discloses a device for aligning parallel corpora. The method and apparatus are used to solve the problem of alignment between the original text and the target text.

【技术实现步骤摘要】

本专利技术涉及翻译
,具体涉及一种平行语料对齐的方法和装置
技术介绍
平行语料库在机器翻译、辅助翻译、语义消岐和词典编撰等众多领域都起着基础性的作用。平行语料库的对齐是指,将原文和译文按不同的分割粒度进行对应,形成规范的语对。语料对齐的单位从大到小有篇章、段落、句子、词等不同的粒度,粒度越小的平行语料,其提供的语言信息就越丰富,应用价值也越大。一般而言,语料如果是按篇章或段落对齐,可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句或更小粒度进行对齐则无法这样简单处理,由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以这种粒度小于句子的原译文对齐工作往往需要人工来处理,既费时费力,效率也很低。
技术实现思路
本专利技术实施例的目的在于克服现有技术的上述不足,提供一种平行语料对齐的方法,该方法基于实义词的相似度,解决了原文和译文对齐的问题。本专利技术实施例的另一目的在于克服现有技术的上述不足,提供一种平行语料对齐的装置,该装置基于实义词的相似度,解决了原文和译文对齐的问题。为了实现上述专利技术目的,本专利技术实施例的技术方案如下:一种平行语料对齐的方法,包括:将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。进一步,所述将每个所述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;根据获得所述原文语句OR的第j个实义词的第l个译项nwjl与所述译文语句TRi的相似度;根据获得所述原文语句OR的第j个实义词nwj和第i个所述译文语句TRi的相似度;其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,i=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。进一步,所述根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的过程包括:根据获得所述原文语句OR与所述译文语句TRi的相似度。进一步,所述将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括:根据maxi=1,2,...,n(sim(OR,TRi))=maxi=1,2,...,n(Πj=1,2,...,msim(nwj,TRi))]]>获得与所述原文语句OR的相似度最高的所述译文语句;将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR匹配,并对齐所述原文语句OR和所述译文语句。进一步,还包括:对转换后的所述原文中的所述原文语句按顺序进行编号;对转换后的所述译文中的所述译文语句按顺序进行编号;如果同一所述译文语句和多个所述原文语句的相似度均为最高,则获取多个所述原文语句在所述原文中的所述编号,以及所述译文语句在所述译文中的所述编号;如果多个所述原文语句中的一个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号最接近,则将该一个所述原文语句与所述译文语句匹配并对齐;如果多个所述原文语句中的两个所述原文语句在所述原文中的所述编号和所述译文语句在所述译文中的所述编号均为最接近,则将所述编号较小的所述原文语句与所述译文语句匹配并对齐;比较两个所述原文语句中所述编号较大的所述原文语句与剩余所述译文语句的相似度的高低,将剩余所述译文语句中与所述编号较大的所述原文语句的相似度最高的所述译文语句和所述编号较大的所述原文语句匹配并对齐;重复上述过程,直到每个所述原文语句均与每个所述译文语句匹配并对齐。进一步:所述词典为按树形结构编码的同义词分类词典,所述按树形结构编码的同义词分类词典的每个节点具有唯一的所述代码。进一步:所述调节参数L为所述按所述树形结构编码的同义词分类词典的层数。进一步,所述将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符的过程包括:根据所述原文中的所有所述原文语句的字符的编码方式读取所述原文语句中的字符或者字符串,以及根据所述译文中的所有所述译文语句的字符的编码方式读取所述译文语句中的字符或者字符串;根据相同目标编码方式分别将读取的所述原文语句和所述译文语句中的字符或者字符串转换成目标编码字符或者字符串。进一步,所述实义词包括:名词、动词、形容词和副词。以及,一种平行语料对齐的装置,包括:第一单元,用于将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;第二单元,用于对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词,获得实义词;第三单元,用于获取所述原文语句的每个实义词的所有译项;第四单元,用于将每个所述原文语句的每个实义词的所有译项在标记后的所述译文中的所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;第五单元,用于根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;第六单元,用于将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。本专利技术实施例的有益效果如下:1、本专利技术实施例的平行语料对齐的方法,基于实义词的相似度,解决了译后处理本文档来自技高网...

【技术保护点】
一种平行语料对齐的方法,其特征在于,包括:将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符;对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词,获得实义词;获取所述原文语句的每个实义词的所有译项;将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文语句的相似度;根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度;将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

【技术特征摘要】
1.一种平行语料对齐的方法,其特征在于,包括:
将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的
字符;
对转换后的所述原文中的所有所述原文语句分词,去除其中的停用词,获
得实义词;
获取所述原文语句的每个实义词的所有译项;
将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所
有所述译文语句中进行匹配,获得每个所述原文语句的每个实义词和所述译文
语句的相似度;
根据每个所述原文语句的所有实义词和所述译文语句的相似度,将每个所
述原文语句和所述译文语句进行匹配,获得每个所述原文语句和所述译文语句
的相似度;
将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对
齐。
2.如权利要求1所述的平行语料对齐的方法,其特征在于,所述将每个所
述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配,获得每
个所述原文语句的每个实义词和所述译文语句的相似度的过程包括:
根据sim(nwjl,TRinwr)=L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个
实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度;
根据sim(nwjl,TRi)=maxr=1,2,...,p(sim(nwjl,TRinwr))]]>获得所述原文语句OR的第j个
实义词的第l个译项nwjl与所述译文语句TRi的相似度;
根据sim(nwj,TRi)=maxl=1,2,...,k(sim(nwjl,TRi))]]>获得所述原文语句OR的第j个实
义词nwj和第i个所述译文语句TRi的相似度;
其中,所述原文语句OR具有m个实义词,所述译文中共有n个所述译文
语句,所述译文语句TRi具有p个实义词,第j个实义词具有k个译项,L表示
调节参数,dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项
nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离,
i=1,2,…,n,j=1,2,…,m,l=1,2,…,k,r=1,2,…,p。
3.如权利要求2所述的平行语料对齐的方法,其特征在于,所述根据每个
所述原文语句的所有实义词和所述译文语句的相似度,将每个所述原文语句和
所述译文语句进行匹配,获得每个所述原文语句和所述译文语句的相似度的过
程包括:
根据获得所述原文语句OR与所述译文语
句TRi的相似度。
4.如权利要求3所述的平行语料对齐的方法,其特征在于,所述将与所述
原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括:
根据maxi=1,2,...,n(sim(OR,TRi))=maxi=1,2,...,n(Πj=1,2,...,msim(nwj,TRi))]]>获得与所述原文语句
OR的相似度最高的所述译文语句;
将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR
匹配,并对齐所述原文语句OR和所述译文语...

【专利技术属性】
技术研发人员:江潮张芃
申请(专利权)人:武汉传神信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1