平行语料对齐的方法和装置制造方法及图纸

技术编号：15079742 阅读：65 留言：0更新日期：2017-04-07 12:16

一种平行语料对齐的方法，包括：将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符；对转换后的原文中的所有原文语句分词，去除其中的停用词，获得实义词；获取原文语句的每个实义词的所有译项；将每个原文语句的每个实义词的所有译项在转换后的译文中的所有译文语句中进行匹配，获得每个原文语句的每个实义词和译文语句的相似度；根据每个原文语句的所有实义词和译文语句的相似度，将每个原文语句和译文语句进行匹配，获得每个原文语句和译文语句的相似度；将与原文语句相似度最高的译文语句和原文语句匹配并对齐。本发明专利技术公开一种平行语料对齐的装置。该方法和装置解决原文和译文对齐问题。

Method and apparatus for alignment of parallel corpora

Includes a method of parallel corpus alignment: all the sentences all the original statements and the text in the converted to the same encoding character; of all the original sentence converted in the text, remove the stop words, the real meaning of a word; all the translation of each content word from the original statement; each real word of each sentence of the text in the translation of all converted translation in all translations in the statement, the original statement for each similarity of each words and the sentence; according to the similarity all words and translation of each sentence of the original statement, match each of the original statement and the statement, obtained the original statement and the similarity of each statement; the statement and the original statement with the highest similarity matching and alignment . The invention discloses a device for aligning parallel corpora. The method and apparatus are used to solve the problem of alignment between the original text and the target text.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及翻译
，具体涉及一种平行语料对齐的方法和装置。
技术介绍
平行语料库在机器翻译、辅助翻译、语义消岐和词典编撰等众多领域都起着基础性的作用。平行语料库的对齐是指，将原文和译文按不同的分割粒度进行对应，形成规范的语对。语料对齐的单位从大到小有篇章、段落、句子、词等不同的粒度，粒度越小的平行语料，其提供的语言信息就越丰富，应用价值也越大。一般而言，语料如果是按篇章或段落对齐，可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句或更小粒度进行对齐则无法这样简单处理，由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因，段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以这种粒度小于句子的原译文对齐工作往往需要人工来处理，既费时费力，效率也很低。
技术实现思路
本专利技术实施例的目的在于克服现有技术的上述不足，提供一种平行语料对齐的方法，该方法基于实义词的相似度，解决了原文和译文对齐的问题。本专利技术实施例的另一目的在于克服现有技术的上述不足，提供一种平行语料对齐的装置，该装置基于实义词的相似度，解决了原文和译文对齐的问题。为了实现上述专利技术目的，本专利技术实施例的技术方案如下：一种平行语料对齐的方法，包括：将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符；对转换后的所述原文中的所有所述原文语句分词...

【技术保护点】
一种平行语料对齐的方法，其特征在于，包括：将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的字符；对转换后的所述原文中的所有所述原文语句分词，去除其中的停用词，获得实义词；获取所述原文语句的每个实义词的所有译项；将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文语句的相似度；根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度；将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐。

【技术特征摘要】
1.一种平行语料对齐的方法，其特征在于，包括：
将原文中的所有原文语句和译文中的所有译文语句转换为相同编码方式的
字符；
对转换后的所述原文中的所有所述原文语句分词，去除其中的停用词，获
得实义词；
获取所述原文语句的每个实义词的所有译项；
将每个所述原文语句的每个实义词的所有译项在转换后的所述译文中的所
有所述译文语句中进行匹配，获得每个所述原文语句的每个实义词和所述译文
语句的相似度；
根据每个所述原文语句的所有实义词和所述译文语句的相似度，将每个所
述原文语句和所述译文语句进行匹配，获得每个所述原文语句和所述译文语句
的相似度；
将与所述原文语句相似度最高的所述译文语句和所述原文语句匹配并对
齐。
2.如权利要求1所述的平行语料对齐的方法，其特征在于，所述将每个所
述原文语句的每个实义词的所有译项在所有所述译文语句中进行匹配，获得每
个所述原文语句的每个实义词和所述译文语句的相似度的过程包括：
根据sim(nwjl,TRinwr)＝L/(dis(nwjl,TRinwr)+L)获得原文语句OR的第j个
实义词的第l个译项nwjl与第i个译文语句TRi的第r个实义词TRinwr的相似度；
根据sim(nwjl,TRi)=maxr=1,2,...,p(sim(nwjl,TRinwr))]]>获得所述原文语句OR的第j个
实义词的第l个译项nwjl与所述译文语句TRi的相似度；
根据sim(nwj,TRi)=maxl=1,2,...,k(sim(nwjl,TRi))]]>获得所述原文语句OR的第j个实
义词nwj和第i个所述译文语句TRi的相似度；
其中，所述原文语句OR具有m个实义词，所述译文中共有n个所述译文
语句，所述译文语句TRi具有p个实义词，第j个实义词具有k个译项，L表示
调节参数，dis(nwjl,TRinwr)表示所述原文语句OR的第j个实义词的第l个译项
nwjl和第i个所述译文语句TRi的第r个实义词TRinwr在词典中的代码的距离，
i＝1，2，…，n，j＝1，2，…，m，l＝1，2，…，k，r＝1，2，…，p。
3.如权利要求2所述的平行语料对齐的方法，其特征在于，所述根据每个
所述原文语句的所有实义词和所述译文语句的相似度，将每个所述原文语句和
所述译文语句进行匹配，获得每个所述原文语句和所述译文语句的相似度的过
程包括：
根据获得所述原文语句OR与所述译文语
句TRi的相似度。
4.如权利要求3所述的平行语料对齐的方法，其特征在于，所述将与所述
原文语句相似度最高的所述译文语句和所述原文语句匹配并对齐的过程包括：
根据maxi=1,2,...,n(sim(OR,TRi))=maxi=1,2,...,n(Πj=1,2,...,msim(nwj,TRi))]]>获得与所述原文语句
OR的相似度最高的所述译文语句；
将与所述原文语句OR的相似度最高的所述译文语句和所述原文语句OR
匹配，并对齐所述原文语句OR和所述译文语...

【专利技术属性】
技术研发人员：江潮，张芃，
申请(专利权)人：武汉传神信息技术有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人