平行语料对齐方法、系统、设备和存储介质技术方案

技术编号:35440783 阅读:15 留言:0更新日期:2022-11-03 11:51
本发明专利技术涉及计算机技术领域,具体涉及平行语料对齐方法、系统、设备和存储介质,包括:获取段落单元,将段落单元划分为若干语句,同时生成段落单元的树结构;对每个语句进行切词划分得到若干词组,翻译获得若干词组释义单元;生成词组释义单元与原文语句的对齐映射;进行排列组合后得到若干个翻译参考段落,并选择确定最接近的翻译参考段落;待对齐译文与原文进行对齐。本发明专利技术通过将原文细化形成段落化、语句化和词组化,拆分过程中保留可对齐映射关系;通过对词组的扩展和翻译形成多种词组释义单元,并排列组合形成多种语句释义单元和翻译参考段落,匹配到最接近的翻译参考段落,待对齐译文按照该翻译参考段落的对齐映射关系即可对齐至原文。可对齐至原文。可对齐至原文。

【技术实现步骤摘要】
平行语料对齐方法、系统、设备和存储介质


[0001]本专利技术涉及计算机
,具体涉及平行语料对齐方法、系统、设备和存储介质。

技术介绍

[0002]平行语料库在机器翻译、辅助翻译、语义消岐和词典编撰等众多领域都起着基础性的作用。平行语料库的对齐是指,将原文和译文按不同的分割粒度进行对应,形成规范的语对。语料对齐的单位从大到小有篇章、段落、句子、词等不同的粒度,粒度越小的平行语料,其提供的语言信息就越丰富,应用价值也越大。
[0003]在当前的语料对齐操作中,语料如果是按篇章或段落对齐,可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句或更小粒度进行对齐则无法这样简单处理,由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以这种粒度小于句子的原译文对齐工作往往需要人工来处理,既费时费力,效率也很低。例如专利文件CN104281716B公开的“平行语料的对齐方法及装置”,通过优化词典提高平行语料对齐的正确率,但始终无法解决小颗粒对齐的效率。
[0004]故需要提出更为合理的技术方案,解决现有技术中存在的技术问题。

技术实现思路

[0005]至少为克服其中一种上述内容提到的缺陷,本专利技术提出平行语料对齐方法、系统、设备和存储介质,通过将原文切割为更小粒度的组成单元,生成与待对齐译文最接近的翻译参考单元,同时即形成了翻译参考单元与原文的对齐映射关系,待对齐译文经过修正后参考翻译参考单元的对齐映射关系,可快速实现与原文的对齐。
[0006]为了实现上述目的,本专利技术可采用如下提出的技术方案:
[0007]平行语料对齐方法,包括:
[0008]获取原文与待对齐译文的段落单元,使原文与待对齐译文的段落单元对应匹配;
[0009]将原文的段落单元按语句顺序划分为若干语句,并同时生成段落单元的树结构;
[0010]对每个语句进行切词划分得到若干词组,对词组进行翻译以获得若干词组释义单元;同时生成词组释义单元与原文语句的对齐映射;
[0011]根据生成的若干词组释义单元生成若干语句释义单元,进行排列组合后得到若干个翻译参考段落,并选择确定最接近待对齐译文段落单元的翻译参考段落;
[0012]待对齐译文的段落单元采用翻译参考段落的对齐映射关系与原文进行对齐。
[0013]上述公开平行语料对齐方法,通过对原文进行段落化、语句化以及词组化的拆分分析,根据多种翻译的方式和风格生成翻译参考段落,生成的多种翻译参考段落能够囊括多种翻译风格的译文,因此可确定出最接近的翻译参考段落,经过适当的调整和修改后即可将待对齐译文与该翻译参考段落匹配;同时,在原文进行段落化、与句话和词组化的拆分
过程中,同步形成了从原文到词组的映射对齐关系,而确定最接近的翻译参考段落后,按照该段落的映射对齐关系即可将译文对齐至原文。整个过程自动化程度高,准确率高。
[0014]进一步的,本专利技术对语句进行分析的过程中,考虑到语句的精简,减少部分词组的干扰,仅保留其中的部分词组,具体的,此处进行优化并举出其中一种可行的选择:在对每个语句进行切词划分得到若干词组时,保留所有的实义词,去除所有的停用词。采用如此方案时,实义词的含义能够清楚表达语句的含义,并且仅对实义词进行对齐,可减少不必要的词组对齐操作,提高对齐的效率。
[0015]进一步的,为了尽量多的提供翻译方式和内容,便于确定与译文最接近的翻译参考段落,本专利技术进行优化并举出如下的一种选择:在生成词组释义单元时,获取每个实义词的所有翻译内容,并采用排列组合的方式生成语句释义单元,语句释义单元与原文段落单元中的句子对应,每个实义词的所有翻译内容采用相同的对齐映射。采用如此方案时,每个实义词都能够根据不同的翻译方式、翻译风格生成多个翻译内容,根据排列组合的方式可生成若干个翻译参考的语句,多个语句再通过排列组合的方式可形成多种参考翻译段落,由此提供了足够多与待对齐译文进行匹配的内容,能够最大程度的确定与待对齐译文最接近的翻译参考段落。
[0016]再进一步,部分实义词经过翻译后,与译文仍然存在差异,导致匹配过程不够准确,为了提高翻译的正确性,此处进行优化改进并举出如下一种可行的选择:生成每个实义词的近义词,并根据近义词获得对应的翻译内容,并采用排列组合的方式生成语句释义单元,每个近义词的翻译内容采用相同于对应实义词的对齐映射。采用如此方案时,能够通过近义词拓展更多的翻译参考内容,从而可增加与译文高度匹配的几率。
[0017]进一步的,通过确定最接近的翻译参考段落,能够快速的找到对齐映射关系,具体在操作时,可进行优化并采用如下一种选择:在确定最接近待对齐译文段落单元的翻译参考段落时,分析并生成待对齐译文的树结构,选择与待对齐译文相同树结构的翻译参考段落。采用如此方案时,树结构相同的翻译参考段落和待对齐译文,其内部语句的对应关系更为一致,采用翻译参考段落的对齐映射关系更加适用。
[0018]进一步的,在对实义词进行扩展和翻译的过程中,不仅仅考虑到实义词本身的多种释义,其近义词的多种释义,还可以考虑多种其他的释义,例如在此处进行优化并举出其中一种可行的选择:还包括缩写词匹配,对实义词的缩写词进行列举并形成缩写词库,当待对齐译文中出现缩写词时,在缩写词库中进行搜索匹配并进行释义。采用如此方案时,缩写词能够解决部分词组无法直译的问题,通过将缩写词所对应的词组或短语完整展示并进行翻译,可提高语句翻译的正确率。
[0019]上述内容对本专利技术中的平行语料对齐方法进行了解释说明,本专利技术还公开了一种对齐系统,此处进行解释说明。
[0020]平行语料对齐系统,包括:
[0021]获取单元,用于获取原文和待对齐译文,并分别划分获取其段落单元;
[0022]句法树单元,用于识别段落单元中的语句,并将段落单元划分成若干独立的语句;
[0023]分词单元,用于切分语句中的实义词与停用词,对语句中的实词进行识别并提取,以生成若干词组;
[0024]对齐单元,用于将词组映射与原文对齐,同时使词组释义单元、翻译参考段落和待
对齐译文的段落单元与原文对齐。
[0025]上述公开的对齐系统,能够自动化运行,按照前文所述的对齐方法对原文和译文进行匹配对齐。
[0026]进一步的,对齐单元在实现译文和原文对齐的过程中,通过双向流程将译文对齐映射至原文,具体的,可进行优化并采用如下一种可行的选择:所述的对齐单元包括正向映射模块和逆向对齐模块,正向映射模块用于生成词组释义单元与原文的映射关系,逆向对齐模块用于使待对齐译文的语句按照映射关系与原文对齐。
[0027]本专利技术还公开了平行语料对齐设备,包括处理器,搭载了前文所述的平行语料对齐系统,当平行语料对齐系统运行时,处理器用于处理获取单元、句法树拒单、分词单元和对齐单元的通信数据。
[0028]本专利技术还公开了平行语料对齐存储介质,存储有前本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.平行语料对齐方法,其特征在于,包括:获取原文与待对齐译文的段落单元,使原文与待对齐译文的段落单元对应匹配;将原文的段落单元按语句顺序划分为若干语句,并同时生成段落单元的树结构;对每个语句进行切词划分得到若干词组,对词组进行翻译以获得若干词组释义单元;同时生成词组释义单元与原文语句的对齐映射;根据生成的若干词组释义单元生成若干语句释义单元,进行排列组合后得到若干个翻译参考段落,并选择确定最接近待对齐译文段落单元的翻译参考段落;待对齐译文的段落单元采用翻译参考段落的对齐映射关系与原文进行对齐。2.根据权利要求1所述的平行语料对齐方法,其特征在于:在对每个语句进行切词划分得到若干词组时,保留所有的实义词,去除所有的停用词。3.根据权利要求2所述的平行语料对齐方法,其特征在于:在生成词组释义单元时,获取每个实义词的所有翻译内容,并采用排列组合的方式生成语句释义单元,语句释义单元与原文段落单元中的句子对应,每个实义词的所有翻译内容采用相同的对齐映射。4.根据权利要求2或3所述的平行语料对齐方法,其特征在于:生成每个实义词的近义词,并根据近义词获得对应的翻译内容,并采用排列组合的方式生成语句释义单元,每个近义词的翻译内容采用相同于对应实义词的对齐映射。5.根据权利要求1所述的平行语料对齐方法,其特征在于:在确定最接近待对齐译文段落单元的翻译参考段落时,分析...

【专利技术属性】
技术研发人员:符甜何武平
申请(专利权)人:火星语盟深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1