平行语料对齐方法、系统、设备和存储介质技术方案

技术编号：35440783 阅读：15 留言：0更新日期：2022-11-03 11:51

本发明专利技术涉及计算机技术领域，具体涉及平行语料对齐方法、系统、设备和存储介质，包括：获取段落单元，将段落单元划分为若干语句，同时生成段落单元的树结构；对每个语句进行切词划分得到若干词组，翻译获得若干词组释义单元；生成词组释义单元与原文语句的对齐映射；进行排列组合后得到若干个翻译参考段落，并选择确定最接近的翻译参考段落；待对齐译文与原文进行对齐。本发明专利技术通过将原文细化形成段落化、语句化和词组化，拆分过程中保留可对齐映射关系；通过对词组的扩展和翻译形成多种词组释义单元，并排列组合形成多种语句释义单元和翻译参考段落，匹配到最接近的翻译参考段落，待对齐译文按照该翻译参考段落的对齐映射关系即可对齐至原文。可对齐至原文。可对齐至原文。

全部详细技术资料下载

【技术实现步骤摘要】
平行语料对齐方法、系统、设备和存储介质

[0001]本专利技术涉及计算机
，具体涉及平行语料对齐方法、系统、设备和存储介质。

技术介绍

[0002]平行语料库在机器翻译、辅助翻译、语义消岐和词典编撰等众多领域都起着基础性的作用。平行语料库的对齐是指，将原文和译文按不同的分割粒度进行对应，形成规范的语对。语料对齐的单位从大到小有篇章、段落、句子、词等不同的粒度，粒度越小的平行语料，其提供的语言信息就越丰富，应用价值也越大。
[0003]在当前的语料对齐操作中，语料如果是按篇章或段落对齐，可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句或更小粒度进行对齐则无法这样简单处理，由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因，段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以这种粒度小于句子的原译文对齐工作往往需要人工来处理，既费时费力，效率也很低。例如专利文件CN104281716B公开的“平行语料的对齐方法及装置”，通过优化词典提高平行语料对齐的正确率，但始终无法解决小颗粒对齐的效率。
[0004]故需要提出更为合理的技术方案，解决现有技术中存在的技术问题。

技术实现思路

[0005]至少为克服其中一种上述内容提到的缺陷，本专利技术提出平行语料对齐方法、系统、设备和存储介质，通过将原文切割为更小粒度的组成单元，生成与待对齐译文最接近的翻译参考单元，同时即形成了翻译参考单元与原文的对齐映射关系，待对齐译文经过修正后参考翻译参考单...

【技术保护点】

【技术特征摘要】
1.平行语料对齐方法，其特征在于，包括：获取原文与待对齐译文的段落单元，使原文与待对齐译文的段落单元对应匹配；将原文的段落单元按语句顺序划分为若干语句，并同时生成段落单元的树结构；对每个语句进行切词划分得到若干词组，对词组进行翻译以获得若干词组释义单元；同时生成词组释义单元与原文语句的对齐映射；根据生成的若干词组释义单元生成若干语句释义单元，进行排列组合后得到若干个翻译参考段落，并选择确定最接近待对齐译文段落单元的翻译参考段落；待对齐译文的段落单元采用翻译参考段落的对齐映射关系与原文进行对齐。2.根据权利要求1所述的平行语料对齐方法，其特征在于：在对每个语句进行切词划分得到若干词组时，保留所有的实义词，去除所有的停用词。3.根据权利要求2所述的平行语料对齐方法，其特征在于：在生成词组释义单元时，获取每个实义词的所有翻译内容，并采用排列组合的方式生成语句释义单元，语句释义单元与原文段落单元中的句子对应，每个实义词的所有翻译内容采用相同的对齐映射。4.根据权利要求2或3所述的平行语料对齐方法，其特征在于：生成每个实义词的近义词，并根据近义词获得对应的翻译内容，并采用排列组合的方式生成语句释义单元，每个近义词的翻译内容采用相同于对应实义词的对齐映射。5.根据权利要求1所述的平行语料对齐方法，其特征在于：在确定最接近待对齐译文段落单元的翻译参考段落时，分析...

【专利技术属性】
技术研发人员：符甜，何武平，
申请(专利权)人：火星语盟深圳科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人