译文检测方法及装置制造方法及图纸

技术编号:26598920 阅读:51 留言:0更新日期:2020-12-04 21:21
本申请示出了一种译文检测方法及装置。在本申请中,获取翻译文本;获取翻译文本的第一局部信息以及获取翻译文本的第一全局信息;至少根据第一局部信息和第一全局信息确定翻译文本是否为机翻译文。如果翻译文本是基于NMT的文本翻译模型翻译得到的,本申请通过翻译文本的第一局部信息以及翻译文本的第一全局信息可以准确地检测出翻译文本是否为机翻译文。从而相比于现有技术,本申请可以提高检测基于NMT的文本翻译模型翻译得到的翻译文本是否为机翻译文时的检测准确率。

【技术实现步骤摘要】
译文检测方法及装置
本申请涉及计算机
,特别是涉及一种译文检测方法及装置。
技术介绍
当前,文本翻译在各行各业中的作用越来越重要,最初的文本翻译是基于人工翻译,但是人工翻译的人工成本较高,因此,为了降低人工成本,逐渐使用基于文本翻译模型进行翻译,事先可以训练文本翻译模型,以使广大用户可以借助文本翻译模型翻译文本。最初使用的文本翻译模型的质量有限,也即,使用文本翻译模型翻译的文本的准确率有限。为了提高翻译的准确率,之后需要训练高质量的文本翻译模型,在训练高质量的文本翻译模型时,往往需要使用双语语料,双语语料包括一种语言的原始文本以及原始文本在另一种语言中的翻译文本,例如,双语语料中包括英语文本和该英语文本在汉语中的翻译文本,英语文本包括“It'sanicedaytoday”,在汉语中的翻译文本包括“今天天气很好”。其中,可以在网络上搜集大量的双语语料,然而,有些双语语料的翻译文本是人工翻译的,有些双语语料的翻译文本是使用现有的低质量的文本翻译模型翻译的。由于使用现有的低质量的文本翻译模型翻译得到的翻译文本的准确率较低,因此使用包含准确率较低的翻译文本的双语预料训练文本翻译模型时,仍旧会导致训练出的文本翻译模型的质量较低。所以,需要在搜集的双语预料中去除一些双语语料,这些双语语料包括的翻译文本是通过文本翻译模型翻译得到的,然后使用剩余的双语语料训练文本翻译模型。其中,前述提到的低质量的文本翻译模型文本翻译模型通常为基于SMT(StatisticalMachineTranslation,统计机器翻译)的模型,因此,可以针对基于SMT模型翻译得到的翻译文本的特征来检测翻译文本是否为机翻译文,由于基于SMT模型翻译得到的翻译文本的质量较低,因此,在检测翻译文本是否为机翻译文时,通常是语言专家人工选取翻译文本的特征,特征包括翻译文本中包括的字符的长度、翻译文本中的诸如连词和虚词等功能词的数量以及功能词在翻译文本中的位置等,之后根据这些特征是否符合正常的语法习惯来检测翻译文本是否为机翻译文。然而,随着技术的飞速发展,基于NMT(NeuralMachineTranslation,神经网络机器翻译)的文本翻译模型也逐渐进入人们的视野,基于NMT的文本翻译模型的质量往往较高,也即,基于NMT的文本翻译模型翻译得到的翻译文本的准确率较高,基于NMT的文本翻译模型翻译得到的翻译文本的上述的特征通常符合正常的语法习惯,因此,通过上述方式往往会将基于NMT的文本翻译模型翻译得到的翻译文本确定为不是机翻译文,但是,基于NMT的文本翻译模型翻译得到的翻译文本也会存在错翻和漏翻等情况,因此,使用现有技术的方法在检测基于NMT的文本翻译模型翻译得到的翻译文本是否为机翻译文时的检测准确率较低。
技术实现思路
为解决上述技术问题,本申请实施例示出了一种译文检测方法及装置。第一方面,本申请实施例示出了一种译文检测方法,所述方法包括:获取翻译文本;获取所述翻译文本的第一局部信息以及第一全局信息;至少根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文。在一个可选的实现方式中,所述第一局部信息包括所述翻译文本中的各个子文本的第一语义信息和所述各个子文本的第一语法信息;所述第一全局信息包括所述翻译文本的第二语义信息和所述各个子文本之间的第一语义逻辑相关度。在一个可选的实现方式中,所述根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文,包括:根据所述第一语法信息和/或所述第一语义逻辑相关度获取所述翻译文本的第一语义流畅度;获取所述第一语义信息与所述第二语义信息之间的第一语义相似度;根据所述第一语义流畅度和所述第一语义相似度确定所述翻译文本是否为机翻译文。在一个可选的实现方式中,所述根据所述第一语法信息和/或所述第一语义逻辑相关度获取所述翻译文本的第一语义流畅度,包括:将所述第一语法信息和/或所述一语义逻辑相关度输入语义流畅度获取模型中,得到所述获取语义流畅度获取模型输出的所述翻译文本的第一语义流畅度。在一个可选的实现方式中,所述方法还包括:获取样本信息集合,样本信息集合中包括至少一个样本文本的样本局部信息和/或样本全局信息,且所述样本局部信息和/或所述样本全局信息中标注有所述样本文本的样本语义流畅度;使用所述样本信息集合中的样本文本的样本局部信息和/或样本全局信息对模型进行训练,直至所述模型中的权重均收敛,得到所述语义流畅度获取模型。在一个可选的实现方式中,所述获取所述第一语义信息与所述第二语义信息之间的第一语义相似度,包括:根据语义相似度获取模型获取所述第一语义信息与所述第二语义信息之间的第一语义相似度。在一个可选的实现方式中,所述方法还包括:获取多个样本信息集合,每一个样本信息集合中包括样本局部信息,以及标注有与所述样本局部信息之间的样本第一语义相似度的样本全局信息;使用所述每一个样本信息集合中的样本局部信息和样本全局信息对模型进行训练,直至所述模型中的权重均收敛,得到所述语义相似度获取模型。在一个可选的实现方式中,所述至少根据所述第一语义流畅度和所述第一语义相似度确定所述翻译文本是否为机翻译文,包括:将所述第一语义流畅度和所述第一语义相似度输入分类模型中,得到分类器输出的用于指示所述翻译文本是否为机翻译文的结果。在一个可选的实现方式中,所述方法还包括:获取多个样本信息集合,每一个样本信息集合中包括样本文本的样本语义流畅度和样本语义相似度,样本语义流畅度是根据样本文本的样本语法信息和/或样本语义逻辑相关度获取到的,样本语义相似度是根据样本文本中的各个样本子文本的第一样本语义信息和样本文本整体上的第二样本语义信息获取到的,且样本语义流畅度或样本语义相似度中标注有样本文本是否为机翻译文的标注结果;使用每一个样本信息集合中的样本语义流畅度和样本语义相似度对模型进行训练,直至模型中的权重均收敛,得到分类模型。在一个可选的实现方式中,所述至少根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文,包括:获取所述翻译文本对应的原始文本;获取原始文本的第二局部信息以及第二全局信息;根据所述第一局部信息、所述第一全局信息、所述第二局部信息和第二所述全局信息确定所述翻译文本是否为机翻译文。在一个可选的实现方式中,所述第二局部信息包括所述原始文本中的各个子文本的第三语义信息和所述原始文本中的各个子文本的第二语法信息;所述第二全局信息包括所述原始文本的第四语义信息和所述原始文本中的各个子文本之间的第二语义逻辑相关度。在一个可选的实现方式中,所述根据所述第一局部信息、所述第一全局信息、所述第二局部信息和第二所述全局信息确定所述翻译文本是否为机翻译文,包括:根据所述第一语法信息和/或所述第一语义逻辑相关度获取所述翻译文本的第一语义流畅度;<本文档来自技高网
...

【技术保护点】
1.一种译文检测方法,其特征在于,所述方法包括:/n获取翻译文本;/n获取所述翻译文本的第一局部信息以及第一全局信息;/n至少根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文。/n

【技术特征摘要】
1.一种译文检测方法,其特征在于,所述方法包括:
获取翻译文本;
获取所述翻译文本的第一局部信息以及第一全局信息;
至少根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文。


2.根据权利要求1所述的方法,其特征在于,
所述第一局部信息包括所述翻译文本中的各个子文本的第一语义信息和所述各个子文本的第一语法信息;
所述第一全局信息包括所述翻译文本的第二语义信息和所述各个子文本之间的第一语义逻辑相关度。


3.根据权利要求2所述的方法,其特征在于,所述根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文,包括:
根据所述第一语法信息和/或所述第一语义逻辑相关度获取所述翻译文本的第一语义流畅度;
获取所述第一语义信息与所述第二语义信息之间的第一语义相似度;
根据所述第一语义流畅度和所述第一语义相似度确定所述翻译文本是否为机翻译文。


4.根据权利要求3所述的方法,其特征在于,所述根据所述第一语法信息和/或所述第一语义逻辑相关度获取所述翻译文本的第一语义流畅度,包括:
将所述第一语法信息和/或所述一语义逻辑相关度输入语义流畅度获取模型中,得到所述获取语义流畅度获取模型输出的所述翻译文本的第一语义流畅度。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取样本信息集合,样本信息集合中包括至少一个样本文本的样本局部信息和/或样本全局信息,且所述样本局部信息和/或所述样本全局信息中标注有所述样本文本的样本语义流畅度;
使用所述样本信息集合中的样本文本的样本局部信息和/或样本全局信息对模型进行训练,直至所述模型中的权重均收敛,得到所述语义流畅度获取模型。


6.根据权利要求3所述的方法,其特征在于,所述获取所述第一语义信息与所述第二语义信息之间的第一语义相似度,包括:
根据语义相似度获取模型获取所述第一语义信息与所述第二语义信息之间的第一语义相似度。


7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取多个样本信息集合,每一个样本信息集合中包括样本局部信息,以及标注有与所述样本局部信息之间的样本第一语义相似度的样本全局信息;
使用所述每一个样本信息集合中的样本局部信息和样本全局信息对模型进行训练,直至所述模型中的权重均收敛,得到所述语义相似度获取模型。


8.根据权利要求3所述的方法,其特征在于,所述至少根据所述第一语义流畅度和所述第一语义相似度确定所述翻译文本是否为机翻译文,包括:
将所述第一语义流畅度和所述第一语义相似度输入分类模型中,得到分类器输出的用于指示所述翻译文本是否为机翻译文的结果。


9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取多个样本信息集合,每一个样本信息集合中包括样本文本的样本语义流畅度和样本语义相似度,样本语义流畅度是根据样本文本的样本语法信息和/或样本语义逻辑相关度获取到的,样本语义相似度是根据样本文本中的各个样本子文本的第一样本语义信息和样本文本整体上的第二样本语义信息获取到的,且样本语义流畅度或样本语义相似度中标注有样本文本是否为机翻译文的标注结果;
使用每一个样本信息集合中的样本语义流畅度和样本语义相似度对模型进行训练,直至模型中的权重均收敛,得到分类模型。


10.根据权利要求2所述的方法,其特征在于,所述至少根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文,包括:
获取所述翻译文本对应的原始文本;
获取原始文本的第二局部信息以及第二全局信息;
根据所述第一局部信息、所述第一全局信息、所述第二局部信息和第二所述全局信息确定所述翻译文本是否为机翻译文。


11.根据权利要求10所述的方法,其特征在于,
所述第二局部信息包括所述原始文本中的各个子文本的第三语义信息和所述原始文本中的各个子文本的第二语法信息;
所述第二全局信息包括所述原始文本的第四语义信息和所述原始文本中的各个子文本之间的第二语义逻辑相关度。


12.根据权利要求11所述的方法,其特征在于,所述根据所述第一局部信息、所述第一全局信息、所述第二局部信息和第二所述全局信息确定所述翻译文本是否为机翻译文,包括:
根据所述第一语法信息和/或所述第一语义逻辑相关度获取所述翻译文本的第一语义流畅度;
获取所述第一语义信息与所述第二语义信息之间的第一语义相似度;
根据所述第二语法信息和/或所述第二语义逻辑相关度获取所述翻译文本的第二语义流畅度;
获取所述第三语义信息与所述第四语义信息之间的第二语义相似度;
根据所述第一语义流畅度、所述第一语义相似度、所述第二语义流畅度、以及所述第二语义相似度确定所述翻译文本是否为机翻译文。


13.一种译文检测装置,其特征在...

【专利技术属性】
技术研发人员:陆军顾淑琴施杨斌赵宇骆卫华
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1