【技术实现步骤摘要】
译文检测方法及装置
本申请涉及计算机
,特别是涉及一种译文检测方法及装置。
技术介绍
当前,文本翻译在各行各业中的作用越来越重要,最初的文本翻译是基于人工翻译,但是人工翻译的人工成本较高,因此,为了降低人工成本,逐渐使用基于文本翻译模型进行翻译,事先可以训练文本翻译模型,以使广大用户可以借助文本翻译模型翻译文本。最初使用的文本翻译模型的质量有限,也即,使用文本翻译模型翻译的文本的准确率有限。为了提高翻译的准确率,之后需要训练高质量的文本翻译模型,在训练高质量的文本翻译模型时,往往需要使用双语语料,双语语料包括一种语言的原始文本以及原始文本在另一种语言中的翻译文本,例如,双语语料中包括英语文本和该英语文本在汉语中的翻译文本,英语文本包括“It'sanicedaytoday”,在汉语中的翻译文本包括“今天天气很好”。其中,可以在网络上搜集大量的双语语料,然而,有些双语语料的翻译文本是人工翻译的,有些双语语料的翻译文本是使用现有的低质量的文本翻译模型翻译的。由于使用现有的低质量的文本翻译模型翻译得到的翻译文本的准确率较低,因此使用包含准确率较低的翻译文本的双语预料训练文本翻译模型时,仍旧会导致训练出的文本翻译模型的质量较低。所以,需要在搜集的双语预料中去除一些双语语料,这些双语语料包括的翻译文本是通过文本翻译模型翻译得到的,然后使用剩余的双语语料训练文本翻译模型。其中,前述提到的低质量的文本翻译模型文本翻译模型通常为基于SMT(StatisticalMachineTranslation ...
【技术保护点】
1.一种译文检测方法,其特征在于,所述方法包括:/n获取翻译文本;/n获取所述翻译文本的第一局部信息以及第一全局信息;/n至少根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文。/n
【技术特征摘要】
1.一种译文检测方法,其特征在于,所述方法包括:
获取翻译文本;
获取所述翻译文本的第一局部信息以及第一全局信息;
至少根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文。
2.根据权利要求1所述的方法,其特征在于,
所述第一局部信息包括所述翻译文本中的各个子文本的第一语义信息和所述各个子文本的第一语法信息;
所述第一全局信息包括所述翻译文本的第二语义信息和所述各个子文本之间的第一语义逻辑相关度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文,包括:
根据所述第一语法信息和/或所述第一语义逻辑相关度获取所述翻译文本的第一语义流畅度;
获取所述第一语义信息与所述第二语义信息之间的第一语义相似度;
根据所述第一语义流畅度和所述第一语义相似度确定所述翻译文本是否为机翻译文。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一语法信息和/或所述第一语义逻辑相关度获取所述翻译文本的第一语义流畅度,包括:
将所述第一语法信息和/或所述一语义逻辑相关度输入语义流畅度获取模型中,得到所述获取语义流畅度获取模型输出的所述翻译文本的第一语义流畅度。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取样本信息集合,样本信息集合中包括至少一个样本文本的样本局部信息和/或样本全局信息,且所述样本局部信息和/或所述样本全局信息中标注有所述样本文本的样本语义流畅度;
使用所述样本信息集合中的样本文本的样本局部信息和/或样本全局信息对模型进行训练,直至所述模型中的权重均收敛,得到所述语义流畅度获取模型。
6.根据权利要求3所述的方法,其特征在于,所述获取所述第一语义信息与所述第二语义信息之间的第一语义相似度,包括:
根据语义相似度获取模型获取所述第一语义信息与所述第二语义信息之间的第一语义相似度。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取多个样本信息集合,每一个样本信息集合中包括样本局部信息,以及标注有与所述样本局部信息之间的样本第一语义相似度的样本全局信息;
使用所述每一个样本信息集合中的样本局部信息和样本全局信息对模型进行训练,直至所述模型中的权重均收敛,得到所述语义相似度获取模型。
8.根据权利要求3所述的方法,其特征在于,所述至少根据所述第一语义流畅度和所述第一语义相似度确定所述翻译文本是否为机翻译文,包括:
将所述第一语义流畅度和所述第一语义相似度输入分类模型中,得到分类器输出的用于指示所述翻译文本是否为机翻译文的结果。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取多个样本信息集合,每一个样本信息集合中包括样本文本的样本语义流畅度和样本语义相似度,样本语义流畅度是根据样本文本的样本语法信息和/或样本语义逻辑相关度获取到的,样本语义相似度是根据样本文本中的各个样本子文本的第一样本语义信息和样本文本整体上的第二样本语义信息获取到的,且样本语义流畅度或样本语义相似度中标注有样本文本是否为机翻译文的标注结果;
使用每一个样本信息集合中的样本语义流畅度和样本语义相似度对模型进行训练,直至模型中的权重均收敛,得到分类模型。
10.根据权利要求2所述的方法,其特征在于,所述至少根据所述第一局部信息和所述第一全局信息确定所述翻译文本是否为机翻译文,包括:
获取所述翻译文本对应的原始文本;
获取原始文本的第二局部信息以及第二全局信息;
根据所述第一局部信息、所述第一全局信息、所述第二局部信息和第二所述全局信息确定所述翻译文本是否为机翻译文。
11.根据权利要求10所述的方法,其特征在于,
所述第二局部信息包括所述原始文本中的各个子文本的第三语义信息和所述原始文本中的各个子文本的第二语法信息;
所述第二全局信息包括所述原始文本的第四语义信息和所述原始文本中的各个子文本之间的第二语义逻辑相关度。
12.根据权利要求11所述的方法,其特征在于,所述根据所述第一局部信息、所述第一全局信息、所述第二局部信息和第二所述全局信息确定所述翻译文本是否为机翻译文,包括:
根据所述第一语法信息和/或所述第一语义逻辑相关度获取所述翻译文本的第一语义流畅度;
获取所述第一语义信息与所述第二语义信息之间的第一语义相似度;
根据所述第二语法信息和/或所述第二语义逻辑相关度获取所述翻译文本的第二语义流畅度;
获取所述第三语义信息与所述第四语义信息之间的第二语义相似度;
根据所述第一语义流畅度、所述第一语义相似度、所述第二语义流畅度、以及所述第二语义相似度确定所述翻译文本是否为机翻译文。
13.一种译文检测装置,其特征在...
【专利技术属性】
技术研发人员:陆军,顾淑琴,施杨斌,赵宇,骆卫华,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。