System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请属于机器翻译,具体涉及一种语义评价模型的训练方法及流式文本的机器翻译方法、存储介质、设备和计算机程序产品。
技术介绍
1、实时翻译有助于人与人之间的交流,机器翻译的出现进一步拉低了实时翻译的成本,使得不同语言,不同文化水准的人员之间得以快速有效的交流。
2、目前,机器同声传译在语句不完整的状态下应用度不足,比如在口述汉语翻译至英语的过程中,同声传译的设备经常由于断词断句的错误造成最终翻译结果的重大差异;因此现有技术为了保证翻译结果的准确性,采用了等待翻译文本传输至一定时刻之后,确定了发言者的明显停顿时再针对历史语句进行翻译。
3、这些方式造成了翻译结果具有延迟性,在句长较长的情况下,延迟将更加明显,不利于对话者之间相互沟通。
技术实现思路
1、本申请旨在提供一种语义评价模型的训练方法及流式文本的机器翻译方法、存储介质、设备和计算机程序产品,至少解决了由于流式文本的输入时机不确定,造成难以进行有效的分割和翻译,导致翻译效率低下和翻译质量不高的问题。
2、第一方面,本申请实施例公开了一种流式文本的机器翻译方法,包括:
3、获取流式文本的未翻译原文,所述未翻译原文包括:按照次序排列的多个原文单句;
4、将所述未翻译原文中的最后一个目标单句输入语义评价模型,获得所述语义评价模型输出的所述目标单句的语义完整性分数,所述语义完整性分数用于表征所述目标单句的语义完整性;
5、在所述语义完整性分数不符合预设条件的情况下,
6、在所述完整性分数符合预设条件的情况下,将所述流式文本的未翻译原文输入机器翻译模型,获得所述流式文本的翻译结果。
7、可选的,所述获取未翻译的流式文本原文,包括:
8、将翻译前的流式文本全文与记录历史翻译结果的原文分别去除标点符号,获得流式文本无标点全文与历史翻译无标点全文;
9、将所述流式文本无标点全文与所述历史翻译无标点全文逐字匹配,获得未翻译无标点原文;
10、将所述未翻译无标点原文按照所述流式文本全文的标点顺序恢复标点,获得所述流式文本的未翻译原文。
11、可选的,所述将所述未翻译原文中的最后一个目标单句输入语义评价模型,获得所述语义评价模型输出的所述目标单句的语义完整性分数,包括:
12、在所述最后一个目标单句中随机选择复数个位置,所述位置是两个字符之间的位置;
13、按照所述位置截断所述最后一个目标单句,获得与所述最后一个目标单句对应的多个句段;
14、将所述最后一个目标单句、多个所述句段分别输入翻译模型,获得目标译文与多个句段译文;所述目标译文为所述最后一个目标单句的译文,所述多个句段译文与多个所述的句段一一对应;
15、根据所述目标译文、多个所述句段译文计算获得所述目标单句的语义完整性分数。
16、可选的,所述根据所述目标译文、多个所述句段译文计算获得所述目标单句的语义完整性分数,包括:
17、根据所述目标译文、多个所述句段译文,获得译文词集与拼接词集;所述译文词集包含所述目标译文的所有词汇,所述拼接词集包含所述多个所述句段译文的所有词汇;
18、将所述译文词集与所述拼接词集的词汇匹配,获得缺失值与冗余值;所述缺失值为所述译文词集与所述拼接词集的差集的词汇数,所述冗余值为所述拼接词集与所述译文词集的差集的词汇数;
19、根据所述缺失值、冗余值,计算获得所述目标单句的语义完整性分数。
20、可选的,所述根据所述缺失值、冗余值,计算获得所述目标单句的语义完整性分数,包括:
21、将所述缺失值与所述冗余值的积作为损失值;
22、将所述损失值带入公式获得所述目标单句的语义完整性分数;其中s为所述目标单句的语义完整性分数,r为所述损失值,a为第一修正值,b为第二修正值。
23、可选的,所述方法还包括:
24、在所述目标单句的长度小于或等于词长阈值的情况下,使用第一惩罚系数与所述目标单句的语义完整性分数的积更新所述目标单句的语义完整性分数;
25、在所述目标单句的长度大于词长阈值的情况下,使用第二惩罚系数与所述目标单句的语义完整性分数的积更新所述目标单句的语义完整性分数。
26、可选的,所述第一惩罚系数按照公式获得;
27、所述第二惩罚系数按照公式获得;其中n-为第一惩罚系数,n+为第二惩罚系数,x为所述目标单句的长度,y为所述词长阈值。
28、第二方面,本申请实施例还公开了一种语义评价模型的训练方法,所述训练方法用于训练如第一方面所述的机器翻译方法中的语义评价模型,所述训练方法包括:
29、构建训练集;所述训练集包括用于翻译的原文语料,与用于翻译原文语料的机器翻译模型;所述原文语料为单语片段;
30、获取所述原文语料;所述原文语料具有对应的标注分数;
31、将所述原文语料输入翻译模型,获得语料译文;
32、由语义评价模型根据所述语料译文,计算获得所述原文语料的语义完整性分数;
33、根据所述语义完整性分数、所述标注分数以及预设的损失函数,,训练所述语义评价模型,获得训练后的语义评价模型。
34、可选的,所述将所述原文语料输入翻译模型,获得语料译文,包括:
35、在所述原文语料中随机选择复数个字符之间的位置进行截断,获得与所述原文语料对应的多个语料段;
36、将所述原文语料、多个所述语料段分别输入所述机器翻译模型,,获得目标语料译文、与多个语料段译文;所述目标语料译文为所述原文语料的译文,所述多个语料段译文与多个所述的语料段一一对应。
37、第三方面,本申请实施例还公开了一种流式文本的机器翻译装置,包括:
38、文本获取模块,用于获取流式文本的未翻译原文,所述未翻译原文包括:按照次序排列的多个原文单句;
39、语义评价模块,用于将所述未翻译原文中的最后一个目标单句输入语义评价模型,获得所述语义评价模型输出的所述目标单句的语义完整性分数,所述语义完整性分数用于表征所述目标单句的语义完整性;
40、文本更新模块,用于在所述语义完整性分数不符合预设条件的情况下,更新所述未翻译原文,并进入所述获取流式文本的未翻译原文的步骤;
41、翻译输出模块,用于在所述完整性分数符合预设条件的情况下,将所述流式文本的未翻译原文输入机器翻译模型,获得所述流式文本的翻译结果。
42、第四方面,本申请实施例还公开了一种语义评价模型的训练装置,所述训练装置用于训练如第一方面所述的机器翻译方法中的语义评价模型,包括:
43、训练集构建模块,用于构建训练集;所述训练集包括用于翻译的原文语料,与用于翻译原文语料的机器翻译模型;所述原文语料为单语片段;<本文档来自技高网...
【技术保护点】
1.一种流式文本的机器翻译方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述获取未翻译的流式文本原文,包括:
3.如权利要求1所述的方法,其特征在于,所述将所述未翻译原文中的最后一个目标单句输入语义评价模型,获得所述语义评价模型输出的所述目标单句的语义完整性分数,包括:
4.如权利要求3所述的方法,其特征在于,所述根据所述目标译文、多个所述句段译文计算获得所述目标单句的语义完整性分数,包括:
5.如权利要求4所述的方法,其特征在于,所述根据所述缺失值、冗余值,计算获得所述目标单句的语义完整性分数,包括:
6.一种语义评价模型的训练方法,其特征在于,所述训练方法用于训练如权利要求1至5任意一项所述的机器翻译方法中的语义评价模型,所述训练方法包括:
7.一种流式文本的机器翻译装置,其特征在于,包括:
8.一种语义评价模型的训练装置,其特征在于,所述训练装置用于训练如权利要求1至6任意一项所述的机器翻译方法中的语义评价模型,包括:
9.一种计算机可读存储介质,其特征在于,
10.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6任意一项所述的机器翻译方法。
...【技术特征摘要】
1.一种流式文本的机器翻译方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述获取未翻译的流式文本原文,包括:
3.如权利要求1所述的方法,其特征在于,所述将所述未翻译原文中的最后一个目标单句输入语义评价模型,获得所述语义评价模型输出的所述目标单句的语义完整性分数,包括:
4.如权利要求3所述的方法,其特征在于,所述根据所述目标译文、多个所述句段译文计算获得所述目标单句的语义完整性分数,包括:
5.如权利要求4所述的方法,其特征在于,所述根据所述缺失值、冗余值,计算获得所述目标单句的语义完整性分数,包括:
6.一种语义评价模型的训练方法,其特征在于,所述训练方法用于训练如...
【专利技术属性】
技术研发人员:于鹏,邢启洲,李健,陈明,武卫东,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。