System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 机器同传方法、装置、电子设备以及存储介质制造方法及图纸_技高网

机器同传方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:40599819 阅读:7 留言:0更新日期:2024-03-12 22:03
本公开涉及机器同传技术领域,具体提供了一种机器同传方法、装置、电子设备以及存储介质。一种机器同传方法,包括:根据当前读入的一个源语单词,确定所述源语单词的词性信息;响应于所述源语单词的所述词性信息为停用词,继续读入下一个源语单词,直至读入的所述源语单词的所述词性信息为非停用词,输出一个待翻译的源语单词对应的译文单词。本公开实施方式中,根据读入的源语单词的词性信息控制读入和输出动作,从而在低延时同传场景中,在对停用词翻译时可以结合更多上下文信息,提高针对停用词的翻译准确性,进而提高译文质量。

【技术实现步骤摘要】

本公开涉及机器同传,具体涉及一种机器同传方法、装置、电子设备以及存储介质


技术介绍

1、机器同传(simultaneous machine translation)是一种要求低延迟的特殊机器翻译任务,其广泛应用于跨国会议或演讲,以及实时字幕等场景中。机器同传输出的译文质量直接影响同传效果,因此提高机器同传的译文质量是重要的研究方向。


技术实现思路

1、为提高机器同传的译文质量,本公开实施方式提供了一种机器同传方法、装置、电子设备以及存储介质。

2、第一方面,本公开实施方式提供了一种机器同传方法,包括:

3、根据当前读入的一个源语单词,确定所述源语单词的词性信息;所述词性信息用于表征所述源语单词的停用词属性;

4、响应于所述源语单词的所述词性信息为停用词,继续读入下一个源语单词,直至读入的所述源语单词的所述词性信息为非停用词,输出一个待翻译的源语单词对应的译文单词。

5、在一些实施方式中,所述确定所述源语单词的词性信息,包括:

6、基于预先设置的停用词表,确定所述源语单词是否属于所述停用词表;

7、响应于所述源语单词属于所述停用词表,确定所述源语单词的所述词性信息为停用词;和/或,

8、响应于所述源语单词不属于所述停用词表,确定所述源语单词的所述词性信息为非停用词。

9、在一些实施方式中,本公开所述的方法,还包括:

10、响应于当前已经读入的源语单词的第一数量,与已经输出的译文单词的第二数量的差值不小于预设延迟参数,输出一个待翻译的源语单词对应的译文单词。

11、在一些实施方式中,根据所述源语单词得到对应的译文单词的过程,包括:

12、将所述待翻译的源语单词输入预先训练的第一翻译网络,得到所述第一翻译网络输出的与所述源语单词对应的所述译文单词。

13、在一些实施方式中,本公开所述的方法,还包括:

14、响应于根据读入的所述源语单词未解码得到句尾标签信息,将所述待翻译的源语单词输入所述第一翻译网络,得到所述第一翻译网络输出的与所述源语单词对应的所述译文单词;

15、响应于根据读入的所述源语单词解码得到句尾标签信息,将所述待翻译的源语单词所属的源语句输入预先训练的第二翻译网络,得到所述第二翻译网络输出的与所述待翻译的源语单词对应的所述译文单词;所述第二翻译网络的训练目标为整句翻译。

16、在一些实施方式中,本公开所述的方法,还包括:

17、利用所述第一翻译网络得到与所述待翻译的源语单词对应的所述译文单词,并将所述译文单词保存在缓存中;

18、响应于根据读入的所述源语单词未解码得到句尾标签信息,且所述缓存中的译文单词为句尾标点,删除所述缓存中的所述译文单词;

19、响应于根据读入的所述源语单词未解码得到句尾标签信息,且所述缓存中的译文单词为非句尾标点,将所述缓存中的所述译文单词输出。

20、在一些实施方式中,本公开所述的方法,还包括:

21、根据输出的源语句包括的各个源语单词对应的译文单词,得到所述源语句对应的目标译文。

22、第二方面,本公开实施方式提供了一种机器同传装置,包括:

23、词性确定模块,被配置为根据当前读入的一个源语单词,确定所述源语单词的词性信息;所述词性信息用于表征所述源语单词的停用词属性;

24、翻译模块,被配置为响应于所述源语单词的所述词性信息为停用词,继续读入下一个源语单词,直至读入的所述源语单词的所述词性信息为非停用词,输出一个待翻译的源语单词对应的译文单词。

25、在一些实施方式中,所述词性确定模块被配置为:

26、基于预先设置的停用词表,确定所述源语单词是否属于所述停用词表;

27、响应于所述源语单词属于所述停用词表,确定所述源语单词的所述词性信息为停用词;和/或,

28、响应于所述源语单词不属于所述停用词表,确定所述源语单词的所述词性信息为非停用词。

29、在一些实施方式中,所述翻译模块被配置为:

30、响应于当前已经读入的源语单词的第一数量,与已经输出的译文单词的第二数量的差值不小于预设延迟参数,输出一个待翻译的源语单词对应的译文单词。

31、在一些实施方式中,所述翻译模块被配置为:

32、将所述待翻译的源语单词输入预先训练的第一翻译网络,得到所述第一翻译网络输出的与所述源语单词对应的所述译文单词。

33、在一些实施方式中,所述翻译模块被配置为:

34、响应于根据读入的所述源语单词未解码得到句尾标签信息,将所述待翻译的源语单词输入所述第一翻译网络,得到所述第一翻译网络输出的与所述源语单词对应的所述译文单词;

35、响应于根据读入的所述源语单词解码得到句尾标签信息,将所述待翻译的源语单词所属的源语句输入预先训练的第二翻译网络,得到所述第二翻译网络输出的与所述待翻译的源语单词对应的所述译文单词;所述第二翻译网络的训练目标为整句翻译。

36、在一些实施方式中,所述翻译模块被配置为:

37、利用所述第一翻译网络得到与所述待翻译的源语单词对应的所述译文单词,并将所述译文单词保存在缓存中;

38、响应于根据读入的所述源语单词未解码得到句尾标签信息,且所述缓存中的译文单词为句尾标点,删除所述缓存中的所述译文单词;

39、响应于根据读入的所述源语单词未解码得到句尾标签信息,且所述缓存中的译文单词为非句尾标点,将所述缓存中的所述译文单词输出。

40、在一些实施方式中,所述翻译模块被配置为:

41、根据输出的源语句包括的各个源语单词的译文单词,得到所述源语句对应的目标译文。

42、第三方面,本公开实施方式提供了一种电子设备,包括:

43、处理器;和

44、存储器,存储有计算机指令,所述计算机指令用于使所述处理器执行根据第一方面任意实施方式所述的方法。

45、第四方面,本公开实施方式提供了一种存储介质,存储有计算机指令,所述计算机指令用于使计算机执行根据第一方面任意实施方式所述的方法。

46、本公开实施方式的机器同传方法,包括根据当前读入的一个源语单词确定源语单词的词性信息,响应于源语单词的词性信息为停用词,继续读入下一个源语单词,直至源语单词的词性信息为非停用词,输出一个待翻译的源语单词对应的译文单词。本公开实施方式中,通过为源语单词设置词性信息,根据词性信息确定当前读入的源语单词是否为停用词,并在是的情况下继续读入下一个源语单词,从而在低延时同传场景中,在对停用词翻译时可以结合更多上下文信息,提高针对停用词的翻译准确性,进而提高译文质量。

本文档来自技高网...

【技术保护点】

1.一种机器同传方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述源语单词的词性信息,包括:

3.根据权利要求1或2所述的方法,其特征在于,还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,根据所述源语单词得到对应的译文单词的过程,包括:

5.根据权利要求4所述的方法,其特征在于,还包括:

6.根据权利要求4所述的方法,其特征在于,还包括:

7.根据权利要求1所述的方法,其特征在于,还包括:

8.一种机器同传装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种存储介质,其特征在于,存储有计算机指令,所述计算机指令用于使计算机执行根据权利要求1至7任一项所述的方法。

【技术特征摘要】

1.一种机器同传方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述源语单词的词性信息,包括:

3.根据权利要求1或2所述的方法,其特征在于,还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,根据所述源语单词得到对应的译文单词的过程,包括:

5.根据权利要求4所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:刘梦歌李响
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1