一种基于单词删除的同声传译方法及系统技术方案

技术编号:40195917 阅读:32 留言:0更新日期:2024-01-26 23:59
本发明专利技术提供一种基于单词删除的同声传译方法及系统,涉及自然语言处理技术领域,包括:获取源语言文字序列和目标语言文字序列;对源语言文字序列和目标语言文字序列进行数据预处理;构建翻译模型,对翻译模型进行初始化;基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型;将源语言文字序列输入至训练好的翻译模型,输出翻译结果。本发明专利技术通过采用随机删除目标语言单词的技术手段,强迫模型减少对完整目标语言的依赖,迫使其关注源语言端的信息,增强模型对不完整源语言序列的建模能力。通过针对性的单词随机删除技术方案,可以有效解决文本同传中产生的翻译幻觉问题。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种基于单词删除的同声传译方法及系统


技术介绍

1、机器翻译技术经历了规则机器翻译、统计机器翻译、神经网络机器翻译等发展阶段。典型的机器翻译方案有:

2、(1)基于词典和规则的机器翻译,依靠人工制定的词汇对应规则进行翻译,翻译质量低。

3、(2)统计机器翻译,使用大规模平行语料训练机器翻译模型,典型方法有词对齐模型、短语基础模型等。统计机器翻译提高了翻译质量,但仍存在词序错误、意译错误等问题。

4、(3)神经网络机器翻译,典型方法是编码器-解码器(seq2seq)框架,使用lstm等循环神经网络对源语言进行编码,再解码生成目标语言。提高了翻译流畅性,但仍存在无法处理长句子的问题。

5、(4)注意力机制机器翻译,在seq2seq框架中加入注意力模块,可以建模源语言和目标语言词之间的相关性,显著提升了翻译质量。

6、文本同声传译根据时延策略也可以分为固定读写策略和动态读写策略。

7、固定读写策略将输入文本划分固定大小片段后进行翻译,时延一致但容易产生语本文档来自技高网...

【技术保护点】

1.一种基于单词删除的同声传译方法,其特征在于,方法步骤包括:

2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,对所述源语言文字序列和目标语言文字序列进行数据预处理,包括:

3.根据权利要求2所述的方法,其特征在于,所述步骤S2中,构建翻译模型,对所述翻译模型进行初始化,包括:

4.根据权利要求3所述的方法,其特征在于,所述步骤S3中,基于预处理后的数据对所述翻译模型进行单词随机删除训练,获得训练好的翻译模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述步骤S31中,对目标语言序列中的每个分词分别以P概率进行随机替换,替...

【技术特征摘要】

1.一种基于单词删除的同声传译方法,其特征在于,方法步骤包括:

2.根据权利要求1所述的方法,其特征在于,所述步骤s1中,对所述源语言文字序列和目标语言文字序列进行数据预处理,包括:

3.根据权利要求2所述的方法,其特征在于,所述步骤s2中,构建翻译模型,对所述翻译模型进行初始化,包括:

4.根据权利要求3所述的方法,其特征在于,所述步骤s3中,基于预处理后的数据对所述翻译模型进行单词随机删除训练,获得训练好的翻译模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述步骤s31中,对目标语言序列中的每个分词分别以p概率进行随机替换,替换为<unk>标记,包括:

6.根据权利要求5所述的方法,其特征在于,所述步骤s32中,通过最大化目标语言序列的最大似然...

【专利技术属性】
技术研发人员:陈科海钟美智张民
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1