System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音识别的,特别涉及一种多语种跨语言环境下的神经网络文本翻译增强方法及系统。
技术介绍
1、在多语种跨语言交流需求不断增长的当下,现有的文本翻译技术在多语种环境下表现出诸多局限性。
2、传统翻译方法在处理多语种语音数据时,在特征提取方面,通常为单个维度的特征提取,缺乏有效的多维提取,无法全面涵盖语义、语法和语境等关键要素,造成特征提取不全面。
3、在融合不同语种的文本特征向量时,传统技术一般采用固定权重,不能根据不同语种的实际特征进行动态调整,导致融合效果欠佳,无法充分发挥各语种的优势。而现有的神经网络翻译模型,翻译文本存在语法错误、语义不准确以及流畅度不足等问题,无法提供高质量的翻译结果。
技术实现思路
1、本专利技术的主要目的为提供一种多语种跨语言环境下的神经网络文本翻译增强方法及系统,旨在克服当前特征提取不全面以及融合不同语种的文本特征向量的效果欠佳的缺陷。
2、为实现上述目的,本专利技术提供了一种多语种跨语言环境下的神经网络文本翻译增强方法,包括以下步骤:
3、获取多语种跨语言环境下的语音数据,对所述语音数据进行语音识别,得到多语种文本数据;
4、对所述多语种文本数据进行智能语种分类,得到不同语种的文本集合;针对不同语种的文本集合分别进行多维特征提取,得到文本特征向量;
5、采用自适应权重调整机制,根据不同语种的特征重要性动态调整融合权重,基于调整后的融合权重对各个所述文本特征向量进行跨语
6、将所述融合特征向量输入到经过强化预训练的神经网络翻译模型中进行深度翻译,得到初步翻译文本;
7、对所述初步翻译文本进行后处理,得到翻译结果。
8、进一步地,所述针对不同语种的文本集合分别进行多维特征提取,得到文本特征向量,包括:
9、针对不同语种的文本集合分别进行语义特征提取,得到语义特征向量;
10、针对不同语种的文本集合分别进行语法特征提取,得到语法特征向量;
11、针对不同语种的文本集合分别进行语境特征提取,得到语境特征向量;
12、将所述语义特征向量、语法特征向量和语境特征向量进行融合,得到所述文本特征向量。
13、进一步地,将所述融合特征向量输入到经过强化预训练的神经网络翻译模型中进行深度翻译,得到初步翻译文本,包括:
14、通过所述经过强化预训练的神经网络翻译模型,基于多头注意力机制对融合特征向量进行编码处理,得到编码后的特征表示;利用解码器对编码后的特征表示进行逐步解码,在解码过程中结合历史解码信息和融合特征向量中的上下文信息,生成当前时刻的翻译结果;重复解码过程,直至生成完整的初步翻译文本。
15、进一步地,对所述初步翻译文本进行后处理,得到翻译结果,包括:
16、对所述初步翻译文本进行语法校正,纠正文本中的语法错误,得到语法校正后的文本;
17、对语法校正后的文本进行语义相似度计算和词汇替换,提升文本的语义准确性,得到语义润色后的文本;
18、通过语言模型评估和句子结构调整,对语义润色后的文本进行流畅度提升处理,得到所述翻译结果。
19、进一步地,所述采用自适应权重调整机制,根据不同语种的特征重要性动态调整融合权重,基于调整后的融合权重对各个所述文本特征向量进行跨语言融合处理,得到融合特征向量,包括:
20、分析不同语种的文本集合中各语种的语言特点和使用频率,确定各语种的初始权重;
21、计算各个文本特征向量的特征重要性指标;所述重要性指标包括特征的方差、信息熵;
22、根据所述特征重要性指标对各语种的初始权重进行动态调整,得到调整后的融合权重;
23、基于调整后的融合权重对各个所述文本特征向量进行加权求和,得到所述融合特征向量。
24、进一步地,所述获取多语种跨语言环境下的语音数据,包括:
25、建立多个用户终端的通话连接;其中,各个所述用户终端采集其对应用户的语音信息;各个用户通过用户终端采用不同语种进行通话;
26、按照时间顺序,将各个用户终端采集的语音信息依序排列,组合得到所述多语种跨语言环境下的语音数据。
27、进一步地,所述对所述初步翻译文本进行后处理,得到翻译结果之后,包括:
28、获取各个所述用户终端采集的语音信息的数据量以及时长;
29、获取所述翻译结果的特征信息;
30、根据所述特征信息、各个所述用户终端采集的语音信息的数据量以及时长,生成一个通讯密钥;
31、基于所述通讯密钥对所述翻译结果进行加密之后,分发至各个所述用户终端上。
32、本专利技术还提供了一种多语种跨语言环境下的神经网络文本翻译增强系统,包括:
33、获取单元,用于获取多语种跨语言环境下的语音数据,对所述语音数据进行语音识别,得到多语种文本数据;
34、分类单元,用于对所述多语种文本数据进行智能语种分类,得到不同语种的文本集合;针对不同语种的文本集合分别进行多维特征提取,得到文本特征向量;
35、融合单元,用于采用自适应权重调整机制,根据不同语种的特征重要性动态调整融合权重,基于调整后的融合权重对各个所述文本特征向量进行跨语言融合处理,得到融合特征向量;
36、翻译单元,用于将所述融合特征向量输入到经过强化预训练的神经网络翻译模型中进行深度翻译,得到初步翻译文本;
37、处理单元,用于对所述初步翻译文本进行后处理,得到翻译结果。
38、本专利技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
39、本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
40、本专利技术提供的多语种跨语言环境下的神经网络文本翻译增强方法及系统,包括:获取多语种跨语言环境下的语音数据,对所述语音数据进行语音识别,得到多语种文本数据;对所述多语种文本数据进行智能语种分类,得到不同语种的文本集合;针对不同语种的文本集合分别进行多维特征提取,得到文本特征向量;采用自适应权重调整机制,根据不同语种的特征重要性动态调整融合权重,基于调整后的融合权重对各个所述文本特征向量进行跨语言融合处理,得到融合特征向量;将所述融合特征向量输入到经过强化预训练的神经网络翻译模型中进行深度翻译,得到初步翻译文本;对所述初步翻译文本进行后处理,得到翻译结果。在本专利技术中,通过对不同语种的文本集合分别进行多维特征提取,全面提取各个维度的特征;通过采用自适应权重调整机制,根据不同语种的特征重要性动态调整融合权重,提升融合效果,进而提升后续的翻译结果的质量。
本文档来自技高网...【技术保护点】
1.一种多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,所述针对不同语种的文本集合分别进行多维特征提取,得到文本特征向量,包括:
3.根据权利要求1所述的多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,将所述融合特征向量输入到经过强化预训练的神经网络翻译模型中进行深度翻译,得到初步翻译文本,包括:
4.根据权利要求1所述的多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,对所述初步翻译文本进行后处理,得到翻译结果,包括:
5.根据权利要求1所述的多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,所述采用自适应权重调整机制,根据不同语种的特征重要性动态调整融合权重,基于调整后的融合权重对各个所述文本特征向量进行跨语言融合处理,得到融合特征向量,包括:
6.根据权利要求1所述的多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,所述获取多语种跨语言环境下的语音数据,包括:
7
8.一种多语种跨语言环境下的神经网络文本翻译增强系统,其特征在于,包括:
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
...【技术特征摘要】
1.一种多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,所述针对不同语种的文本集合分别进行多维特征提取,得到文本特征向量,包括:
3.根据权利要求1所述的多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,将所述融合特征向量输入到经过强化预训练的神经网络翻译模型中进行深度翻译,得到初步翻译文本,包括:
4.根据权利要求1所述的多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,对所述初步翻译文本进行后处理,得到翻译结果,包括:
5.根据权利要求1所述的多语种跨语言环境下的神经网络文本翻译增强方法,其特征在于,所述采用自适...
【专利技术属性】
技术研发人员:车建波,
申请(专利权)人:深圳市贝铂智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。