当前位置: 首页 > 专利查询>宋万利专利>正文

一种图文音频自动翻译方法及其系统技术方案

技术编号:25836651 阅读:35 留言:0更新日期:2020-10-02 14:17
本发明专利技术公开了一种图文音频自动翻译方法,包括获取语音数据、图像数据以及动作数据中一种或多种;对获取的语音数据进行初步处理,将初步处理结果输入到预先训练的翻译模型中,得到相应的目标语言数据;对获取的图像数据进行特征信息识别,将识别的特征信息结果进行翻译,得到相应的目标语言数据;对获取的动作数据进行格式化处理,输入到预先构建的LSTM神经网络模型,得到动作表达数据;直接输出得到的目标语言数据或动作表达数据或将得到的目标语言数据和/或动作表达数据进行相似度匹配,得到融合语言数据;本发明专利技术能够基于获取的语音数据、图像数据及动作数据分别进行识别和翻译,提高翻译精度;能够对应表达随意的翻译场景,具有更好的适应性。

【技术实现步骤摘要】
一种图文音频自动翻译方法及其系统
本专利技术涉及翻译
,具体而言,为一种图文音频自动翻译方法及其系统。
技术介绍
基于目前各异语言语音文字所属人类之间,互相语言语音文字交流现状,仍需由知懂学异语言语音文字的外语人员现场幕后查找翻译,书报刊物等仍需由诸种类等繁琐翻译。且目前互联网各网站平台上之翻译软件、语言语音文字诸互译软件、及各APP翻译平台等,一方面即时性随时随地随处性实时性等滞后等,且其幕后工作人员场力人力物力繁琐庞大,现在同声传译翻译方面,人员设施设备幕后布置等繁琐投入巨大等。近几年中,得益于神经机器翻译(NMT)技术的流行,机器翻译的质量越来越高,但语言的表达受到小语种或地方口音和表达习惯(如肢体表达)的局限,造成翻译结果不够理想;例如英语这种大语种对小语种或者少数民族语言或方言等这些语言之间的平行语料十分缺乏,导致部分语言发音找不到对应的词汇输出,或者表达者在表述过程中由肢体表达,是的语音采集不到无法识别翻译。有鉴于此,特提出本专利技术。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种图文音频自动翻译方法及其系统,基于图文音频信息,获得翻译结果,提高翻译精确度。为实现上述目的,本专利技术的技术方案包括:一方面,本专利技术提供了一种图文音频自动翻译方法,包括如下步骤:获取语音数据、图像数据以及动作数据中一种或多种作为源数据;对获取的语音数据进行初步处理,将初步处理结果输入到预先训练的翻译模型中,以得到相应的目标语言数据;对获取的图像数据进行特征信息识别,将识别的特征信息结果进行翻译,以得到相应的目标语言数据;对获取的动作数据进行格式化处理,将格式化处理结果输入到预先构建的LSTM神经网络模型,以得到动作表达数据;当源数据为一种时,直接输出得到的目标语言数据或动作表达数据;当源数据为多种时,将得到的目标语言数据和/或动作表达数据进行相似度匹配,得到融合语言数据。进一步的,上述的图文音频自动翻译方法中,所述对获取的语音数据进行初步处理,将初步处理结果输入到预先训练的翻译模型中,以得到相应的目标语言数据,包括:将获取的语音数据进行速率变换,得到标准采样速率语音数据;将标准采样速率数据输入到语种识别模型中,得到语种判断结果;根据语种判断结果将获取的语音数据输入到预先训练的翻译模型中,在翻译模型中进行:将所述语音数据通过预先训练的深度神经网络输出源语言的语言识别信息,将源语言的语言识别信息经过跨语言标注模型转换,输出目标语言数据。进一步的,上述的图文音频自动翻译方法中,所述跨语言标注模型通过预先构建训练得到:将语言按照语种分类,并在语种下按照标准发音和口音划分子类;将所有语种下的子类语言按照任意两两对应的方式生成跨语言对应关系,所述跨语言对应关系将任一源语言按照词、短语和语句为转换单位进行目标语言的对应数据转换,得到目标语言;任意两语言之间均按照所述转换单位进行关联标注,并对其跨语言对应关系进行训练,形成所述跨语言标注模型。进一步的,上述的图文音频自动翻译方法中,所述对获取的图像数据进行特征信息识别,将识别的特征信息结果进行翻译,以得到相应的目标语言数据,包括通过预先训练的卷积神经网络识别图像中的特征信息,确定图像中包含的文字和/或图形对象;将识别的文字和/或图形对象进行翻译,得到相应的目标语言数据。进一步的,上述的图文音频自动翻译方法中,对获取的动作数据进行格式化处理,将格式化处理结果输入到预先构建的LSTM神经网络模型,以得到动作表达数据,包括通过肢体佩戴的姿态传感器采集动作数据;对动作数据进行去噪和特征提取,得到格式化输入数据,输入到预先构建的LSTM神经网络模型中,得到动作表达数据;将所述动作表达数据以目标语言数据进行输出。第二方面,本专利技术还提供了一种图文音频自动翻译系统,包括数据输入模块,用于获取语音数据、图像数据以及动作数据中一种或多种作为源数据;语音数据处理模块,用于对获取的语音数据进行初步处理,将初步处理结果输入到预先训练的翻译模型中,以得到相应的目标语言数据;图像数据处理模块,用于对获取的图像数据进行特征信息识别,将识别的特征信息结果进行翻译,以得到相应的目标语言数据;动作数据处理模块,用于对获取的动作数据进行格式化处理,将格式化处理结果输入到预先构建的LSTM神经网络模型,以得到动作表达数据;数据输出模块,用于当源数据为一种时,直接输出得到的目标语言数据或动作表达数据;当源数据为多种时,将得到的目标语言数据和/或动作表达数据进行相似度匹配,得到融合语言数据输出。进一步的,上述的图文音频自动翻译系统中,语音数据处理模块具体执行:将获取的语音数据进行速率变换,得到标准采样速率语音数据;将标准采样速率数据输入到语种识别模型中,得到语种判断结果;根据语种判断结果将获取的语音数据输入到预先训练的翻译模型中,在翻译模型中进行:将所述语音数据通过预先训练的深度神经网络输出源语言的语言识别信息,将源语言的语言识别信息经过跨语言标注模型转换,输出目标语言数据。进一步的,上述的图文音频自动翻译系统中,所述跨语言标注模型通过预先构建训练得到:将语言按照语种分类,并在语种下按照标准发音和口音划分子类;将所有语种下的子类语言按照任意两两对应的方式生成跨语言对应关系,所述跨语言对应关系将任一源语言按照词、短语和语句为转换单位进行目标语言的对应数据转换,得到目标语言;任意两语言之间均按照所述转换单位进行关联标注,并对其跨语言对应关系进行训练,形成所述跨语言标注模型。进一步的,上述的图文音频自动翻译系统中,所述图像数据处理模块具体执行:通过预先训练的卷积神经网络识别图像中的特征信息,确定图像中包含的文字和/或图形对象;将识别的文字和/或图形对象进行翻译,得到相应的目标语言数据。进一步的,上述的图文音频自动翻译系统中,动作数据处理模块具体执行:通过肢体佩戴的姿态传感器采集动作数据;对动作数据进行去噪和特征提取,得到格式化输入数据,输入到预先构建的LSTM神经网络模型中,得到动作表达数据;将所述动作表达数据以目标语言数据进行输出。与现有技术相比,专利技术的有益效果体现在:本专利技术图文音频自动翻译方法及系统中,能够基于获取的语音数据、图像数据以及动作数据分别进行识别和翻译,并在获得多种源数据进行翻译时融合不同源数据的翻译结果进行相似度匹配,提高翻译精度;进一步的,本专利技术在对跨语言语音翻译时,通过跨语言对应关系,完善语种和口音的语言标注关系,完善翻译模型的语言标注资源,使得在获取的语音数据是小语种或带地方口音时,也能的得到翻译结果;本专利技术系统能够对应表达随意(如包含肢体动作)的翻译场景,具有更好的适应性。附图说明为了更清楚本文档来自技高网...

【技术保护点】
1.一种图文音频自动翻译方法,其特征在于,包括如下步骤:/n获取语音数据、图像数据以及动作数据中一种或多种作为源数据;/n对获取的语音数据进行初步处理,将初步处理结果输入到预先训练的翻译模型中,以得到相应的目标语言数据;/n对获取的图像数据进行特征信息识别,将识别的特征信息结果进行翻译,以得到相应的目标语言数据;/n对获取的动作数据进行格式化处理,将格式化处理结果输入到预先构建的LSTM神经网络模型,以得到动作表达数据;/n当源数据为一种时,直接输出得到的目标语言数据或动作表达数据;当源数据为多种时,将得到的目标语言数据和/或动作表达数据进行相似度匹配,得到融合语言数据。/n

【技术特征摘要】
1.一种图文音频自动翻译方法,其特征在于,包括如下步骤:
获取语音数据、图像数据以及动作数据中一种或多种作为源数据;
对获取的语音数据进行初步处理,将初步处理结果输入到预先训练的翻译模型中,以得到相应的目标语言数据;
对获取的图像数据进行特征信息识别,将识别的特征信息结果进行翻译,以得到相应的目标语言数据;
对获取的动作数据进行格式化处理,将格式化处理结果输入到预先构建的LSTM神经网络模型,以得到动作表达数据;
当源数据为一种时,直接输出得到的目标语言数据或动作表达数据;当源数据为多种时,将得到的目标语言数据和/或动作表达数据进行相似度匹配,得到融合语言数据。


2.根据权利要求1所述的图文音频自动翻译方法,其特征在于,所述对获取的语音数据进行初步处理,将初步处理结果输入到预先训练的翻译模型中,以得到相应的目标语言数据,包括:
将获取的语音数据进行速率变换,得到标准采样速率语音数据;
将标准采样速率数据输入到语种识别模型中,得到语种判断结果;
根据语种判断结果将获取的语音数据输入到预先训练的翻译模型中,在翻译模型中进行:
将所述语音数据通过预先训练的深度神经网络输出源语言的语言识别信息,
将源语言的语言识别信息经过跨语言标注模型转换,输出目标语言数据。


3.根据权利要求2所述的图文音频自动翻译方法,其特征在于,所述跨语言标注模型通过预先构建训练得到:
将语言按照语种分类,并在语种下按照标准发音和口音划分子类;
将所有语种下的子类语言按照任意两两对应的方式生成跨语言对应关系,
所述跨语言对应关系将任一源语言按照词、短语和语句为转换单位进行目标语言的对应数据转换,得到目标语言;
任意两语言之间均按照所述转换单位进行关联标注,并对其跨语言对应关系进行训练,形成所述跨语言标注模型。


4.根据权利要求1所述的图文音频自动翻译方法,其特征在于,所述对获取的图像数据进行特征信息识别,将识别的特征信息结果进行翻译,以得到相应的目标语言数据,包括
通过预先训练的卷积神经网络识别图像中的特征信息,确定图像中包含的文字和/或图形对象;
将识别的文字和/或图形对象进行翻译,得到相应的目标语言数据。


5.根据权利要求1所述的图文音频自动翻译方法,其特征在于,对获取的动作数据进行格式化处理,将格式化处理结果输入到预先构建的LSTM神经网络模型,以得到动作表达数据,包括
通过肢体佩戴的姿态传感器采集动作数据;
对动作数据进行去噪和特征提取,得到格式化输入数据,输入到预先构建的LSTM神经网络模型中,得到动作表达...

【专利技术属性】
技术研发人员:宋万利
申请(专利权)人:宋万利
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1