即时通话语音的翻译方法、装置以及终端制造方法及图纸

技术编号:24290018 阅读:14 留言:0更新日期:2020-05-26 20:12
本申请实施例提供了一种即时通话语音的翻译方法、装置及电子设备,该方法包括:获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧,然后确定各个语音帧分别对应的特征向量,然后基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,然后将语音识别结果翻译为与预设的目标语种匹配的翻译信息,并输出翻译信息。本申请实施例可以使得不同语种用户可以顺畅地进行即时通话,并可以降低使用不同语种的用户进行即时通话的复杂度,进而可以提升用户体验。

Translation method, device and terminal of instant call voice

【技术实现步骤摘要】
即时通话语音的翻译方法、装置以及终端
本申请涉及语音智能翻译
,具体而言,本申请涉及一种即时通话语音的翻译方法、装置及电子设备。
技术介绍
随着科技的发展,手机已经成为人们日常通信交流的重要工具。随着国家同国家的贸易、交流的不断发展和进步,用户国际化的趋势必然导致不同国家用户在使用手机进行沟通时存在问题。以中、英文母语用户为例,当使用中文的用户向使用英文的用户发送即时通话时,由于使用中文的用户可能听不懂英文,使用英文的用户可能听不懂中文,双方均需要将接收到的语音录制并输入至翻译软件后,进行翻译,才可以获知对方的意思,从而导致使用不同语种的用户进行即时通话的复杂度较高,用户体验较差。
技术实现思路
本申请提供了一种即时通话语音的翻译方法、装置及终端,用于解决使用不同语种的用户进行即时通话的复杂度较高以及用户体验较差的问题。技术方案如下:第一方面,本申请提供一种即时通话语音的翻译方法,该方法包括:获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧;确定各个语音帧分别对应的特征向量;基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果;将语音识别结果翻译为与预设的目标语种匹配的翻译信息;输出翻译信息。具体地,基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,包括:利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值;对各个特征向量分别对应的状态值进行解码,得到即时通话语音信号对应的文本信息。在一个可能的实现方式中,利用基于神经网络的语音识别模型对特征向量进行识别之前,方法还包括:获取即时通话语音信号中的一个语音片段;确定语音片段对应的语种;利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值,包括:利用与确定的语种对应的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值。具体地,将语音识别结果翻译为与预设的目标语种匹配的翻译信息,包括:对语音识别结果进行处理,以确定语音识别结果对应的文本向量;利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息。具体地,将语音识别结果翻译为与预设的目标语种匹配的翻译信息,包括:对语音识别结果进行处理,以确定语音识别结果对应的文本向量;利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息;将文本信息合成与预设的目标语种匹配的语音信息。具体地,利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息,包括:基于文本向量,确定待翻译的即时通信语音信号中是否包含预设类型的文本信息;若包含预设类型的文本信息,则基于特定的语言词典将预设类型的文本信息转换为源文本信息,并对源文本信息进行处理,得到源文本信息对应的源文本向量,并将源文本向量与非源文本向量,进行合成,得到合成后的文本向量,非源文本向量为文本向量中不包含预设类型的文本信息对应的文本向量;利用基于注意力机制的翻译模型对合成后的文本向量进行处理,得到与预设的目标语种匹配的文本信息。在一个可能的实现方式中,预设类型的文本信息包括以下至少一种:成语、俚语、歇后语、网络流行语、古诗词以及文言文。在一个可能的实现方式中,将文本信息合成与预设的目标语种匹配的语音信息,之前还包括:确定即时通话语音信号发出者对应的属性信息;将文本信息合成与预设的目标语种匹配的语音信息,包括:基于确定出的即时通话语音信号发出者对应的属性信息,将文本信息合成与预设的目标语种匹配的语音信息。具体地,确定即时通话语音信号发出者对应的属性信息,包括:对获取到的待翻译的即时通话语音信号进行频谱分析,确定基于属性信息的特征量;根据确定出的基于属性信息的特征量,确定即时通话语音信号发出者对应的属性信息。在一个可能的实现方式中,即时通话语音信号发出者对应的属性信息包括:静态属性信息以及动态属性信息;静态属性信息包括以下至少一项:即时通话语音信号发出者的年龄、性别;动态属性信息包括以下至少一项:即时通话语音信号发出者当前的说话的语速、音调和/或即时通话语音信号发出者当前说话的情绪状态信息。在一个可能的实现方式中,在对即时通话语音信号进行语音识别之前,该方法还包括:根据用户通过终端设备输入的启动指令,启动语音识别任务和语音翻译任务。在一个可能的实现方式中,将语音识别结果翻译为与预设的目标语种匹配的翻译信息之前,该方法还包括:若语音识别结果对应的语种与当前用户的惯用语种不同,则启动语音翻译任务。在一个可能的实现方式中,该方法还包括:根据用户通过终端设备输入的语种配置指令,确定目标语种。在一个可能的实现方式中,该方法还包括:根据终端设备当前所处地理位置确定当前所在国家,以确定目标语种。在一个可能的实现方式中,该方法还包括:获取终端设备的系统语言,将系统语言确定为目标语种。具体地,输出翻译信息,包括:确定输出翻译信息的方式;基于确定出的输出翻译信息的方式,输出翻译信息。具体地,确定输出翻译信息的方式,包括以下至少一项:基于待输出翻译信息的设备当前是否连接耳机,确定输出翻译信息的方式;基于待输出翻译信息的设备当前所设置的情景模式,确定输出翻译信息的方式;基于待输出翻译信息的设备当前的剩余电量,确定输出翻译信息的方式;基于待输出翻译信息的设备当前所处的环境信息,确定输出翻译信息的方式;输出翻译信息的方式包括:语音输出方式以及文本输出方式。第二方面,本申请提供了一种即时通话语音的翻译装置,装置包括:第一获取模块,用于获取待翻译的即时通话语音信号;切分模块,用于将第一获取模块获取到的待翻译的即时语音信号切分为预设个数的语音帧;第一确定模块,用于确定切分模块切换后的各个语音帧分别对应的特征向量;语音识别模块,用于基于神经网络的语音识别模型对第一确定模块确定出的各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果;翻译模块,用于将语音识别模块语音识别出的语音识别结果翻译为与预设的目标语种匹配的翻译信息;输出模块,用于输出翻译信息。具体地,语音识别模块,具体用于利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值;语音识别模块,具体还用于对各个特征向量分别对应的状态值进行解码,得到即时通话语音信号对应的文本信息。进一步地,装置还包括:第二获取模块、第二确定模块;第二获取模块,用于获取即时通话语音信号中的一个语本文档来自技高网...

【技术保护点】
1.一种即时通话语音的翻译方法,其特征在于,包括如下步骤:/n获取待翻译的即时通话语音信号,并将所述待翻译的即时语音信号切分为预设个数的语音帧;/n确定各个语音帧分别对应的特征向量;/n基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果;/n将所述语音识别结果翻译为与预设的目标语种匹配的翻译信息;/n输出所述翻译信息。/n

【技术特征摘要】
1.一种即时通话语音的翻译方法,其特征在于,包括如下步骤:
获取待翻译的即时通话语音信号,并将所述待翻译的即时语音信号切分为预设个数的语音帧;
确定各个语音帧分别对应的特征向量;
基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果;
将所述语音识别结果翻译为与预设的目标语种匹配的翻译信息;
输出所述翻译信息。


2.根据权利要求1所述的方法,其特征在于,基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,包括:
利用基于神经网络的语音识别模型对所述特征向量进行识别,确定与所述各个特征向量分别对应的状态值;
对所述各个特征向量分别对应的状态值进行解码,得到所述即时通话语音信号对应的文本信息。


3.根据权利要求2所述的方法,其特征在于,所述利用基于神经网络的语音识别模型对所述特征向量进行识别之前,所述方法还包括:
获取即时通话语音信号中的一个语音片段;
确定所述语音片段对应的语种;
所述利用基于神经网络的语音识别模型对所述特征向量进行识别,确定与所述各个特征向量分别对应的状态值,包括:
利用与确定的语种对应的语音识别模型对所述特征向量进行识别,确定与所述各个特征向量分别对应的状态值。


4.根据权利要求1所述的方法,其特征在于,所述将所述语音识别结果翻译为与预设的目标语种匹配的翻译信息,包括:
对所述语音识别结果进行处理,以确定所述语音识别结果对应的文本向量;
利用基于注意力机制的翻译模型对所述文本向量进行处理,得到与预设的目标语种匹配的文本信息。


5.根据权利要求1所述的方法,其特征在于,所述将所述语音识别结果翻译为与预设的目标语种匹配的翻译信息,包括:
对所述语音识别结果进行处理,以确定所述语音识别结果对应的文本向量;
利用基于注意力机制的翻译模型对所述文本向量进行处理,得到与预设的目标语种匹配的文本信息;
将所述文本信息合成与预设的目标语种匹配的语音信息。


6....

【专利技术属性】
技术研发人员:张乐杰李玉峰
申请(专利权)人:西安欧思奇软件有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1