同声传译方法、系统和设备以及控制器和介质技术方案

技术编号:20363547 阅读:29 留言:0更新日期:2019-02-16 16:49
本发明专利技术涉及一种同声传译方法、系统和设备以及控制器和介质,所述方法包括:采集源语言的语音信号和视觉信号;接收所述语音信号和视觉信号并进行语音识别;根据语音识别结果和所述视觉信号进行翻译;根据翻译结果进行语音合成,生成目标语言。本发明专利技术通过语音信号和视觉信号同时进行语音识别,提高了语音识别的准确性,从而提高了同声传译的准确度和稳定性。

【技术实现步骤摘要】
同声传译方法、系统和设备以及控制器和介质
本专利技术涉及计算机
,尤其涉及一种同声传译方法、系统和设备以及控制器和介质。
技术介绍
同声传译系统主要通过语音识别、机器翻译和语音合成三个过程来实现。随着深度学习的发展和在各领域的广泛应用,语音识别、机器翻译和语音合成的性能都得到了提升,整个同声传译系统运行的稳定性也得到了提升,尤其是在安静环境中。由于语音识别、机器翻译和语音合成对应的三个模块串行工作,因此越靠前的模块其性能对整个系统的影响也越大。目前,语音识别模块是限制同声传译系统广泛应用的瓶颈模块。语音识别不准确会让后面机器翻译和语音合成错误累计,导致结果偏差越来越大,使整个同声传译系统系统运行不稳健。现有的同声传译系统中,针对不同应用场景,语音识别模块的信号采集包括单麦克风或麦克风阵列。但是在录音环境恶劣的高噪声条件下,语音信号采集模块采集到的语音信号信噪比较低,语音识别性能衰减剧烈,整个同声传译系统会受到极大的影响。尽管采用麦克风阵列可以对语音信号进行定向增强,但是在强噪声环境下,语音识别效果依然很差,导致同声传译系统准确度低、稳定性差。
技术实现思路
本专利技术目的在于,提供一种同声传译方法、系统和设备以及控制器和介质,通过语音信号和视觉信号同时进行语音识别,提高了语音识别的准确性,从而提高了同声传译的准确度和稳定性。为了解决上述技术问题,根据本专利技术第一实施例,提供了一种同声传译方法,包括:采集源语言的语音信号和视觉信号;接收所述语音信号和视觉信号并进行语音识别;根据语音识别结果和所述视觉信号进行翻译;根据翻译结果进行语音合成,生成目标语言。进一步的,所述接收所述语音信号和视觉信号并进行语音识别包括以下步骤:接收所述语音信号和视觉信号;将所述语音信号和视觉信号输入预先建立的语音识别模型中进行语音识别。进一步的,所述方法还包括,预先建立所述语音识别模型,具体包括以下步骤:输入语音信号、视觉信号和对应的语音识别结果进行训练,生成所述语音识别模型。进一步的,输入语音信号、视觉信号和对应的语音识别结果进行训练,生成所述语音识别模型,包括以下步骤:同时训练输入的语音信号、视觉信号和对应的语音识别结果,生成所述语音识别模型;或者,先对所述语音信号和对应的语音识别结果进行训练,待模型收敛之后,加入所述视觉信号调整模型,生成所述语音识别模型;或者,单独对所述语音信号和对应的语音识别结果进行训练,生成语音模型,单独对所述视觉信号和对应的语音识别结果进行训练,生成视觉模型,将所述语音模型和所述视觉模型的输出结果进行解码合并,得到语音识别结果,所述语音模型、视觉模型以及解码合并步骤共同构成所述语音识别模型。进一步的,所述根据语音识别结果和所述视觉信号进行翻译,包括以下步骤:接收所述语音识别结果和所述视觉信号;将所述语音识别结果和所述视觉信号输入至预先建立的机器翻译模型中进行翻译,得到翻译结果。进一步的,所述方法还包括:预先建立所述机器翻译模型,具体包括以下步骤:输入源语言的文本信息、视觉信号以及对应的目标语言文本信息进行训练,生成所述机器翻译模型。根据本专利技术第二实施例,提供了一种同声传译系统,包括:信号采集模块,用于采集源语言的语音信号和视觉信号;语音识别模块,用于接收所述语音信号和视觉信号并进行语音识别;翻译模块,用于根据语音识别结果和所述视觉信号进行翻译;语音合成模块,用于根据翻译结果进行语音合成,生成目标语言。进一步的,所述语音识别模块包括第一接收单元和信号识别单元,所述信号识别单元中存储有预先建立的语音识别模型,其中,所述第一接收单元用于接收所述语音信号和视觉信号;所述信号识别单元用于将所述语音信号和视觉信号输入预先建立的语音识别模型中进行语音识别。进一步的,所述语音识别模型通过输入语音信号、视觉信号和对应的语音识别结果进行训练所得。进一步的,所述翻译模块包括第二接收单元和机器翻译单元,所述机器翻译单元中存储有预先建立的机器翻译模型,其中,所述第二接收单元用于接收所述语音识别结果和所述视觉信号;所述机器翻译单元用于将所述语音识别结果和所述视觉信号输入至预先建立的机器翻译模型中进行翻译,得到翻译结果。进一步的,所述机器翻译模型通过输入源语言的文本信息、视觉信号以及对应的目标语言文本信息进行训练所得。根据本专利技术第三实施例,提供了一种同声传译设备,包括所述同声传译系统,所述同声传译设备包括手机、电脑、智能手表、智能眼镜。根据本专利技术第四实施例,提供一种控制器,其包括存储器与处理器,所述存储器存储有计算机程序,所述程序在被所述处理器执行时能够实现所述方法的步骤。根据本专利技术第五实施例,提供一种计算机可读存储介质,用于存储计算机指令,所述指令在由一计算机或处理器执行时实现所述方法的步骤。本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本专利技术一种同声传译方法、系统和设备以及控制器和介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:本专利技术采用了语音信号和视觉信号进行增强的语音识别,在强噪声环境下依然能够保障语音识别的准确率。相比于现有的只用麦克风进行语音识别的系统,抗噪声能力有了很大的提升,提高了同声传译的准确度和稳定性,从而使得同声传译系统能够适用多种场景。此外,视觉信号不仅能提升噪声环境下的语音识别模块性能,还能在翻译模块中提供额外的面目以及肢体情感信息,从而判断说话人是否在采用了反讽或是类似的表达方式,进一步提升机器翻译的性能,最终提高了整个同声传译系统的性能。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。附图说明图1为本专利技术一实施例提供同声传译方法示意图;图2为本专利技术一实施例提供的同声传译方法的语音识别模型建立示意图;图3为本专利技术一实施例提供的同声传译方法的语音识别模型建立的数据训练过程示意图;图4为本专利技术一实施例提供的同声传译方法语音识别过程示意图;图5为本专利技术一实施例提供的同声传译方法的机器翻译模型建立示意图;图6为本专利技术一实施例提供同声传译系统示意图;【符号说明】1:信号采集模块2:语音识别模块3:翻译模块4:语音合成模块具体实施方式为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种同声传译方法、系统和设备以及控制器和介质的具体实施方式及其功效,详细说明如后。本专利技术实施例提供了一种同声传译方法,如图1所示,包括:步骤S1、采集源语言的语音信号和视觉信号;作为一种示例,语音信号可通过单麦克风或麦克风阵列等来采集,视觉信号即通过摄像头等装置采集的视频信号,可采集到图片信息,例如唇部图片、面目图片、肢体图片等。步骤S2、接收所述语音信号和视觉信号并进行语音识别,得到语音识别结果;当环境噪声特别大时,仅通过采集语音信号进行语音识别极不准确,此时,视觉信号将对语音识别起到至关重要的作用,减少整个同声传译过程的误差,保证准确度。作为一种示例,所述步骤S2包括以下步骤:步骤S21、接收所述语音信号和视觉信号;步骤S22、将所述语音信号和视觉信号输入预先建本文档来自技高网...

【技术保护点】
1.一种同声传译方法,其特征在于:包括:采集源语言的语音信号和视觉信号;接收所述语音信号和视觉信号并进行语音识别;根据语音识别结果和所述视觉信号进行翻译;根据翻译结果进行语音合成,生成目标语言。

【技术特征摘要】
1.一种同声传译方法,其特征在于:包括:采集源语言的语音信号和视觉信号;接收所述语音信号和视觉信号并进行语音识别;根据语音识别结果和所述视觉信号进行翻译;根据翻译结果进行语音合成,生成目标语言。2.根据权利要求1所述的同声传译方法,其特征在于:所述接收所述语音信号和视觉信号并进行语音识别包括以下步骤:接收所述语音信号和视觉信号;将所述语音信号和视觉信号输入预先建立的语音识别模型中进行语音识别。3.根据权利要求2所述的同声传译方法,其特征在于:所述方法还包括,预先建立所述语音识别模型,具体包括以下步骤:输入语音信号、视觉信号和对应的语音识别结果进行训练,生成所述语音识别模型。4.根据权利要求3所述的同声传译方法,其特征在于:输入语音信号、视觉信号和对应的语音识别结果进行训练,生成所述语音识别模型,包括以下步骤:同时训练输入的语音信号、视觉信号和对应的语音识别结果,生成所述语音识别模型;或者,先对所述语音信号和对应的语音识别结果进行训练,待模型收敛之后,加入所述视觉信号调整模型,生成所述语音识别模型;或者,单独对所述语音信号和对应的语音识别结果进行训练,生成语音模型,单独对所述视觉信号和对应的语音识别结果进行训练,生成视觉模型,将所述语音模型和所述视觉模型的输出结果进行解码合并,得到语音识别结果,所述语音模型、视觉模型以及解码合并步骤共同构成所述语音识别模型。5.根据权利要求1所述的同声传译方法,其特征在于:所述根据语音识别结果和所述视觉信号进行翻译,包括以下步骤:接收所述语音识别结果和所述视觉信号;将所述语音识别结果和所述视觉信号输入至预先建立的机器翻译模型中进行翻译,得到翻译结果。6.根据权利要求5所述的同声传译方法,其特征在于:所述方法还包括:预先建立所述机器翻译模型,具体包括以下步骤:输入源语言的文本信息、视觉信号以及对应的目标语言文本信息进行训练,生成所述机器...

【专利技术属性】
技术研发人员:范利春高鹏
申请(专利权)人:芋头科技杭州有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1