同声传译方法、系统和设备以及控制器和介质技术方案

技术编号：20363547 阅读：29 留言：0更新日期：2019-02-16 16:49

本发明专利技术涉及一种同声传译方法、系统和设备以及控制器和介质，所述方法包括:采集源语言的语音信号和视觉信号；接收所述语音信号和视觉信号并进行语音识别；根据语音识别结果和所述视觉信号进行翻译；根据翻译结果进行语音合成，生成目标语言。本发明专利技术通过语音信号和视觉信号同时进行语音识别，提高了语音识别的准确性，从而提高了同声传译的准确度和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
同声传译方法、系统和设备以及控制器和介质
本专利技术涉及计算机
，尤其涉及一种同声传译方法、系统和设备以及控制器和介质。
技术介绍
同声传译系统主要通过语音识别、机器翻译和语音合成三个过程来实现。随着深度学习的发展和在各领域的广泛应用，语音识别、机器翻译和语音合成的性能都得到了提升，整个同声传译系统运行的稳定性也得到了提升，尤其是在安静环境中。由于语音识别、机器翻译和语音合成对应的三个模块串行工作，因此越靠前的模块其性能对整个系统的影响也越大。目前，语音识别模块是限制同声传译系统广泛应用的瓶颈模块。语音识别不准确会让后面机器翻译和语音合成错误累计，导致结果偏差越来越大，使整个同声传译系统系统运行不稳健。现有的同声传译系统中，针对不同应用场景，语音识别模块的信号采集包括单麦克风或麦克风阵列。但是在录音环境恶劣的高噪声条件下，语音信号采集模块采集到的语音信号信噪比较低，语音识别性能衰减剧烈，整个同声传译系统会受到极大的影响。尽管采用麦克风阵列可以对语音信号进行定向增强，但是在强噪声环境下，语音识别效果依然很差，导致同声传译系统准确度低、稳定性差。
技术实现思路
本专利技术目的在于，提供一种同声传译方法、系统和设备以及控制器和介质，通过语音信号和视觉信号同时进行语音识别，提高了语音识别的准确性，从而提高了同声传译的准确度和稳定性。为了解决上述技术问题，根据本专利技术第一实施例，提供了一种同声传译方法，包括:采集源语言的语音信号和视觉信号；接收所述语音信号和视觉信号并进行语音识别；根据语音识别结果和所述视觉信号进行翻译；根据翻译结果进行语音合成，生成目标语言。进...

【技术保护点】
1.一种同声传译方法，其特征在于：包括:采集源语言的语音信号和视觉信号；接收所述语音信号和视觉信号并进行语音识别；根据语音识别结果和所述视觉信号进行翻译；根据翻译结果进行语音合成，生成目标语言。

【技术特征摘要】
1.一种同声传译方法，其特征在于：包括:采集源语言的语音信号和视觉信号；接收所述语音信号和视觉信号并进行语音识别；根据语音识别结果和所述视觉信号进行翻译；根据翻译结果进行语音合成，生成目标语言。2.根据权利要求1所述的同声传译方法，其特征在于：所述接收所述语音信号和视觉信号并进行语音识别包括以下步骤：接收所述语音信号和视觉信号；将所述语音信号和视觉信号输入预先建立的语音识别模型中进行语音识别。3.根据权利要求2所述的同声传译方法，其特征在于：所述方法还包括，预先建立所述语音识别模型，具体包括以下步骤：输入语音信号、视觉信号和对应的语音识别结果进行训练，生成所述语音识别模型。4.根据权利要求3所述的同声传译方法，其特征在于：输入语音信号、视觉信号和对应的语音识别结果进行训练，生成所述语音识别模型，包括以下步骤：同时训练输入的语音信号、视觉信号和对应的语音识别结果，生成所述语音识别模型；或者，先对所述语音信号和对应的语音识别结果进行训练，待模型收敛之后，加入所述视觉信号调整模型，生成所述语音识别模型；或者，单独对所述语音信号和对应的语音识别结果进行训练，生成语音模型，单独对所述视觉信号和对应的语音识别结果进行训练，生成视觉模型，将所述语音模型和所述视觉模型的输出结果进行解码合并，得到语音识别结果，所述语音模型、视觉模型以及解码合并步骤共同构成所述语音识别模型。5.根据权利要求1所述的同声传译方法，其特征在于：所述根据语音识别结果和所述视觉信号进行翻译，包括以下步骤：接收所述语音识别结果和所述视觉信号；将所述语音识别结果和所述视觉信号输入至预先建立的机器翻译模型中进行翻译，得到翻译结果。6.根据权利要求5所述的同声传译方法，其特征在于：所述方法还包括：预先建立所述机器翻译模型，具体包括以下步骤：输入源语言的文本信息、视觉信号以及对应的目标语言文本信息进行训练，生成所述机器...

【专利技术属性】
技术研发人员：范利春，高鹏，
申请(专利权)人：芋头科技杭州有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人