一种融合式语音识别方法、装置、系统、设备和存储介质制造方法及图纸

技术编号：26224643 阅读：26 留言：0更新日期：2020-11-04 10:59

本申请涉及一种融合式语音识别方法、装置、系统、设备及存储介质，该方法包括通过获取第一语音数据流；获取图像数据，在图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，生成第一降噪增强指令；根据第一降噪增强指令，对第一语音数据流进行处理以获得第二语音数据流；识别第二语音数据流，以生成语音识别结果，解决了在躁杂环境下语音识别效果差的问题，实现了降噪效果好、识别精度高的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合式语音识别方法、装置、系统、设备和存储介质
本申请涉及语音识别
，特别是涉及一种融合式语音识别方法、装置、系统、设备和存储介质。
技术介绍
在语音识别过程中，为了降低外界噪声对识别干扰的常用方法是使用麦克风阵列对音频数据进行降噪处理，即将麦克风阵列获取的多路音频数据输入到降噪算法中进行回声消除、去混响、波束形成等处理，从而得到干净的单路音频，然后再送入语音识别引擎进行识别。然而，麦克风阵列及其降噪算法对外界噪声，尤其是非稳态噪声非常敏感。在信噪比低于5dB时，其性能会迅速下降。对于地铁站站厅来说，当处于人流高峰以及列车过往时，环境信噪比会下降至0dB以下，导致单一维度的语音降噪算法难以满足语音识别要求。目前针对相关技术中在躁杂环境下语音识别效果差的问题，尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种融合式语音识别方法、装置、系统、设备和存储介质，以至少解决相关技术中在躁杂环境下语音识别效果差的问题。第一方面，本申请实施例提供了一种融合式语音识别方法，应...

【技术保护点】
1.一种融合式语音识别方法，应用于躁杂场景，其特征在于，包括：/n获取第一语音数据流；/n获取图像数据，在所述图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，生成第一降噪增强指令；/n根据所述第一降噪增强指令，对所述第一语音数据流进行处理以获得第二语音数据流；/n识别所述第二语音数据流，以生成语音识别结果。/n

【技术特征摘要】
1.一种融合式语音识别方法，应用于躁杂场景，其特征在于，包括：
获取第一语音数据流；
获取图像数据，在所述图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，生成第一降噪增强指令；
根据所述第一降噪增强指令，对所述第一语音数据流进行处理以获得第二语音数据流；
识别所述第二语音数据流，以生成语音识别结果。

2.根据权利要求1所述的融合式语音识别方法，其特征在于，在所述图像数据包括用户的人脸图像数据以及用户的唇动图像数据的情况下，所述方法还包括：
生成数据流开启指令；
根据所述数据流开启指令，传输所述第二语音数据流。

3.根据权利要求1所述的融合式语音识别方法，其特征在于，识别第二语音数据流，以生成语音识别结果包括：
在所述图像数据不包括用户的所述唇动图像数据的情况下，在所述第二语音数据流插入终止标识符；
对所述终止标识符之前的所述第二语音数据流进行识别，以生成语音识别结果。

4.根据权利要求1所述的融合式语音识别方法，其特征在于，在获取图像之后，所述方法还包括：
在所述图像数据不包括用户的人脸图像数据的情况下，生成销毁指令；
根据所述销毁指令，销毁所述第一语音数据流。

5.根据权利要求1所述的融合式语音识别方法，其特征在于，在获取图像之后，所述方法还包括：
在所述图像数据包括用户的人脸图像数据的情况下，判断所述用户的停留时间；
在所述停留时间达到预设时间阈值的情况下，生成第二降噪增强指令；
根据所述第二降噪增强指令，对所述第一语音数据流进行处理以获得第三语音数据流；
在所述图像数据包括用户的唇动图像数据的情况下，生成第一降噪增强指令；
根据所述第一降噪增强指令，对所述第三语音数据流进行处理以获得第二语音数据流。

6.一种融合式语音识别装置，其特征在于，包括：

【专利技术属性】
技术研发人员：陈晓松，李旭滨，
申请(专利权)人：上海茂声智能科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人