一种基于视觉信息的粤语语音识别增强方法技术

技术编号：34851276 阅读：39 留言：0更新日期：2022-09-08 07:51

本发明专利技术公开了一种基于视觉信息的粤语语音识别增强方法，步骤如下：S1、构建数据集；S2、数据处理；S3、使用算法对预处理过的数据进行训练，得到训练模型。S4、利用训练模型在不同语音环境下对识别效果同纯音频模型进行对比。本发明专利技术采用上述的一种基于视觉信息的粤语语音识别增强方法，通过提出一种基于多尺度时间卷积网络的端到端音视频增强网络，利用视觉信息对粤语语音识别增强，有效的提升了在复杂的语音环境下的粤语语音识别效果。音环境下的粤语语音识别效果。音环境下的粤语语音识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉信息的粤语语音识别增强方法

[0001]本专利技术涉及语音识别以及唇语识别
，尤其是涉及一种基于视觉信息的粤语语音识别增强方法。

技术介绍

[0002]语音是人类沟通和表达最自然的方式，是人机交互中最核心的一部分。近十年来，随着深度学习技术的突飞猛进，语音识别领域取得了突破性的进展，很多商业级的语音识别产品已经达到95％以上的精度。当下，智能语音识别已经成为人机交互的主要方式之一，在车机系统、智能家电、语音助手等多个语音产品中应用。但是，智能语音产品在日常使用环境中，总会遇到各种各样的噪声，造成语音识别准确率急剧下降，从而影响用户体验。如何在复杂语音环境下分离纯净的音频成为近年的研究热门。
[0003]语音识别本质上是多模态的，一般来说，除了到达耳朵的声学信息之外，我们还可以通过说话人的其他器官，譬如：舌头、牙齿、下巴以及面部表情对语音内容进行读取。神经科学以及语音感知等领域有研究表明，语音在视觉方面对人类将听觉注意力集中在特定的刺激的能力上具有潜在的强大影响。与此同时，视觉信息不受噪声的影响，这使得其在复杂的语音环境中成为语音识别的可靠线索。
[0004]粤语在我国两广地区还有香港特别行政区和澳门特别行政区以及世界范围内的华人社区中使用广泛，因此在复杂语音环境下粤语语音增强的研究刻不容缓。而粤语的发音方式、音调还有发音长度在说话内容和普通话内容一致的情况下均有所不同。因此，中文普通话语音增强模型不可以直接迁移到粤语任务中。
[0005]现有的语音识别增强任务中对粤语语音识别...

【技术保护点】

【技术特征摘要】
1.一种基于视觉信息的粤语语音识别增强方法，其特征在于，步骤如下：S1、构建数据集；S2、数据处理；S3、使用算法对预处理过的数据进行训练，得到训练模型；S4、利用训练模型在不同语音环境下对识别效果同纯音频模型进行对比。2.根据权利要求1所述的一种基于视觉信息的粤语语音识别增强方法，其特征在于：步骤S1中，利用you
‑
get工具获取粤语视频资源，将视频源送入自动数据采集系统中，对音频数据和视频数据进行处理，得到带有音频数据和视频数据的粤语音视频数据集。3.根据权利要求2所述的一种基于视觉信息的粤语语音识别增强方法，其特征在于：视频源首先通过人工对视频短句进行裁剪，再进入自动数据采集系统中。4.根据权利要求1所述的一种基于视觉信息的粤语语音识别增强方法，其特征在于：步骤S2中，分别对视频数据和音频数据进行处理，得到唇部区域图像序列和音频波形，将视频序列和音频波形和其对应的文本信息进行编码，得到打包好的训练数据。5.根据权利要求4所述的一种基于视觉信息的粤语语音识别增强方法，其特征在于，处理时基于ResNet
‑
18与MS
‑
TCN主干网络，具体如下：(1)将视频流所对应子网络中的ResNet
‑
18网络中...

【专利技术属性】
技术研发人员：肖业伟，滕连伟，刘烜铭，朱澳苏，田丕承，
申请(专利权)人：湘潭大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人