本发明专利技术公开了一种基于视觉信息的粤语语音识别增强方法,步骤如下:S1、构建数据集;S2、数据处理;S3、使用算法对预处理过的数据进行训练,得到训练模型。S4、利用训练模型在不同语音环境下对识别效果同纯音频模型进行对比。本发明专利技术采用上述的一种基于视觉信息的粤语语音识别增强方法,通过提出一种基于多尺度时间卷积网络的端到端音视频增强网络,利用视觉信息对粤语语音识别增强,有效的提升了在复杂的语音环境下的粤语语音识别效果。音环境下的粤语语音识别效果。音环境下的粤语语音识别效果。
【技术实现步骤摘要】
一种基于视觉信息的粤语语音识别增强方法
[0001]本专利技术涉及语音识别以及唇语识别
,尤其是涉及一种基于视觉信息的粤语语音识别增强方法。
技术介绍
[0002]语音是人类沟通和表达最自然的方式,是人机交互中最核心的一部分。近十年来,随着深度学习技术的突飞猛进,语音识别领域取得了突破性的进展,很多商业级的语音识别产品已经达到95%以上的精度。当下,智能语音识别已经成为人机交互的主要方式之一,在车机系统、智能家电、语音助手等多个语音产品中应用。但是,智能语音产品在日常使用环境中,总会遇到各种各样的噪声,造成语音识别准确率急剧下降,从而影响用户体验。如何在复杂语音环境下分离纯净的音频成为近年的研究热门。
[0003]语音识别本质上是多模态的,一般来说,除了到达耳朵的声学信息之外,我们还可以通过说话人的其他器官,譬如:舌头、牙齿、下巴以及面部表情对语音内容进行读取。神经科学以及语音感知等领域有研究表明,语音在视觉方面对人类将听觉注意力集中在特定的刺激的能力上具有潜在的强大影响。与此同时,视觉信息不受噪声的影响,这使得其在复杂的语音环境中成为语音识别的可靠线索。
[0004]粤语在我国两广地区还有香港特别行政区和澳门特别行政区以及世界范围内的华人社区中使用广泛,因此在复杂语音环境下粤语语音增强的研究刻不容缓。而粤语的发音方式、音调还有发音长度在说话内容和普通话内容一致的情况下均有所不同。因此,中文普通话语音增强模型不可以直接迁移到粤语任务中。
[0005]现有的语音识别增强任务中对粤语语音识别进行研究的极少,结合国内外语音识别增强领域的研究进展,粤语语音识别增强任务主要存在以下几个技术难点:
[0006]①
没有研究机构或者个人发行公开的大规模粤语音视频数据集。
[0007]②
如何在复杂语音环境下利用视觉信息对语音识别精度进行提升。
[0008]③
如何通过获取多个感受野的方式来获取多尺度的时间信息。
技术实现思路
[0009]本专利技术的目的是提供一种基于视觉信息的粤语语音识别增强方法,弥补了粤语音视频增强领域没有大规模数据集的空白,通过提出一种基于多尺度时间卷积网络的端到端音视频增强网络,利用视觉信息对粤语语音识别增强,有效的提升了在复杂的语音环境下的粤语语音识别效果。
[0010]为实现上述目的,本专利技术提供了一种基于视觉信息的粤语语音识别增强方法,步骤如下:
[0011]S1、构建数据集;
[0012]S2、数据处理;
[0013]S3、使用算法对预处理过的数据进行训练,得到训练模型;
[0014]S4、利用训练模型在不同语音环境下对识别效果同纯音频模型进行对比。
[0015]优选的,步骤S1中,利用you
‑
get工具获取粤语视频资源,将视频源送入自动数据采集系统中,对音频数据和视频数据进行处理,得到带有音频数据和视频数据的粤语音视频数据集。
[0016]优选的,视频源首先通过人工对视频短句进行裁剪,再进入自动数据采集系统中。
[0017]优选的,步骤S2中,分别对视频数据和音频数据进行处理,得到唇部区域图像序列和音频波形,将视频序列和音频波形和其对应的文本信息进行编码,得到打包好的训练数据。
[0018]优选的,处理时基于ResNet
‑
18与MS
‑
TCN主干网络,具体如下:
[0019](1)将视频流所对应子网络中的ResNet
‑
18网络中的第一个2D卷积层修改成卷积核大小为5
×7×
7的3D卷积层,从而更有效的捕捉唇部动作的时序信息的同时兼顾捕捉唇部动作的细粒度特征;
[0020](2)对于音频流子网络,将基于1D卷积层的ResNet
‑
18网络,第一层的卷积核设为80(5ms),步长设为4;
[0021](3)设计一个多尺度的时间卷积网络,通过改变卷积核和步长,改变时间卷积网络的感受野大小,通过获取多个尺度的感受野的方式,在特征编码时可以混合长期和短期的特征信息;
[0022](4)改进损失函数以及优化器;
[0023](5)改进训练策略;
[0024](5)构建音视频增强模型。
[0025]优选的,在步骤S3训练之前还包括对数据进行预处理,通过所有音频数据均匀添加NOISEX数据库中
‑
5dB到20dB的噪音音频,从而模拟不同的复杂语音环境,将处理过的视频数据、音频数据和文本信息利用Libjpeg工具进行编码。
[0026]优选的,步骤S3中,分别利用视频网络提取视频数据的特征、音频网络提取音频数据的特征,将提取到的音频特征和视频特征连接到一起作为融合网络的输入,经过融合网络产生预测结果,然后整个系统进行端到端的训练。
[0027]因此,本专利技术采用上述一种基于视觉信息的粤语语音识别增强方法,通过下载网络视频资源,人工剪裁并筛选无效场景,将逐句剪裁过的数据输入到自主设计的粤语音视频数据采集系统中对数据进行收集。针对视频数据以及音频数据,分别对ResNet
‑
18网络进行修改,与此同时通过获取多个尺度的感受野的方式,在特征编码时可以混合长期和短期的特征信息。
[0028]具体来说,将视频流所对应子网络中的ResNet
‑
18网络中卷积层设置为卷积核大小为5
×7×
7的3D卷积层,可以有效的捕捉唇部动作的时序信息的同时,兼顾捕捉唇部动作的细粒度特征。
[0029]在视频流和音频流所对应子网络以及融合网络的后端均添加了多尺度时间卷积网络,多尺度时间卷积模型由三个卷积核大小不同的时间卷积网络分支组成,每个分支的输出通过串联进行简单的组合,通过这种方式获取了多尺度的感受野,在特征编码时可以混合长期和短期的特征信息,从而得到一个更好的识别效果,克服了音频信号为一维的单一信息限制。
[0030]本申请通过收集粤语单词级音视频数据集弥补了粤语音视频增强领域没有大规模数据集的空白,通过提出一种基于多尺度时间卷积网络的端到端音视频增强网络,利用视觉信息对粤语语音识别增强,有效的提升了在复杂的语音环境下的粤语语音识别效果。
[0031]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0032]图1是本专利技术一种基于视觉信息的粤语语音识别增强方法的流程图;
[0033]图2是本专利技术采集粤语音视频数据集的流程图;
[0034]图3是本专利技术对唇部区域提取的示意图;
[0035]图4是本专利技术所提出的一种基于多尺度时间卷积网络的端到端音视频增强方法的完整网络。
具体实施方式
[0036]以下通过附图和实施例对本专利技术的技术方案作进一步说明。
[0037]除非另外定义,本专利技术使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于视觉信息的粤语语音识别增强方法,其特征在于,步骤如下:S1、构建数据集;S2、数据处理;S3、使用算法对预处理过的数据进行训练,得到训练模型;S4、利用训练模型在不同语音环境下对识别效果同纯音频模型进行对比。2.根据权利要求1所述的一种基于视觉信息的粤语语音识别增强方法,其特征在于:步骤S1中,利用you
‑
get工具获取粤语视频资源,将视频源送入自动数据采集系统中,对音频数据和视频数据进行处理,得到带有音频数据和视频数据的粤语音视频数据集。3.根据权利要求2所述的一种基于视觉信息的粤语语音识别增强方法,其特征在于:视频源首先通过人工对视频短句进行裁剪,再进入自动数据采集系统中。4.根据权利要求1所述的一种基于视觉信息的粤语语音识别增强方法,其特征在于:步骤S2中,分别对视频数据和音频数据进行处理,得到唇部区域图像序列和音频波形,将视频序列和音频波形和其对应的文本信息进行编码,得到打包好的训练数据。5.根据权利要求4所述的一种基于视觉信息的粤语语音识别增强方法,其特征在于,处理时基于ResNet
‑
18与MS
‑
TCN主干网络,具体如下:(1)将视频流所对应子网络中的ResNet
‑
18网络中...
【专利技术属性】
技术研发人员:肖业伟,滕连伟,刘烜铭,朱澳苏,田丕承,
申请(专利权)人:湘潭大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。