多任务语音识别模型训练方法、多任务语音识别方法技术

技术编号：27299476 阅读：31 留言：0更新日期：2021-02-06 12:10

本发明专利技术公开一种多任务语音识别模型训练方法，其中多任务语音识别模型包括卷积层、最大池化层、线性变换层、映射层和多个子任务线性分类层，该方法包括：根据样本音频获取样本音频频谱特征；将样本音频频谱特征输入至卷积层进行卷积处理；通过最大池化层对卷积处理后的所述样本音频频谱特征进行最大池化操作以获得对应于样本音频的句子级别表征信息；通过线性池化层对句子级别表征信息进行线性变化；通过映射层根据线性变化结果对多个子任务线性分类层的参数进行更新。本发明专利技术在保证各个子任务性能的前提下，一个模型解决了语音中所包含的多种副信息识别问题，减少了服务端占用的内存和计算量，更加方便的服务用户，满足用户不同的需求。不同的需求。不同的需求。

全部详细技术资料下载

【技术实现步骤摘要】
多任务语音识别模型训练方法、多任务语音识别方法

[0001]本专利技术涉及人工智能
，尤其涉及一种多任务语音识别模型训练方法、多任务语音识别方法及电子设备。

技术介绍

[0002]语音副信息识别指的是语音的性别识别、年龄识别、情感识别等。给定一段音频，通过这项技术来预测这段音频所包含的说话人的性别、年龄、以及情感内容。准确的语音副信息识别器在实际的生产生活中有很大的应用范围，包括电影电视的内容推荐，客服场景下客服服务质量的评测，智能音箱带情感的问答系统。
[0003]但是现有技术中的语音副信息识别器均是单任务单模型的形式，即音频同时输入多个不同模型（例如，性别识别模型、年龄识别模型和情感识别模型）然后输出多个不同模型的预测结果，导致计算量增加，延时增加。

技术实现思路

[0004]本专利技术实施例提供一种多任务语音识别模型训练方法、多任务语音识别方法及电子设备，用于至少解决上述技术问题之一。
[0005]第一方面，本专利技术实施例提供一种多任务语音识别模型训练方法，所述多任务语音识别模型包括卷积层、最大池化层、线性变换层、映射层和多个子任务线性分类层，所述方法包括：根据样本音频获取样本音频频谱特征；将所述样本音频频谱特征输入至卷积层进行卷积处理；通过所述最大池化层对卷积处理后的所述样本音频频谱特征进行最大池化操作以获得对应于所述样本音频的句子级别表征信息；通过所述线性池化层对所述句子级别表征信息进行线性变化；通过所述映射层根据线性变化结果对所述多个子任务线性分类层的参数进行更新。...

【技术保护点】

【技术特征摘要】
1.一种多任务语音识别模型训练方法，其特征在于，所述多任务语音识别模型包括卷积层、最大池化层、线性变换层、映射层和多个子任务线性分类层，所述方法包括：根据样本音频获取样本音频频谱特征；将所述样本音频频谱特征输入至卷积层进行卷积处理；通过所述最大池化层对卷积处理后的所述样本音频频谱特征进行最大池化操作以获得对应于所述样本音频的句子级别表征信息；通过所述线性池化层对所述句子级别表征信息进行线性变化；通过所述映射层根据线性变化结果对所述多个子任务线性分类层的参数进行更新。2.根据权利要求1所述的方法，其特征在于，所述通过所述映射层根据线性变化结果对所述多个子任务线性分类层的参数进行更新包括：通过所述映射层采用for循环来根据线性对变化结果对所述多个子任务线性分类层的参数进行更新。3.根据权利要求1所述的方法，其特征在于，在根据样本音频获取样本音频频谱特征之前还包括：对所述样本音频进行语音活动检测以获取样本语音音频；对所述样本语音音频进行降噪处理；所述根据样本音频获取样本音频频谱特征包括：根据对应于所述样本音频的降噪处...

【专利技术属性】
技术研发人员：赵飞，黄厚军，钱彦旻，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人