语音处理方法、用于语音处理的模型训练方法和装置制造方法及图纸

技术编号：33701078 阅读：37 留言：0更新日期：2022-06-06 08:10

本申请提出一种语音处理方法、用于语音处理的模型训练方法、装置及电子设备，其中，语音处理方法包括：在获取目标语音后，从目标语音中提取多个音频帧，对多个音频帧中的每个音频帧采用卷积神经网络模型中的辛格函数卷积层，进行低维度特征提取，得到每个音频帧的中间特征向量后，输入卷积神经网络模型中的残差网络层，进行高维度特征提取，得到每个音频帧的特征向量，根据多个音频帧的特征向量，确定目标语音的特征向量，根据目标语音的特征向量，确定匹配的参考语音，以将参考语音所属的对象确定为目标语音的对象。由此，实现了根据识别不同用户的语音确认所属的对象，不仅可以为不同的用户提供定制化服务，还提高了身份验证的安全性。全性。全性。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、用于语音处理的模型训练方法和装置

[0001]本申请涉及语音识别
，尤其涉及一种语音处理方法、用于语音处理的模型训练方法、装置及电子设备。

技术介绍

[0002]近年来，人工智能技术普及于日常生活中，语音相关技术更是成为发展的重要方向之一。目前现有大多数语音技术的应用皆着重在于将语音转为文字(Speech To Text，STT)。
[0003]但在此之上，基于安全性与针对不同用户提供定制化服务的考虑上，如何确定音频所属的说话者，已成为亟需解决的技术问题。

技术实现思路

[0004]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]本申请提出一种语音处理方法，以实现根据目标语音的特征向量，来确认目标语音与参考语音是否属于同一说话对象，从而实现了根据识别不同用户的语音确认语音所属对象的目的。
[0006]本申请第一方面实施例提出了一种语音处理方法，包括：
[0007]获取目标语音；
[0008]从所述目标语音中提取多个音频帧；/>[0009]对所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：获取目标语音；从所述目标语音中提取多个音频帧；对所述多个音频帧中的每个音频帧采用卷积神经网络模型中的辛格函数卷积层，进行低维度特征提取，得到每个所述音频帧的中间特征向量；将每个所述音频帧的中间特征向量输入所述卷积神经网络模型中的残差网络层，进行高维度特征提取，得到每个所述音频帧的特征向量；根据所述多个音频帧的特征向量，确定所述目标语音的特征向量；根据所述目标语音的特征向量，确定匹配的参考语音，以将所述参考语音所属的对象确定为所述目标语音的对象。2.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述多个音频帧的特征向量，确定所述目标语音的特征向量，包括：根据每个所述音频帧的特征向量在多个向量维度上的特征值，确定每一向量维度上各音频帧的特征值均值；将各向量维度上的特征值均值确定为所述目标语音的特征向量。3.根据权利要求1所述的语音处理方法，其特征在于，所述从所述目标语音中提取多个音频帧，包括：根据所述目标语音的语音长度，确定所述目标语音对应的帧间隔；根据所述目标语音对应的帧间隔，从所述目标语音中提取多个音频帧，所述多个音频帧的个数为设定个数。4.根据权利要求3所述的语音处理方法，其特征在于，所述根据所述目标语音的语音长度，确定所述目标语音对应的帧间隔，包括：根据语音长度与帧间隔之间的映射关系，确定所述目标语音的语音长度对应的帧间隔。5.根据权利要求4所述的语音处理方法，其特征在于，所述映射关系根据如下方式确定：根据多个语音长度和设定个数，确定所述多个语音长度对应的语段长度；对每个所述语音长度，将对应的语段长度与设定音频帧长度之差作为每个所述语音长度对应的帧间隔；根据所述多个语音长度对应的帧间隔，建立所述语音长度与帧间隔之间的映射关系。6.一种用于语音处理的模型训练方法，其特征在于，所述方法包括：获取多个已知对象的训练音频；从每个已知对象的训练音频中分别提取至少一个训练帧，并对提取的多个所述训练帧标注对应的所述已知对象；采用标注后的多个所述训练帧，对卷积神经网络进行...

【专利技术属性】
技术研发人员：黎桂如，王邑伦，许湘琪，黄献德，
申请(专利权)人：北京猎户星空科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人