当前位置: 首页 > 专利查询>中移智行网络科技有限公司中国移动通信集团有限公司专利>正文

语音识别方法、装置及相关设备制造方法及图纸

技术编号：34970953 阅读：24 留言：0更新日期：2022-09-21 14:10

本发明专利技术提供一种语音识别方法、装置及相关设备。该方法包括：获取第一语音数据；对所述第一语音数据进行特征提取处理，获得第一语音特征信息；将所述第一语音特征信息输入至第一网络模型中，利用阶梯激活函数对所述第一语音特征信息进行稀疏处理，输出亲密度矩阵；将所述亲密度矩阵输入至第二网络模型中进行说话人分割处理，输出所述第一语音数据对应的说话人分割结果。这样，可以使得第一语音特征信息稀疏化，从而提升了第二网络模型最终输出的说话人分割结果的准确度。人分割结果的准确度。人分割结果的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置及相关设备

[0001]本专利技术实施例涉及通信
，尤其涉及一种语音识别方法、装置及相关设备。

技术介绍

[0002]随着电子技术的发展，语音识别技术在人们的生活中起到了越来越重要的作用，如从语音数据中获取信息是现代机器学习研究的重要方向，语音机器学习的发展方向主要包括语音识别(ASR)，文本转语音(TTS)，说话人识别(SR)等。基于对话场景的说话人识别又包含说话人分割(SD)这一子问题。说话人分割是指在采集的语音信号流中，分辨出不同说话人的说话时长并进行标注的任务。
[0003]在实际的使用过程中，专利技术人发现现有技术中存在以下问题：对语音中说话人的分割结果的识别准确度较低。

技术实现思路

[0004]本专利技术实施例提供一种语音识别方法、装置及相关设备，以解决对语音中说话人的分割结果的识别准确度较低的问题。
[0005]为解决上述问题，本专利技术是这样实现的：
[0006]第一方面，本专利技术实施例提供了一种语音识别方法，所述方法包括：
[0007]获取第一语音数据；
[0008]对所述第一语音数据进行特征提取处理，获得第一语音特征信息；
[0009]将所述第一语音特征信息输入至第一网络模型中，利用阶梯激活函数对所述第一语音特征信息进行稀疏处理，输出亲密度矩阵；
[0010]将所述亲密度矩阵输入至第二网络模型中进行说话人分割处理，输出所述第一语音数据对应的说话人分割结果。
[0011]第二方面，本专利技术实

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取第一语音数据；对所述第一语音数据进行特征提取处理，获得第一语音特征信息；将所述第一语音特征信息输入至第一网络模型中，利用阶梯激活函数对所述第一语音特征信息进行稀疏处理，输出亲密度矩阵；将所述亲密度矩阵输入至第二网络模型中进行说话人分割处理，输出所述第一语音数据对应的说话人分割结果。2.根据权利要求1所述的方法，其特征在于，所述第一网络模型包括表示向量的嵌入层，所述阶梯激活函数应用于所述嵌入层。3.根据权利要求1所述的方法，其特征在于，所述阶梯激活函数为：其中，a、c和p均为可调超参数，且p<1，1<a<c，x为在有理数集上的n维向量，ceil是取整函数。4.根据权利要求1所述的方法，其特征在于，所述将所述第一语音特征信息输入至第一网络模型中之前，所述方法还包括：获取第二语音数据；对所述第二语音数据进行特征提取处理，获得第二语音特征信息；将所述第二语音特征信息输入至待训练网络模型中，以训练得到所述第一网络模型；其中，所述待训练网络模型和所述第一网络模型中均应用有所述阶梯激活函数。5.根据权利要求4所述的方法，其特征在于，所述对所述第二语音数据进行特征提取处理，获得第二语音特征信息，包括：对所述第二语音数据进行预设处理；对预设处理后的第二语音数据进行特征提取处理，获得第二语音特征信息。6.根据权利要求4所述的方法，其特征在于，所述第一语音特征信息和所述第二语音特征信息均为频谱图。7.一种语音识别装置，其特征在于，包括：第一获取模块，用于获取第一语音数据；第一处理模块，用于对所述第一语音数据进行特征提取处理，获得第一语音特征信息；第二处理模块，用于将所述第一语音特征信息输入至第一...

【专利技术属性】
技术研发人员：朱森亮，
申请(专利权)人：中移智行网络科技有限公司中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人