语音识别方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：32963168 阅读：16 留言：0更新日期：2022-04-09 10:57

本申请公开了一种语音识别方法、装置、设备、存储介质及程序产品，涉及人工智能领域。该方法包括：获取语音信号流；提取语音序列嵌入特征；对语音序列嵌入特征进行融合，得到融合特征；对融合特征进行递归估计，得到说话人嵌入特征；基于说话人嵌入特征对语音序列嵌入特征进行说话人识别，得到说话人识别结果。在对语音进行说话人识别从而生成说话人日志的过程中，通过对融合特征进行递归估计，得到各个说话人分别对应的说话人嵌入特征，从而通过注意力机制得到说话人识别结果，使得所有的参数都可以利用到解码的过程中，从而提高了对语音进行说话人识别的准确率。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。场景。场景。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、设备、存储介质及程序产品

[0001]本申请实施例涉及人工智能领域，特别涉及一种语音识别方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]说话人日志是指在采集的语音信号流中，通过分辨出不同说话人的说话阶段对语音信号流进行标注，从而检测出每段语音对应的说话人的身份，说话人日志应用于会议记录、客服工作监督等多种场景中。
[0003]相关技术中，在针对语音信号流生成说话人日志时，对语音信号流中的语音帧进行编码，得到每一帧语音帧的嵌入层向量，然后通过长短期记忆模块(Long Short
‑
Term Memory，LSTM)得到语音信号流的编码向量，以及从语音信号流的编码向量中解码出说话人数信息，后续将每一帧语音帧的解码向量和编码向量结合后进行与说话人对应的概率预测，从而确定每一帧对应的说话人信息。
[0004]然而，上述说话人日志生成方式中，编码向量的信息利用不充分，导致说话人识别的准确率较低，也即说话人日志生成的准确率较低。

技术实现思路

[0005]本申请实施例提供了一种语音识别方法、装置、设备、存储介质及程序产品，能够提高说话人日志的生成准确率。所述技术方案如下：
[0006]一方面，提供了一种语音识别方法，所述方法包括：
[0007]获取语音信号流，所述语音信号流为待进行说话人识别的语音，所述语音信号流中包括语音帧；
[0008]提取所述语音帧的语音序列嵌入特征，所述语音序列嵌入特征是通过预训练的编码器提取得到的...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：获取语音信号流，所述语音信号流为待进行说话人识别的语音，所述语音信号流中包括语音帧；提取所述语音帧的语音序列嵌入特征，所述语音序列嵌入特征是通过预训练的编码器提取得到的特征；对所述语音帧的语音序列嵌入特征进行融合，得到融合特征；对所述融合特征进行递归估计，得到说话人分别对应的说话人嵌入特征；基于所述说话人嵌入特征通过注意力机制对所述语音序列嵌入特征进行说话人识别，得到所述语音帧分别对应的说话人识别结果，所述语音帧对应的说话人识别结果构成所述语音信号流对应的说话人日志。2.根据权利要求1所述的方法，其特征在于，所述对所述语音帧的语音序列嵌入特征进行融合，得到融合特征，包括：生成所述语音序列嵌入特征对应的堆叠序列；对所述堆叠序列进行统计池化处理，得到所述融合特征。3.根据权利要求2所述的方法，其特征在于，所述对所述堆叠序列进行统计池化处理，得到所述融合特征，包括：获取所述堆叠序列对应的均值和标准差；对所述均值和所述标准差进行拼接，得到所述融合特征。4.根据权利要求2所述的方法，其特征在于，所述对所述融合特征进行递归估计，得到说话人分别对应的说话人嵌入特征，包括：通过长短期记忆网络对所述融合特征进行递归估计，得到n层掩膜特征，n为正整数；基于第i层掩膜特征与第i
‑
1层融合特征确定第i个说话人对应的说话人嵌入特征，0＜i≤n。5.根据权利要求4所述的方法，其特征在于，所述基于第i层掩膜特征与第i
‑
1层融合特征确定第i个说话人对应的说话人嵌入特征，包括：将所述第i层掩膜特征与第i
‑
1层融合特征的乘积确定为第i个说话人对应的说话人嵌入特征。6.根据权利要求5所述的方法，其特征在于，所述基于所述说话人嵌入特征通过注意力机制对所述语音序列嵌入特征进行说话人识别，得到所述语音帧分别对应的说话人识别结果，包括：通过所述注意力机制和所述语音序列嵌入特征对所述说话人嵌入特征进行查询，得到与所述说话人嵌入特征分别对应的吸引子；基于所述吸引子对所述语音帧的语音序列嵌入特征进行说话人识别，得到所述语音帧分别对应的说话人识别结果。7.根据权利要求6所述的方法，其特征在于，所述通过所述注意力机制和所述语音序列嵌入特征对所述说话人嵌入特征进行查询，得到与所述说话人嵌入特征分别对应的吸引子，包括：将所述堆叠序列投影至键矩阵和值矩阵；根据所述说话人嵌入特征构建查询矩阵；
根据所述键矩阵、所述值矩阵和所述查询矩阵对所述说话人嵌入特征进行查询，得到与所述说话人嵌入特征分别对应的吸引子。8.根据权利要求6所述的方法，其特征在于，所述基于所述吸引子对...

【专利技术属性】
技术研发人员：程路遥，孙思宁，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人