用于语音识别的方法、装置、设备和存储介质制造方法及图纸

技术编号:41537496 阅读:18 留言:0更新日期:2024-06-03 23:16
本公开提供了用于语音识别的方法、装置、设备和存储介质。该方法包括:利用语音识别编码器提取目标音频的一组声学特征表示,每个声学特征表示对应于目标文本序列中的一个文本单元,目标文本序列要被确定为目标音频的语音识别结果;利用说话人识别模型提取目标音频的一组说话人特征表示;基于一组说话人特征表示中各个说话人特征表示之间的相似度,确定目标文本序列中各个文本单元对的至少一个说话人相似度;以及利用语音识别解码器,至少基于目标文本序列中已预测的文本单元、一组声学特征表示以及至少一个说话人相似度,确定目标文本序列中当前要预测的目标文本单元。由此,可以提升语音识别的准确性、区分不同说话人的语音识别结果。

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机,特别地涉及用于语音识别的方法、装置、设备和计算机可读存储介质。


技术介绍

1、随着互联网技术的发展,越来越多的应用或平台等均提供自然语言处理功能,给广大用户带来了诸多便利。具有自然语言处理功能的应用或平台可以基于经训练的机器学习模型向用户提供自然语言处理服务。自动语音识别(asr)任务是自然语言处理任务中的重要任务。期望能够在保证语音识别的效率的同时,提高语音识别结果的准确性。


技术实现思路

1、在本公开的第一方面,提供了一种语音识别的方法。该方法包括:利用语音识别编码器提取目标音频的一组声学特征表示,每个声学特征表示对应于目标文本序列中的一个文本单元,目标文本序列要被确定为目标音频的语音识别结果;利用说话人识别模型提取目标音频的一组说话人特征表示,每个说话人特征表示对应于目标文本序列中的一个文本单元;基于一组说话人特征表示中各个说话人特征表示之间的相似度,确定目标文本序列中各个文本单元对的至少一个说话人相似度,每个说话人相似度指示各个文本单元对属于相同说话人的概率;以及利用本文档来自技高网...

【技术保护点】

1.一种语音识别的方法,包括:

2.根据权利要求1所述的方法,其中确定所述目标文本序列中当前要预测的目标文本单元包括:

3.根据权利要求1所述的方法,其中确定所述目标文本序列中当前要预测的目标文本单元包括:

4.根据权利要求3所述方法,其中基于所述至少一个说话人相似度调整所述语音识别解码器中的自注意力权重包括:

5.根据权利要求4所述的方法,其中所述语音识别解码器包括至少一个自注意力模块,被配置为确定所述自注意力权重;

6.根据权利要求1所述的方法,其中所述说话人识别模型包括说话人编码器和说话人解码器,并且利用说话人识别模型提取...

【技术特征摘要】

1.一种语音识别的方法,包括:

2.根据权利要求1所述的方法,其中确定所述目标文本序列中当前要预测的目标文本单元包括:

3.根据权利要求1所述的方法,其中确定所述目标文本序列中当前要预测的目标文本单元包括:

4.根据权利要求3所述方法,其中基于所述至少一个说话人相似度调整所述语音识别解码器中的自注意力权重包括:

5.根据权利要求4所述的方法,其中所述语音识别解码器包括至少一个自注意力模块,被配置为确定所述自注意力权重;

6.根据权利要求1所述的方法,其中所述说话人识别模型包括说话人编码器和说话人解码器,并且利用说话人识别模型提取所述目标音频的所述一组说话人特征表示包括:

7.根据权利要求6...

【专利技术属性】
技术研发人员:范志赟董林昊张骏
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1