一种基于上下文关联词的语音识别关键词增强方法及装置制造方法及图纸

技术编号：46044581 阅读：11 留言：0更新日期：2025-08-11 15:35

一种基于上下文关联词的语音识别关键词增强方法，包括：获取语音数据集及其对应的文本标注，提取关键词及关键词上下文构建动态词表，对语音数据进行特征提取和数据集划分；构建语音识别模型，包括混合专家编码器、双路注意力融合机制，混合专家编码器用于进行语音识别任务，通过并联的关键词专家网络和上下文专家网络分别对关键词及关键词上下文进行特征编码；双路注意力融合机制将语音特征分别与关键词编码特征和上下文编码特征进行注意力交互；通过联合优化语音识别任务的损失函数和关键词增强任务的损失函数，对模型进行端到端训练；利用训练好的模型对输入语音进行关键词增强的实时识别。本方法能够提高语音识别中对关键词的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音信号处理，尤其涉及一种基于上下文关联词的语音识别关键词增强方法及装置。

技术介绍

1、语音识别技术是实现人工智能的重要技术之一，目前广泛应用于智能车载、手机导航、语音翻译等领域。尽管基于端到端的大规模连续语音识别技术在普通话语音识别领域已取得显著进步，但在处理特定领域或专业场景时，尤其是对关键词的识别，仍存在显著不足。例如，在医疗、客服等专业场景中，语音识别模型往往难以准确识别专业术语或特定关键词，导致识别结果不符合实际需求。

2、目前，针对关键词增强的语音识别方法通常采用在解码的语言模型中构建关键词的wfst图，或者额外加入一个独立的关键词编码，通过交叉注意力机制将关键词信息融合到语音识别的输出概率矩阵中。这类方法虽然能够在一定程度上动态融合关键词信息，但仍存在一些局限性。基于wfst图的方法需要预先构建关键词的静态图，这种预先定义的固定结构难以适应复杂多变的上下文场景，特别是当遇到动态更新的专业术语或新兴词汇时，其灵活性明显不足。而采用单一注意力机制的方法虽然能够动态捕捉关键词信息，但其建模能力有限，对...

【技术保护点】

1.一种基于上下文关联词的语音识别关键词增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，通过上下文关联的关键词增强与语音识别联合建模方法，将关键词上下文动态扩展至语音识别模型中；

3.根据权利要求1所述的方法，其特征在于，所述混合专家编码器包括：关键词专家网络和上下文专家网络，其中，所述关键词专家网络用于提取关键词的发音及语义特征，所述上下文专家网络用于提取关键词关联的上下文语法及语义特征，并通过动态权重融合两类特征。

4.根据权利要求3所述的方法，其特征在于，通过基于上下文信息增强的门控网络，动态调整关键词专家网络和上...

【技术特征摘要】

1.一种基于上下文关联词的语音识别关键词增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，通过上下文关联的关键词增强与语音识别联合建模方法，将关键词上下文动态扩展至语音识别模型中；

4.根据权利要求3所述的方法，其特征在于，通过基于上下文信息增强的门控网络，动态调整关键词专家网络和上下文专家网络的输出权重，所述门控网络根据当前输入的语音特征和上下文关联词的语义关联性，生成自适应权重值，所述自适应权重值用于控制两类特征的融合比例。

5.根据权利要求1所述的方法，其特征在于，所述关键词专家网络采用trans...

【专利技术属性】
技术研发人员：王旭阳，杨承旭，徐晓艳，黎塔，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人