【技术实现步骤摘要】
本专利技术涉及语音信号处理,尤其涉及一种基于上下文关联词的语音识别关键词增强方法及装置。
技术介绍
1、语音识别技术是实现人工智能的重要技术之一,目前广泛应用于智能车载、手机导航、语音翻译等领域。尽管基于端到端的大规模连续语音识别技术在普通话语音识别领域已取得显著进步,但在处理特定领域或专业场景时,尤其是对关键词的识别,仍存在显著不足。例如,在医疗、客服等专业场景中,语音识别模型往往难以准确识别专业术语或特定关键词,导致识别结果不符合实际需求。
2、目前,针对关键词增强的语音识别方法通常采用在解码的语言模型中构建关键词的wfst图,或者额外加入一个独立的关键词编码,通过交叉注意力机制将关键词信息融合到语音识别的输出概率矩阵中。这类方法虽然能够在一定程度上动态融合关键词信息,但仍存在一些局限性。基于wfst图的方法需要预先构建关键词的静态图,这种预先定义的固定结构难以适应复杂多变的上下文场景,特别是当遇到动态更新的专业术语或新兴词汇时,其灵活性明显不足。而采用单一注意力机制的方法虽然能够动态捕捉关键词信息,但其建模能力有限,对
...【技术保护点】
1.一种基于上下文关联词的语音识别关键词增强方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,通过上下文关联的关键词增强与语音识别联合建模方法,将关键词上下文动态扩展至语音识别模型中;
3.根据权利要求1所述的方法,其特征在于,所述混合专家编码器包括:关键词专家网络和上下文专家网络,其中,所述关键词专家网络用于提取关键词的发音及语义特征,所述上下文专家网络用于提取关键词关联的上下文语法及语义特征,并通过动态权重融合两类特征。
4.根据权利要求3所述的方法,其特征在于,通过基于上下文信息增强的门控网络,动态调
...【技术特征摘要】
1.一种基于上下文关联词的语音识别关键词增强方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,通过上下文关联的关键词增强与语音识别联合建模方法,将关键词上下文动态扩展至语音识别模型中;
3.根据权利要求1所述的方法,其特征在于,所述混合专家编码器包括:关键词专家网络和上下文专家网络,其中,所述关键词专家网络用于提取关键词的发音及语义特征,所述上下文专家网络用于提取关键词关联的上下文语法及语义特征,并通过动态权重融合两类特征。
4.根据权利要求3所述的方法,其特征在于,通过基于上下文信息增强的门控网络,动态调整关键词专家网络和上下文专家网络的输出权重,所述门控网络根据当前输入的语音特征和上下文关联词的语义关联性,生成自适应权重值,所述自适应权重值用于控制两类特征的融合比例。
5.根据权利要求1所述的方法,其特征在于,所述关键词专家网络采用trans...
【专利技术属性】
技术研发人员:王旭阳,杨承旭,徐晓艳,黎塔,
申请(专利权)人:中国科学院声学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。