基于人机交互场景的语音识别纠错方法、装置以及设备制造方法及图纸

技术编号:29047266 阅读:31 留言:0更新日期:2021-06-26 06:04
本发明专利技术公开了一种基于人机交互场景的语音识别纠错方法、装置以及设备,本发明专利技术的构思在于充分利用人机交互场景中多轮问答机制,将机器抛出的本轮问询内容与相应的用户答复内容经由语言识别处理获得的若干相关转写结果相结合,并从二者的语义层面进行深层挖掘,获得涉及本轮问询及若干答复语音的中间识别结果等上下文相关信息的综合表征,进而再对该综合表征进行解码,便可以精准、可靠地得到用户当前答复的正确识别文本。本发明专利技术的覆盖度、通用性可以得到显著提升,并且是对语音识别过程中的相关识别文本融入与真实交互场景息息相关的信息,因而实施复杂度也远低于单纯迁移语言模型进行纠错的现有方案,所以能够更易于被业内接受、认可及推广使用。认可及推广使用。认可及推广使用。

【技术实现步骤摘要】
基于人机交互场景的语音识别纠错方法、装置以及设备


[0001]本专利技术涉及人机交互领域,尤其涉及一种基于人机交互场景的语音识别纠错方法、装置以及设备。

技术介绍

[0002]语义理解(natural language understanding,NLU)作为自然语言处理领域中最重要的一环,被广泛应用于人机交互领域,例如但不限于对话系统、智能问答系统等。对于用户输入的一段自然语言文本,一个良好的NLU模块能准确判断出该句所表达的用户意图,然而,在真实的人机交互场景中,机器接收到的文本输入,全部是由用户语音经过语音识别(ASR)后所得。在这个过程中,由于个体发音方式、识别准确率、背景环境等因素影响,很可能导致进入NLU前的语音识别结果已经发生偏差,例如机器问用户“你最近去过动物园么?”,用户回答“去过”,但是被识别成了“吃过”,进而后续送入NLU处理时产生误差传递,且误差很可能存在叠加效应,最终导致用户体验不佳的负面效果。
[0003]因此,有必要在进入NLU前,对语音识别结果进行纠偏处理,现有的语音识别纠错技术,通常可以归为错别字词典、本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人机交互场景的语音识别纠错方法,其特征在于,包括:获取相应于本轮交互问询的用户答复语音;对所述用户答复语音进行识别转写,得到若干相关识别文本;结合所述本轮交互问询的语义信息以及每个所述相关识别文本的语义信息,编码得到上下文综合信息;根据所述上下文综合信息解码得到目标识别文本。2.根据权利要求1所述的基于人机交互场景的语音识别纠错方法,其特征在于,获得所述本轮交互问询的语义信息的方式包括:预设若干种交互问询类型;分别获取所述交互问询类型的第一表征信息以及所述本轮交互问询的第二表征信息;融合所述第一表征信息以及所述第二表征信息,得到所述本轮交互问询的语义信息。3.根据权利要求2所述的基于人机交互场景的语音识别纠错方法,其特征在于,所述获取所述交互问询类型的第一表征信息包括:基于上一轮交互后的语义理解结果,确定所述本轮交互问询的问题内容;从预设的多种交互问询类型中选出相应于当前问题内容的若干种特定类型;将所述特定类型向量化后得到所述第一表征信息。4.根据权利要求1所述的基于人机交互场景的语音识别纠错方法,其特征在于,获得所述相关识别文本的语义信息的方式包括:获取针对所述本轮交互问询的历史交互信息;分别获取所述历史交互信息的第三表征信息以及所述相关识别文本的第四表征信息;融合所述第三表征信息以及所述第四表征信息,得到所述相关识别文本的语义信息。5.根据权利要求4所述的基于人机交互场景的语音识别纠错方法,其特征在于,所述融合所述第三表征信息以及所述第四表...

【专利技术属性】
技术研发人员:李锐刘权陈志刚
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1