基于人机交互场景的语音识别纠错方法、装置以及设备制造方法及图纸

技术编号:29047266 阅读:20 留言:0更新日期:2021-06-26 06:04
本发明专利技术公开了一种基于人机交互场景的语音识别纠错方法、装置以及设备,本发明专利技术的构思在于充分利用人机交互场景中多轮问答机制,将机器抛出的本轮问询内容与相应的用户答复内容经由语言识别处理获得的若干相关转写结果相结合,并从二者的语义层面进行深层挖掘,获得涉及本轮问询及若干答复语音的中间识别结果等上下文相关信息的综合表征,进而再对该综合表征进行解码,便可以精准、可靠地得到用户当前答复的正确识别文本。本发明专利技术的覆盖度、通用性可以得到显著提升,并且是对语音识别过程中的相关识别文本融入与真实交互场景息息相关的信息,因而实施复杂度也远低于单纯迁移语言模型进行纠错的现有方案,所以能够更易于被业内接受、认可及推广使用。认可及推广使用。认可及推广使用。

【技术实现步骤摘要】
基于人机交互场景的语音识别纠错方法、装置以及设备


[0001]本专利技术涉及人机交互领域,尤其涉及一种基于人机交互场景的语音识别纠错方法、装置以及设备。

技术介绍

[0002]语义理解(natural language understanding,NLU)作为自然语言处理领域中最重要的一环,被广泛应用于人机交互领域,例如但不限于对话系统、智能问答系统等。对于用户输入的一段自然语言文本,一个良好的NLU模块能准确判断出该句所表达的用户意图,然而,在真实的人机交互场景中,机器接收到的文本输入,全部是由用户语音经过语音识别(ASR)后所得。在这个过程中,由于个体发音方式、识别准确率、背景环境等因素影响,很可能导致进入NLU前的语音识别结果已经发生偏差,例如机器问用户“你最近去过动物园么?”,用户回答“去过”,但是被识别成了“吃过”,进而后续送入NLU处理时产生误差传递,且误差很可能存在叠加效应,最终导致用户体验不佳的负面效果。
[0003]因此,有必要在进入NLU前,对语音识别结果进行纠偏处理,现有的语音识别纠错技术,通常可以归为错别字词典、编辑距离、语言模型等三种主要方式。然而,构建错别字词典的人工成本较高,而且覆盖面较窄,仅适用于错别字有限的部分垂直领域;编辑距离采用类似字符串模糊匹配的方法,通过对照正确样本可以纠正部分常见错别字和语病,同样存在通用性不足的问题;2018年之后,在本
中,预训练语言模型逐步得到重视,并且现阶段在本领域学术界和工业界也取得一定的效果,但是,经真实的人机交互场景的测试和应用后发现,由单纯将语言模型迁移用作语音识别纠错处理,其复杂度相对较高,难以形成具备规模的产品化部署,因而,单纯采用语言模型进行识别纠错处理的技术方案,在业内并未获得普遍认可的落地实践及市场。

技术实现思路

[0004]鉴于上述,本专利技术旨在提供一种基于人机交互场景的语音识别纠错方法、装置以及设备,以及相应地提供了一种计算机可读存储介质和计算机程序产品,主要规避了现有的错别字词典、编辑距离、语言模型等现有纠错方案的弊端,而结合人机交互的场景特点以实现精准度高、通用性广、复杂度低的语音纠错处理。
[0005]本专利技术采用的技术方案如下:
[0006]第一方面,本专利技术提供了一种基于人机交互场景的语音识别纠错方法,其中包括:
[0007]获取相应于本轮交互问询的用户答复语音;
[0008]对所述用户答复语音进行识别转写,得到若干相关识别文本;
[0009]结合所述本轮交互问询的语义信息以及每个所述相关识别文本的语义信息,编码得到上下文综合信息;
[0010]根据所述上下文综合信息解码得到目标识别文本。
[0011]在其中至少一种可能的实现方式中,获得所述本轮交互问询的语义信息的方式包
括:
[0012]预设若干种交互问询类型;
[0013]分别获取所述交互问询类型的第一表征信息以及所述本轮交互问询的第二表征信息;
[0014]融合所述第一表征信息以及所述第二表征信息,得到所述本轮交互问询的语义信息。
[0015]在其中至少一种可能的实现方式中,所述获取所述交互问询类型的第一表征信息包括:
[0016]基于上一轮交互后的语义理解结果,确定所述本轮交互问询的问题内容;
[0017]从预设的多种交互问询类型中选出相应于当前问题内容的若干种特定类型;
[0018]将所述特定类型向量化后得到所述第一表征信息。
[0019]在其中至少一种可能的实现方式中,获得所述相关识别文本的语义信息的方式包括:
[0020]获取针对所述本轮交互问询的历史交互信息;
[0021]分别获取所述历史交互信息的第三表征信息以及所述相关识别文本的第四表征信息;
[0022]融合所述第三表征信息以及所述第四表征信息,得到所述相关识别文本的语义信息。
[0023]在其中至少一种可能的实现方式中,所述融合所述第三表征信息以及所述第四表征信息包括:
[0024]利用各所述历史交互信息的每个字向量与各所述相关识别文本的句子向量进行多维注意力计算。
[0025]在其中至少一种可能的实现方式中,所述得到若干相关识别文本包括:
[0026]按语音识别过程中解码路径的得分,得到所述相关识别文本。
[0027]第二方面,本专利技术提供了一种基于人机交互场景的语音识别纠错装置,其中包括:
[0028]当前答复语音获取模块,用于获取相应于本轮交互问询的用户答复语音;
[0029]转写中间结果获取模块,用于对所述用户答复语音进行识别转写,得到若干相关识别文本;
[0030]编码模块,用于结合所述本轮交互问询的语义信息以及每个所述相关识别文本的语义信息,编码得到上下文综合信息;
[0031]解码模块,用于根据所述上下文综合信息解码得到目标识别文本。
[0032]在其中至少一种可能的实现方式中,所述编码模块包括第一语义信息获取子模块,所述第一语义信息获取子模块具体包括:
[0033]问询类型设定单元,用于预设若干种交互问询类型;
[0034]表征信息第一获取单元,用于分别获取所述交互问询类型的第一表征信息以及所述本轮交互问询的第二表征信息;
[0035]问询语义获取单元,用于融合所述第一表征信息以及所述第二表征信息,得到所述本轮交互问询的语义信息。
[0036]在其中至少一种可能的实现方式中,所述表征信息第一获取单元包括问询类型信
息获取子单元,所述问询类型信息获取子单元具体包括:
[0037]本轮问题确定组件,用于基于上一轮交互后的语义理解结果,确定所述本轮交互问询的问题内容;
[0038]特定类型选择组件,用于从预设的多种交互问询类型中选出相应于当前问题内容的若干种特定类型;
[0039]问询类型向量表征组件,用于将所述特定类型向量化后得到所述第一表征信息。
[0040]在其中至少一种可能的实现方式中,所述编码模块包括第二语义信息获取子模块,所述第二语义信息获取子模块具体包括:
[0041]历史交互获取单元,用于获取针对所述本轮交互问询的历史交互信息;
[0042]表征信息第二获取单元,用于分别获取所述历史交互信息的第三表征信息以及所述相关识别文本的第四表征信息;
[0043]答复语义获取单元,用于融合所述第三表征信息以及所述第四表征信息,得到所述相关识别文本的语义信息。
[0044]在其中至少一种可能的实现方式中,所述答复语义获取单元包括特征融合组件,所述特征融合组件用于利用各所述历史交互信息的每个字向量与各所述相关识别文本的句子向量进行多维注意力计算。
[0045]在其中至少一种可能的实现方式中,所述转写中间结果获取模块具体用于:按语音识别过程中解码路径的得分,得到所述相关识别文本。
[0046]第三方面,本专利技术提供了一种电子设备,其中包括:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人机交互场景的语音识别纠错方法,其特征在于,包括:获取相应于本轮交互问询的用户答复语音;对所述用户答复语音进行识别转写,得到若干相关识别文本;结合所述本轮交互问询的语义信息以及每个所述相关识别文本的语义信息,编码得到上下文综合信息;根据所述上下文综合信息解码得到目标识别文本。2.根据权利要求1所述的基于人机交互场景的语音识别纠错方法,其特征在于,获得所述本轮交互问询的语义信息的方式包括:预设若干种交互问询类型;分别获取所述交互问询类型的第一表征信息以及所述本轮交互问询的第二表征信息;融合所述第一表征信息以及所述第二表征信息,得到所述本轮交互问询的语义信息。3.根据权利要求2所述的基于人机交互场景的语音识别纠错方法,其特征在于,所述获取所述交互问询类型的第一表征信息包括:基于上一轮交互后的语义理解结果,确定所述本轮交互问询的问题内容;从预设的多种交互问询类型中选出相应于当前问题内容的若干种特定类型;将所述特定类型向量化后得到所述第一表征信息。4.根据权利要求1所述的基于人机交互场景的语音识别纠错方法,其特征在于,获得所述相关识别文本的语义信息的方式包括:获取针对所述本轮交互问询的历史交互信息;分别获取所述历史交互信息的第三表征信息以及所述相关识别文本的第四表征信息;融合所述第三表征信息以及所述第四表征信息,得到所述相关识别文本的语义信息。5.根据权利要求4所述的基于人机交互场景的语音识别纠错方法,其特征在于,所述融合所述第三表征信息以及所述第四表...

【专利技术属性】
技术研发人员:李锐刘权陈志刚
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1