一种以置信度调整播报音的语音交互方法、系统、设备及介质技术方案

技术编号：33037046 阅读：11 留言：0更新日期：2022-04-15 09:15

本发明专利技术公开了以置信度调整播报音的语音交互方法、系统、设备及介质，其中方法包括如下步骤：接收外部语音指令；将接收的语音指令根据特征进行第一次语音识别并输出辨识结果及相应置信度；基于识别结果与对应的置信度做判断，是否输出相应动作，以及是否从播报音库内选取播报音播报；判断是否继续进行第二次语音识别，并输出辨识结果及相应的置信度。这样，在人工智能的语音识别系统，通过辨识的神经网路或专家系统输出，不止是输出辨识结果，同时也输出对这个辨识结果的置信度，或是输出复数个辨识结果与其对应的置信度。基于这些置信度的高低，回复文字和指令的内容，与转为播报音播报上述步骤做进一步处理，提高了用户体验感。提高了用户体验感。提高了用户体验感。

全部详细技术资料下载

【技术实现步骤摘要】
一种以置信度调整播报音的语音交互方法、系统、设备及介质

[0001]本专利技术涉及智能语音交互
，尤其涉及一种以置信度调整播报音的语音交互方法、系统、设备及介质。

技术介绍

[0002]智能语音交互是基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。常用的语音交互设备，如智能音箱，语音对话智能家电，车载智能后照镜，智能客服，对话机器人等。人工智能技术语音识别与对话系统是智能音箱产品功能实现的基础，一般的工作流程如下：声音采集、降噪、语音唤醒、语音转文字、语义理解、回复文字和指令、文字转声音，播放声音，使用语音识别的语音转文字，选取最可能的文字或语意，再进行语义理解，之后就进行回复文字和指令与播放回复文字和指令的声音。由于语音识别是有一定错误率的过程，声音采集自然会受到外界噪音的影响，收到讯息的信噪比是一个有限值。而人工智能的语音识别技术也有一定的错误率。目前离线的人工智能语音识别正确率一般在80％～95％左右，使用云端技术的正确率有可能更高一些，但不是100％。现有技术中的语音交互装置在人工智能的语音识别辨识错误时，回复文字和指令与转为播报音播报就不符合使用者的预期，造成使用者的不快或使用体验变差；有时，人工智能的语音识别在一段时间没能识别成功时，装置会基于超时的设定，脱离语音识别的状态，使用者可能需要再度对话唤醒词才能再度辨识，这也会造成使用体验变差。

技术实现思路

[0003]针对现有技术中的缺陷，本专利技术的目的是提供一种以置信度调整播报音的语音交互方法、系统、设备及介质。
>[0004]本专利技术所提供的一种以置信度调整播报音的语音交互方法，包括如下步骤：
[0005]步骤S1，接收外部语音指令；
[0006]步骤S2，将接收的语音指令根据特征进行第一次语音识别并输出辨识结果及相应置信度；
[0007]步骤S3，基于识别结果与对应的置信度做判断，是否输出相应动作，以及是否从播报音库内选取播报音播报；
[0008]步骤S4，判断是否继续进行第二次语音识别，并输出辨识结果及相应的置信度若是继续进行第二次语音识别，则执行步骤S2至步骤S4；反之，返回步骤S1，等待被唤醒，进行下一步操作至相应结果输出；
[0009]其中，所述置信度用于判断系统接收到的语音所对应语义的正确概率。
[0010]进一步，所述步骤S2中，
[0011]判断接收到的语音指令与所识别到的语义间的置信度高低，在目标置信度高于预设阈值时，系统直接执行所识别到的语义所对应的动作；在目标置信度低于预设阈值时，系统从播报音库内选取询问类型的播报音，与用户进行语音交互。
[0012]进一步，所述步骤S2中，
[0013]所述目标置信度类型包括：目标置信度高于预设阈值时，输出一类结果为非人声，输出另一类结果为单一识别语义；
[0014]目标置信度低于预设阈值时，输出一类结果为单一识别语义，输出另一类结果为多识别结果。
[0015]进一步，所述步骤S3中，
[0016]步骤S31，若系统辨识出单一辨识结果且单一辨识结果的置信度大于等于预设置信度阈值，则播报音直接执行预定的指令动作或者输出肯定语气的简短提示音并进行指令动作；和/或，
[0017]步骤S32，若系统辨识出单一辨识结果且单一辨识结果的置信度小于预设置信度阈值，播报音则输出疑问语气的提示音，等待用户的下一步指令；和/或，
[0018]步骤S33，若系统辨识出多个辨识结果且多个辨识结果的置信度小于预设置信度阈值，则播报音输出疑问语气的提示音供用户做出指令选择；和/或，
[0019]步骤S34，若系统辨识出辨识结果为人声，且人声的置信度小于预设置信度阈值，则播报音输出疑问语气的提示音，等待用户重复前一步指令；和/或，
[0020]步骤S35，若系统辨识出的辨识结果为非人声且非人声的置信度大于等于预设置信度阈值，则播报音输出提示音，询问是否需要服务，或者，进行定时服务，发出提示音，系统进入唤醒前的状态。
[0021]进一步，所述步骤S2中，
[0022]获取目标语音指令，对目标语音进行降噪处理；
[0023]将目标语音指令通过语音识别进行语义理解。
[0024]本专利技术所提供的一种以置信度调整播报音的语音交互系统，包括：
[0025]语音接收模块，接收外部语音指令；
[0026]特征识别模块，将接收的语音指令根据特征进行第一次语音识别并输出辨识结果及相应置信度；
[0027]置信度判断及输出模块，基于识别结果与对应的置信度做判断，是否输出相应动作，以及是否从播报音库内选取播报音播报；
[0028]循环识别模块，判断是否继续进行第二次语音识别，若是继续进行第二次语音识别，则执行特征识别模块至循环识别模块；反之，返回语音接收模块，等待被唤醒，进入下一模块至相应结果输出；
[0029]其中，所述置信度用于判断系统接收到的语音所对应语义的正确概率。
[0030]进一步，所述特征识别模块中，
[0031]判断接收到的语音指令与所识别到的语义间的置信度高低，在目标置信度高于预设阈值时，系统直接执行所识别到的语义所对应的动作；在目标置信度低于预设阈值时，系统从播报音库内选取询问类型的播报音，与用户进行语音交互。
[0032]进一步，所述目标置信度类型包括：目标置信度高于预设阈值时，输出一类结果为非人声，输出另一类结果为单一识别语义；
[0033]目标置信度低于预设阈值时，输出一类结果为单一识别语义，输出另一类结果为多识别结果。
[0034]本专利技术所提供的一种以置信度调整播报音的语音交互设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行计算机可读指令时，实现如本实施例所述的以置信度调整播报音的语音交互方法。
[0035]本专利技术所提供的一种计算机可读介质，存储计算机程序，所述计算机程序被一个或多个处理器执行时，实现如本实施例所述的以置信度调整播报音的语音交互方法。本专利技术由于采用以上技术方案，使其与现有技术相比具有以下的优点和积极效果：在人工智能的语音识别系统，通过辨识的神经网路或专家系统输出，不止是输出辨识结果，同时也输出对这个辨识结果的置信度，或是输出复数个辨识结果与其对应的置信度。基于这些置信度的高低，对之后的回复文字和指令的内容，与转为播报音播报上述步骤做进一步处理，提高用户体验感。
附图说明
[0036]图1为本专利技术一种以置信度调整播报音的语音交互方法流程示意图；
[0037]图2为本专利技术一种以置信度调整播报音的语音交互方法整体流程示意图；
[0038]图3为本专利技术所述步骤S3的具体流程示意图。
具体实施方式
[0039]为使本专利技术实施例的目的、技术方案和优点更加清楚，下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本专利技术一部分实施例，而不是全部的实施例。基于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种以置信度调整播报音的语音交互方法，其特征在于，包括如下步骤：步骤S1，接收外部语音指令；步骤S2，将接收的语音指令根据特征进行第一次语音识别并输出辨识结果及相应置信度；步骤S3，基于识别结果与对应的置信度做判断，是否输出相应动作，以及是否从播报音库内选取播报音播报；步骤S4，判断是否继续进行第二次语音识别，若是继续进行第二次语音识别，则执行步骤S2至步骤S4；反之，返回步骤S1，等待被唤醒，进行下一步操作至相应结果输出；其中，所述置信度用于判断系统接收到的语音所对应语义的正确概率。2.如权利要求1所述的以置信度调整播报音的语音交互方法，其特征在于，所述步骤S2中，判断接收到的语音指令与所识别到的语义间的置信度高低，在目标置信度高于预设阈值时，系统直接执行所识别到的语义所对应的动作；在目标置信度低于预设阈值时，系统从播报音库内选取询问类型的播报音，与用户进行语音交互。3.如权利要求1或2所述的以置信度调整播报音的语音交互方法，其特征在于，所述步骤S2中，所述目标置信度类型包括：目标置信度高于预设阈值时，输出一类结果为非人声，输出另一类结果为单一识别语义；目标置信度低于预设阈值时，输出一类结果为单一识别语义，输出另一类结果为多识别结果。4.如权利要求1或2所述的以置信度调整播报音的语音交互方法，其特征在于，所述步骤S3中，步骤S31，若系统辨识出单一辨识结果且单一辨识结果的置信度大于等于预设置信度阈值，则播报音直接执行预定的指令动作或者输出肯定语气的简短提示音并进行指令动作；和/或，步骤S32，若系统辨识出单一辨识结果且单一辨识结果的置信度小于预设置信度阈值，播报音则输出疑问语气的提示音，等待用户的下一步指令；和/或，步骤S33，若系统辨识出多个辨识结果且多个辨识结果的置信度小于预设置信度阈值，则播报音输出疑问语气的提示音供用户做出指令选择；和/或，步骤S34，若系统辨识出辨识结果为人声，且人声的置信度小于预设置信度阈值，则播报音输出疑问语气的提示音，等待用户重复前一步指令；和/或，步骤S35，若系统辨识出的辨识结果为非人声且非人声...

【专利技术属性】
技术研发人员：马思平，吴雪，
申请(专利权)人：深聪半导体珠海有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人