一种语音应答方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：37103696 阅读：40 留言：0更新日期：2023-04-01 05:03

本申请提供一种语音应答方法、装置、电子设备及可读存储介质，所述方法包括：获取待应答语音数据；使用预先训练的变压器Transformer模型，提取所述待应答语音数据的第一表征向量；基于所述第一表征向量和表征向量集合获取目标表征向量，所述目标表征向量为所述表征向量集合中与所述第一表征向量的相似度最高的表征向量，其中，所述表征向量集合中每个表征向量对应一个动作；获取应答动作的应答语音，所述应答动作为所述目标表征向量对应的目标动作；输出所述应答语音。本申请可以提高对话体验。提高对话体验。提高对话体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音应答方法、装置、电子设备及可读存储介质

[0001]本申请涉及语音数据处理
，尤其涉及一种语音应答方法、装置、电子设备及可读存储介质。

技术介绍

[0002]在来电助理场景中，由于对话策略优化周期长和对话生成不可控，现有的技术方案采用“意图识别+话术回复”的方式，即通过预定义对话流程，首先识别来电意图，基于预定义的对话流程执行来电意图相应的动作，返回预设的回复话术。该技术方案的对话策略是基于人工定义的规则，在应对超出流程范围的意图时无法做出正确的响应，从而容易导致对话中断，对话体验较差。

技术实现思路

[0003]本申请提供一种语音应答方法、装置、电子设备及可读存储介质，以解决对话体验较差的问题。
[0004]第一方面，本申请实施例提供了一种语音应答方法，包括：
[0005]获取待应答语音数据；
[0006]使用预先训练的变压器Transformer模型，提取所述待应答语音数据的第一表征向量；
[0007]基于所述第一表征向量和表征向量集合获取目标表征向量，所述目...

【技术保护点】

【技术特征摘要】
1.一种语音应答方法，其特征在于，包括：获取待应答语音数据；使用预先训练的变压器Transformer模型，提取所述待应答语音数据的第一表征向量；基于所述第一表征向量和表征向量集合获取目标表征向量，所述目标表征向量为所述表征向量集合中与所述第一表征向量的相似度最高的表征向量，其中，所述表征向量集合中每个表征向量对应一个动作；获取应答动作的应答语音，所述应答动作为所述目标表征向量对应的目标动作；输出所述应答语音。2.如权利要求1所述的方法，其特征在于，所述变压器Transformer模型通过如下方式训练得到：获取预先进行标注的多个训练样本，每一训练样本包括多轮对话语音；基于所述多个训练样本的多轮对话语音，获取所述多个训练样本的每轮对话语音的对话意图和槽位信息；基于所述多个训练样本的每轮对话语音的对话意图和槽位信息，以及每轮对话语音的上一轮应答动作，获取所述多个训练样本的多轮训练语音数据；使用所述多个训练样本的多轮训练语音数据对待训练变压器Transformer模型进行迭代训练；计算所述待训练变压器Transformer模型输出的每轮训练语音数据的表征向量与标注应答动作的相似度；使用损失函数对所述多个训练样本的多轮对话语音对应的相似度进行检测，确定损失值；若所述损失值的变化小于预设值，则训练结束。3.如权利要求2所述的方法，其特征在于，所述计算所述待训练变压器Transformer模型输出的每轮训练语音数据的表征向量与标注应答动作的相似度，包括：使用第一线性模型获取预设语义空间中所述每轮对话语音的训练语音数据的表征向量；使用第二线性模型获取所述预设语义空间中所述标注应答动作的表征向量；计算所述预设语义空间中所述每轮对话语音的训练语音数据的表征向量与所述标注应答动作的表征向量的相似度；其中，所述第一线性模型用于将所述待训练变压器Transformer模型输出的表征向量映射至所述预设语义空间，所述第二线性模型用于将所述标注应答动作的表征向量映射至所述预设语义空间。4.如权利要求3所述的方法，其特征在于，所述使用损失函数对所述多轮对话语音对应的相似度进行检测，确定损失值，包括：分别获取所述待训练变压器Transformer模型输出的表征向量与所述标注应答动作正例的相似度和负例的相似度；使用损失函数、所述正例的相似度和所述负例的相似度，确定所述损失值。5.如权...

【专利技术属性】
技术研发人员：吴晓婷，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人