一种语音对话处理方法和系统技术方案

技术编号：26175228 阅读：28 留言：0更新日期：2020-10-31 14:07

本申请实施例公开一种语音对话处理方法和系统。该方法包括：获取目标语音对话数据；基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；将文本向量表示序列、音标向量表示序列和角色向量表示序列输入训练好的语音对话编码模型，确定目标语音对话数据对应的表示向量；将表示向量输入分类模型，确定目标语音对话数据的摘要。本申请实施例公开的方法，通过在对模型进行训练的过程中融入音标、角色等信息，可以减少口语理解过程中的语义识别错误，理解对话逻辑，提高语义识别准确性。

A speech dialogue processing method and system

全部详细技术资料下载

【技术实现步骤摘要】
一种语音对话处理方法和系统
本申请涉及数据处理领域，特别涉及一种语音对话的处理方法、系统、装置以及计算机可读存储介质。
技术介绍
随着人工智能技术的发展，语音识别技术广泛应用于各种领域，例如，智能家居、智能客服等。语音交互的核心是机器如何正确地理解用户的意图，从而做出正确的回应来帮助用户快速准确地解决问题。然而随着应用场景的逐渐扩展，在复杂的现实场景中，语音识别的性能很难得到保障。因此，有必要提供一种语音对话处理方法和系统，提高语义理解的准确性。
技术实现思路
本申请实施例的一方面涉及一种方法，用于处理语音对话，所述方法包括：获取目标语音对话数据；基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；将所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列输入训练好的语音对话编码模型，确定所述目标语音对话数据对应的表示向量；将所述表示向量输入分类模型，确定所述目标语音对话数据的摘要。本申请实施例的另...

【技术保护点】
1.一种方法，用于处于语音对话，其特征在于，所述方法包括：/n获取目标语音对话数据；/n基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；/n将所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列输入训练好的语音对话编码模型，确定所述目标语音对话数据对应的表示向量；/n将所述表示向量输入分类模型，确定所述目标语音对话数据的摘要。/n

【技术特征摘要】
1.一种方法，用于处于语音对话，其特征在于，所述方法包括：
获取目标语音对话数据；
基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述目标语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；
将所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列输入训练好的语音对话编码模型，确定所述目标语音对话数据对应的表示向量；
将所述表示向量输入分类模型，确定所述目标语音对话数据的摘要。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取所述摘要的句子文本；
对所述句子文本进行文法校正。

3.根据权利要求1所述的方法，其特征在于，所述语音对话编码模型通过训练过程确定，所述训练过程包括：
获取样本语音对话数据；
基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述样本语音对话数据进行向量转化，得到文本向量表示序列、音标向量表示序列和角色向量表示序列；
基于所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列，以自监督学习的方式对语音对话编码模型进行预训练，得到预训练后的语音对话编码模型。

4.根据权利要求3所述的方法，其特征在于，所述训练过程包括：
所述文本嵌入模型、所述音标嵌入模型和所述角色嵌入模型中的至少一个与所述语音对话编码模型进行联合预训练。

5.根据权利要求3所述的方法，其特征在于，所述以自监督学习的方式对语音对话编码模型进行预训练，包括：
以所述文本向量表示序列、所述音标向量表示序列和所述角色向量表示序列中的至少一个的至少一部分作为标注，所述标注至少包括所述角色向量表示序列中的部分元素。

6.根据权利要求5所述的方法，其特征在于，所述标注还包括所述文本向量表示序列中的关键词。

7.根据权利要求5所述的方法，其特征在于，所述标注还包括所述文本向量表示序列体现的句子顺序。

8.根据权利要求1所述的方法，其特征在于，所述文本嵌入模型包括：
词嵌入子模型，用于确定所述目标语音对话数据的词向量表示序列；
位置嵌入子模型，用于确定所述目标语音对话数据的位置向量表示序列；
段落嵌入子模型，用于确定所述目标语音对话数据的段落向量表示序列。

9.根据权利要求8所述的方法，其特征在于，所述文本向量表示序列通过合并所述词向量表示序列、所述位置向量表示序列和所述段落向量表示序列得到。

10.一种系统，用于处理语音对话，其特征在于，所述系统包括：
获取模块，用于获取目标语音对话数据；
确定模块，用于基于文本嵌入模型、音标嵌入模型和角色嵌入模型，分别对所述目标语音对话数据进行向量转...

【专利技术属性】
技术研发人员：徐海洋，韩堃，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人