意图识别方法及装置制造方法及图纸

技术编号：35454755 阅读：13 留言：0更新日期：2022-11-03 12:11

本申请提供意图识别方法及装置，其中所述意图识别方法包括：获取目标对话文本，并将目标对话文本切分为至少两个文本片段；将至少两个文本片段输入至意图识别模型，其中，意图识别模型包括编码单元、解码单元；通过编码单元对至少两个文本片段依次进行编码处理，获得编码向量，其中，编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成；通过解码单元对编码向量进行解码处理，获得目标对话文本对应的意图类别概率分布并输出意图识别模型。通过采用意图识别模型依次处理各个文本片段，使每个文本片段融合扩展信息再进行编码处理，实现扩展上下文的目的，能够较好的捕捉整段目标对话文本的语义信息，从而提高用户意图预测的准确率。的准确率。的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
意图识别方法及装置

[0001]本申请涉及人工智能
，特别涉及意图识别方法。本申请同时涉及意图识别装置，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着人工神经网络技术的发展，人工神经网络的构建和训练，可以解决较为复杂的逻辑策略的表达问题。目前，预训练语言模型可以用于文本分类任务，例如使用预训练语言模型基于用户对话预测用户意向，从而判断用户是否会流失。但是，目前预训练语言模型在对话场景下，无法对长对话一次性编码，导致模型训练效率较低以及预测结果不准确的问题。因此，如何在长对话场景下准确预测出用户意向是目前亟需解决的问题。

技术实现思路

[0003]有鉴于此，本申请实施例提供了意图识别方法，基于长对话文本准确预测出用户的意图，从而为用户提供相应服务，提高用户满意度。本申请同时涉及意图识别装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的无法在长对话场景下准确预测出用户意图。
[0004]根据本申请实施例的第一方面，提供了一种意图识别方法，包括：
[0005]获取目标对话文本，并将所述目标对话文本切分为至少两个文本片段；
[0006]将所述至少两个文本片段输入至意图识别模型，其中，所述意图识别模型包括编码单元、解码单元；
[0007]通过所述编码单元对所述至少两个文本片段依次进行编码处理，获得编码向量，其中，所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成；
[0008]通过所述解码单元对所述编码向量进行...

【技术保护点】

【技术特征摘要】
1.一种意图识别方法，其特征在于，包括：获取目标对话文本，并将所述目标对话文本切分为至少两个文本片段；将所述至少两个文本片段输入至意图识别模型，其中，所述意图识别模型包括编码单元、解码单元；通过所述编码单元对所述至少两个文本片段依次进行编码处理，获得编码向量，其中，所述编码向量由每个文本片段融合扩展信息编码获得的编码子向量组成；通过所述解码单元对所述编码向量进行解码处理，获得所述目标对话文本对应的意图类别概率分布并输出所述意图识别模型。2.如权利要求1所述的方法，其特征在于，获取目标对话文本，包括：获取关联目标业务的对话信息集；对所述对话信息集中包含的初始对话信息进行数据清洗，获得包含目标对话信息的目标对话信息集；确定所述目标对话信息集中目标对话信息对应的至少两个对话文本，通过对所述至少两个对话文本进行拼接，获得所述目标对话文本，其中，至少两个对话文本中的每个对话文本均包含讲话者标识。3.如权利要求2所述的方法，其特征在于，对所述对话信息集中包含的初始对话信息进行数据清洗，获得包含目标对话信息的目标对话信息集，包括：确定包含多个数据清洗节点的数据清洗链路；在所述数据清洗链路中选择第i数据清洗节点对应的数据清洗规则，对所述对话信息集中包含的初始对话信息进行数据清洗，获得初始对话信息集；判断所述数据清洗链路中是否包含未执行的数据清洗节点；若是，i自增1，将所述初始对话信息集作为对话信息集，并执行在所述数据清洗链路中选择第i数据清洗节点对应的数据清洗规则的步骤；若否，将所述初始对话信息集作为包含目标对话信息的目标对话信息集。4.如权利要求1所述的方法，其特征在于，将所述目标对话文本切分为至少两个文本片段，包括：获取预设切分策略，并根据所述预设切分策略确定切分窗口；根据所述切分窗口对所述目标对话文本进行切分处理，获得至少两个文本片段。5.如权利要求1所述的方法，其特征在于，通过所述编码单元对所述至少两个文本片段依次进行编码处理，获得编码向量，包括：获取所述至少两个文本片段中每个文本片段之间的排列顺序；通过所述编码单元按照所述排列顺序依次对每个文本片段进行编码处理，获得每个文本片段对应的编码子向量；根据每个文本片段对应的编码子向量组成获得编码向量。6.如权利要求5所述的方法，其特征在于，所述通过所述编码单元对所述至少两个文本片段依次进行编码处理，获得编码向量，包括：在所述至少两个文本片段中确定第i个文本片段，以及确定所述第i个文本片段对应的扩展信息，其中，第i个文本片段对应的扩展信息由第i
‑
1个文本片段编码获得；融合所述第i个文本片段和所述第i个文本片段对应的扩展信息，并通过编码单元对融
合结果进行编码处理，获得所述第i个文本片段对应的编码子向量和第i+1个文本片段对应的扩展信息；判断所述至少两...

【专利技术属性】
技术研发人员：阎覃，孙子钧，张天宇，赵薇，柳景明，
申请(专利权)人：北京飞象星球科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人