一种面向电力业务场景的多意图识别方法及系统技术方案

技术编号：38039216 阅读：11 留言：0更新日期：2023-06-30 11:05

本发明专利技术提供一种面向电力业务场景的多意图识别方法及系统，涉及自然语言处理领域，建立对话语料库；获取用户输入的信息，对用户输入的信息进行词语分割，提取输入信息中的词语；从分割后的词语中提取文本特征，并在每个句子末端添加分类token特征向量；构建Transformer联合模型，对句子进行编码，通过CRF模型在Transformer联合模型输出序列上标记一个与编码对应的层来预测实体；将Transformer联合模型输出的分类token特征向量与意图标签表示的语义向量空间，进行相似度比较，得到基于电力业务场景的用户意图信息。本发明专利技术可以提升通用场景和电力专业领域混合场景的多意图识别精度。场景的多意图识别精度。场景的多意图识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向电力业务场景的多意图识别方法及系统

[0001]本专利技术涉及自然语言处理领域，涉及一种面向电力业务场景的多意图识别方法及系统。

技术介绍

[0002]目前，人机对话已经在多个领域广泛使用，人机对话是将运行情况及时地输出显示，供操作人员观察和了解。人通过输入装置（如键盘、麦克风）对计算机输入各种命令或数据，对计算机进行干预和控制的过程。
[0003]为了便于人机对话，计算机操作系统设置了对话功能，操作人员通过各种命令与计算机“对话”；一些高级语言也具有很好的“会话”功能，如BA
‑
SIC语言就是一种会话型算法语言。用户可以编制的应用软件，实现会话功能，还可以通过菜单引导如何操作。比如任务型对话系统逐渐被广泛应用于各行各业，例如预订机票，酒店和餐馆等。
[0004]而电力业务对话机器人就属于任务型对话系统在电力领域的典型应用，能帮助用户便捷处理复杂任务，减轻人工负担。因此，如何准确理解用户问题和意图是面向复杂业务场景下人机对话系统所要解决的问题。
[0005]在电力业务场景中，目前人机对话系统大多需通过结合领域知识图谱来提高专业领域问题的识别精度，然而用户经常需要在不同的电力专业领域及日常的办公领域切换，所以结合领域知识图谱的意图识别模型存在识别效率低等问题。而且，电力业务场景中，对话机器人设置在各个使用区域，对话机器人具有大量用户相关数据，而在与服务器进行通信时，容易造成数据泄露，影响电力数据的安全性，而在对话机器人本地完成人机对话，又不足以支撑模型训练，难以实现人机...

【技术保护点】

【技术特征摘要】
1.一种面向电力业务场景的多意图识别方法，其特征在于，方法包括：S1：基于电力术语，建立自定义词典，形成对话语料库；S2：获取用户输入的信息，对用户输入的信息进行词语分割，提取输入信息中的词语，并用预设字符进行分隔；S3：从分割后的词语中提取文本特征，并在每个句子末端添加分类token特征向量；S4：构建Transformer联合模型，对句子进行编码，通过CRF模型在Transformer联合模型输出序列上标记一个与编码对应的层来预测实体；S5：将Transformer联合模型输出的分类token特征向量与意图标签表示的语义向量空间，进行相似度比较，得到基于电力业务场景的用户意图信息。2.根据权利要求1所述的面向电力业务场景的多意图识别方法，其特征在于，步骤S2中通过jieba算法对用户输入的信息进行词语分割，并对词频进行统计；预设字符采用空格，或采用字母，或采用运算符。3.根据权利要求1所述的面向电力业务场景的多意图识别方法，其特征在于，步骤S3中，对文本特征提取后，返回序列特征矩阵；序列特征矩阵包含：句子中的token特征向量。4.根据权利要求1所述的面向电力业务场景的多意图识别方法，其特征在于，方法还包括：对每个token特征向量进行稀疏或稠密特征处理，处理后输入至全连接层；其中，稠密特征处理表示使用BERT预训练模型处理；稀疏特征处理采取skip
‑
gram模型处理。5.根据权利要求1所述的面向电力业务场景的多意图识别方法，其特征在于，步骤S5使用点积损失最大化与目标标签进行相似度比较，以及使用点积损失最小化与负样本进行相似度比较，具体如下述公式：其中分别为目标标签的相似度和负样本的相似度，为一组负样本。6.根据权利要求1所述的面向电力业务场景的多意图识别方法，其特征在于，用户输入的信息包括：语音、图片及文字信息，其中，图片转文字采用CRNN神经网络模型、或CTPN神经网络模型、或LayoutXLM神经网络模型进行多模态特征信息提取；多模态特征信息提取同时引入了符合阅读顺序的文本行排序方法以及UDML联合互学习蒸馏方法，识别电力业务场景信息。7.根据权利要求1所述的面向电力业务场景的多意图识别方法，其特征在于，得到的基于电力业务场景的用户意图信息包括：意图、实体字段及词槽信息；其中，意图和实体字段均为列表信息，列表信息列举对话机器人需要处理的意图和实体字段，使对话机器人获悉下一步要执行的动作；执行的动作...

【专利技术属性】
技术研发人员：张茜，李晓珍，李强，王子恒，孟雨，李继成，李兆隆，
申请(专利权)人：国网信息通信产业集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人