一种面向电力业务场景的多意图识别方法及系统技术方案

技术编号:38039216 阅读:11 留言:0更新日期:2023-06-30 11:05
本发明专利技术提供一种面向电力业务场景的多意图识别方法及系统,涉及自然语言处理领域,建立对话语料库;获取用户输入的信息,对用户输入的信息进行词语分割,提取输入信息中的词语;从分割后的词语中提取文本特征,并在每个句子末端添加分类token特征向量;构建Transformer联合模型,对句子进行编码,通过CRF模型在Transformer联合模型输出序列上标记一个与编码对应的层来预测实体;将Transformer联合模型输出的分类token特征向量与意图标签表示的语义向量空间,进行相似度比较,得到基于电力业务场景的用户意图信息。本发明专利技术可以提升通用场景和电力专业领域混合场景的多意图识别精度。场景的多意图识别精度。场景的多意图识别精度。

【技术实现步骤摘要】
一种面向电力业务场景的多意图识别方法及系统


[0001]本专利技术涉及自然语言处理领域,涉及一种面向电力业务场景的多意图识别方法及系统。

技术介绍

[0002]目前,人机对话已经在多个领域广泛使用,人机对话是将运行情况及时地输出显示,供操作人员观察和了解。人通过输入装置(如键盘、麦克风)对计算机输入各种命令或数据,对计算机进行干预和控制的过程。
[0003]为了便于人机对话,计算机操作系统设置了对话功能,操作人员通过各种命令与计算机“对话”;一些高级语言也具有很好的“会话”功能,如BA

SIC语言就是一种会话型算法语言。用户可以编制的应用软件,实现会话功能,还可以通过菜单引导如何操作。比如任务型对话系统逐渐被广泛应用于各行各业,例如预订机票,酒店和餐馆等。
[0004]而电力业务对话机器人就属于任务型对话系统在电力领域的典型应用,能帮助用户便捷处理复杂任务,减轻人工负担。因此,如何准确理解用户问题和意图是面向复杂业务场景下人机对话系统所要解决的问题。
[0005]在电力业务场景中,目前人机对话系统大多需通过结合领域知识图谱来提高专业领域问题的识别精度,然而用户经常需要在不同的电力专业领域及日常的办公领域切换,所以结合领域知识图谱的意图识别模型存在识别效率低等问题。而且,电力业务场景中,对话机器人设置在各个使用区域,对话机器人具有大量用户相关数据,而在与服务器进行通信时,容易造成数据泄露,影响电力数据的安全性,而在对话机器人本地完成人机对话,又不足以支撑模型训练,难以实现人机对话的需求。

技术实现思路

[0006]本专利技术提供一种面向电力业务场景的多意图识别方法,方法构建意图识别模型,利用两者在语义和逻辑关系提升模型性能,并且用户输入信息通过专业术语分词库完成词语分割,再通过联合模型完成用户意图识别及语义槽填充,可以提升通用场景和电力专业领域混合场景的多意图识别精度。
[0007]面向电力业务场景的多意图识别方法包括:S1:基于电力术语,建立自定义词典,形成对话语料库;S2:获取用户输入的信息,对用户输入的信息进行词语分割,提取输入信息中的词语,并用预设字符进行分隔;S3:从分割后的词语中提取文本特征,并在每个句子末端添加分类token特征向量;S4:构建Transformer联合模型,对句子进行编码,通过CRF模型在Transformer联合模型输出序列上标记一个与编码对应的层来预测实体;S5:将Transformer联合模型输出的分类token特征向量与意图标签表示的语义向
量空间,进行相似度比较,得到基于电力业务场景的用户意图信息。
[0008]进一步需要说明的是,步骤S2中通过jieba算法对用户输入的信息进行词语分割,并对词频进行统计;预设字符采用空格,或采用字母,或采用运算符。
[0009]进一步需要说明的是,步骤S3中,对文本特征提取后,返回序列特征矩阵;序列特征矩阵包含:句子中的token特征向量。
[0010]进一步需要说明的是,方法还包括:对每个token特征向量进行稀疏或稠密特征处理,处理后输入至全连接层;其中,稠密特征处理表示使用BERT预训练模型处理;稀疏特征处理采取skip

gram模型处理。
[0011]进一步需要说明的是,步骤S5使用点积损失最大化与目标标签进行相似度比较,以及使用点积损失最小化与负样本进行相似度比较,具体如下述公式:其中分别为目标标签的相似度和负样本的相似度,为一组负样本。
[0012]进一步需要说明的是,用户输入的信息包括:语音、图片及文字信息,其中,图片转文字采用CRNN神经网络模型、或CTPN神经网络模型、或LayoutXLM神经网络模型进行多模态特征信息提取;多模态特征信息提取同时引入了符合阅读顺序的文本行排序方法以及UDML联合互学习蒸馏方法,识别电力业务场景信息。
[0013]进一步需要说明的是,得到的基于电力业务场景的用户意图信息包括:意图、实体字段及词槽信息;其中,意图和实体字段均为列表信息,列表信息列举对话机器人需要处理的意图和实体字段,使对话机器人获悉下一步要执行的动作;执行的动作包括回复消息或调用业务系统API动作。
[0014]本专利技术还提供一种面向电力业务场景的多意图识别系统,系统包括:服务器和多个对话机器人;每个对话机器人分别与服务器通信连接;服务器包括:对话语料库建立模块、信息获取分割模块、特征处理模块、联合模型构建预测模块以及相似度比较模块;对话语料库建立模块用于将用户日常使用的语料信息进行汇集,并建立自定义词典,形成基于电力术语的对话语料库;信息获取分割模块用于基于对话机器人获取用户输入的信息,对用户输入的信息进行词语分割,提取输入信息中的词语,并用预设字符进行分隔;特征处理模块用于从分割后的词语中提取文本特征,并在每个句子末端添加分类token特征向量;联合模型构建预测模块用于构建Transformer联合模型,对句子进行编码,通过CRF模型在Transformer联合模型输出序列上标记一个与编码对应的层来预测实体;相似度比较模块用于将Transformer联合模型输出的分类token特征向量与意图
标签表示的语义向量空间,进行相似度比较,得到基于电力业务场景的用户意图信息。
[0015]进一步需要说明的是,对话机器人与服务器之间传输的信息进行加密传输,加密传输方式包括:基于同态加密算法Paillier完成本地模型参数至统一模型的传输,具体步骤如下:第一步:服务器生成加密使用的公钥和私钥对;随机选择2个素数p和q,p和q需长度相等,且pq,(p

1),(q

1)互质;计算r=pq以及λ=lcm(p

1,q

1),其中,lcm表示最小公倍数,令g=r+1;,其中L(x)=(x

1)/r,得到公钥(r,q)和私钥(λ,);第二步:加密并计算得到第u(1=<u<=n)个模型参数密文;选择随机数s,0<=s<=r,对应的明文信息为,计算得到密文信息;第三步:根据第一步和第二步得到n个模型参数密文,在密文域进行运算,得到模型参数密文。
[0016]进一步需要说明的是,服务器还对统一模型更新,针对传递过来的参数密文c,对统一模型进行解密,使用下述公式计算得明文:。
[0017]从以上技术方案可以看出,本专利技术具有以下优点:本专利技术提供的面向电力业务场景的多意图识别方法可以面向复杂业务场景,准确理解用户问题和多种意图,还可以解决用户在不同的电力专业领域和日常办公领域频繁切换所带来的识别效率低等问题,同时可以满足用户多意图识别需求。
[0018]基于本专利技术提供的面向电力业务场景的多意图识别系统,可以面向复杂业务场景时本方法可以准确理解用户问题和多种意图,系统还可以解决用户在不同的电力专业领域和日常办公领域频繁切换所带来的识别效率低等问题,同时可以满足用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向电力业务场景的多意图识别方法,其特征在于,方法包括:S1:基于电力术语,建立自定义词典,形成对话语料库;S2:获取用户输入的信息,对用户输入的信息进行词语分割,提取输入信息中的词语,并用预设字符进行分隔;S3:从分割后的词语中提取文本特征,并在每个句子末端添加分类token特征向量;S4:构建Transformer联合模型,对句子进行编码,通过CRF模型在Transformer联合模型输出序列上标记一个与编码对应的层来预测实体;S5:将Transformer联合模型输出的分类token特征向量与意图标签表示的语义向量空间,进行相似度比较,得到基于电力业务场景的用户意图信息。2.根据权利要求1所述的面向电力业务场景的多意图识别方法,其特征在于,步骤S2中通过jieba算法对用户输入的信息进行词语分割,并对词频进行统计;预设字符采用空格,或采用字母,或采用运算符。3.根据权利要求1所述的面向电力业务场景的多意图识别方法,其特征在于,步骤S3中,对文本特征提取后,返回序列特征矩阵;序列特征矩阵包含:句子中的token特征向量。4.根据权利要求1所述的面向电力业务场景的多意图识别方法,其特征在于,方法还包括:对每个token特征向量进行稀疏或稠密特征处理,处理后输入至全连接层;其中,稠密特征处理表示使用BERT预训练模型处理;稀疏特征处理采取skip

gram模型处理。5.根据权利要求1所述的面向电力业务场景的多意图识别方法,其特征在于,步骤S5使用点积损失最大化与目标标签进行相似度比较,以及使用点积损失最小化与负样本进行相似度比较,具体如下述公式:其中 分别为目标标签的相似度和负样本的相似度, 为一组负样本。6.根据权利要求1所述的面向电力业务场景的多意图识别方法,其特征在于,用户输入的信息包括:语音、图片及文字信息,其中,图片转文字采用CRNN神经网络模型、或CTPN神经网络模型、或LayoutXLM神经网络模型进行多模态特征信息提取;多模态特征信息提取同时引入了符合阅读顺序的文本行排序方法以及UDML联合互学习蒸馏方法,识别电力业务场景信息。7.根据权利要求1所述的面向电力业务场景的多意图识别方法,其特征在于,得到的基于电力业务场景的用户意图信息包括:意图、实体字段及词槽信息;其中,意图和实体字段均为列表信息,列表信息列举对话机器人需要处理的意图和实体字段,使对话机器人获悉下一步要执行的动作;执行的动作...

【专利技术属性】
技术研发人员:张茜李晓珍李强王子恒孟雨李继成李兆隆
申请(专利权)人:国网信息通信产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1