一种基于领域知识融合表征的意图识别方法技术

技术编号:37987937 阅读:32 留言:0更新日期:2023-06-30 10:02
本发明专利技术公开了一种基于领域知识融合表征的意图识别方法,属于文本匹配技术领域,包括以下步骤:S1:业务新词挖掘;S2:局部与全局表征获取;S3:表征融合;S4:意图识别。本发明专利技术通过梳理业务知识,能够自动识别简单场景意图;其次根据预训练语言模型微调得到局部知识表征,并利用图表征学习方法获取全局知识表征,然后融合局部和全局知识表征,获取更加丰富的运营商客服领域语义,最后应用向量相似度计算进行意图识别工作,实现精准的意图识别工作。实现精准的意图识别工作。实现精准的意图识别工作。

【技术实现步骤摘要】
一种基于领域知识融合表征的意图识别方法


[0001]本专利技术涉及文本匹配
,具体涉及一种基于领域知识融合表征的意图识别方法。

技术介绍

[0002]在人工智能广泛应用生产的创新背景下,将人工智能AI能力对接企业业务领域具有重要意义。传统客服中心面临人工运营效率低、企业成本高、人员流失率高等问题,面向客服运营团队以及客服业务建立高质量的客户服务尤为迫切,通过人工智能以及软呼叫等技术可以降低人工成本投入,提质增效,加快推进企业生产等领域的创新发展。
[0003]知识表征因其出色的语义表示能力在自然语言处理领域NLP越来越被重视,目前,基于预训练模型的表征方法成为解决各类NLP任务的主流方法,其通过联合调节所有层中词汇的上下文来预训练深度双向表示,但对于一些粗粒度的领域专有词汇,在处理特定任务时并不适用。因此,如何在预训练模型的基础上获得包含特定领域文本语义信息的高质量表征具有重要意义。为此,提出一种基于领域知识融合表征的意图识别方法。

技术实现思路

[0004]本专利技术所要解决的技术问题在于:如何解决运营商客服领域本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于领域知识融合表征的意图识别方法,其特征在于,包括以下步骤:S1:业务新词挖掘对用户对话文本进行分词、去除停用词、过滤处理,若文本经过过滤后得到的词不在种子词库中,则通过业务新词挖掘,建立运营商客服领域业务词库;S2:局部与全局表征获取应用预训练模型获取局部的上下文语义表征,再通过构建领域知识图谱,获取全局业务知识图表征;S3:表征融合将局部的上下文语义表征与全局业务知识图表征融合,得到知识融合表征,并计算知识融合表征与场景意图库的相似度;S4:意图识别根据知识融合表征与场景意图库的相似度排名,返回排名在第一位的用户意图,实现意图识别。2.根据权利要求1所述的一种基于领域知识融合表征的意图识别方法,其特征在于:在所述步骤S1中,在业务专家提供种子词的基础上,先使用分词并去停用词的方式对用户对话文本进行预处理,再过滤对业务新词挖掘没有价值的文本内容,若文本经过过滤后得到的词不在种子词库中,则进行词频统计,并设置新词挖掘阈值K,将超过阈值的词汇记录下来作为候选业务词,融合种子词库和候选业务词,建立运营商客服领域业务词库T={t1,t2,

,t
N
}。3.根据权利要求2所述的一种基于领域知识融合表征的意图识别方法,其特征在于:在所述步骤S1中,若文本经过过滤后得到的词在种子词库中,则通过业务知识直接识别用户意图。4.根据权利要求1所述的一种基于领域知识融合表征的意图识别方法,其特征在于:在所述步骤S2中,应用预训练模型获取局部的上下文语义表征的具体过程如下:S201:对用户对话文本进行分词处理后获取序列长度为N的文本s={c1,...,c
i
,...,c
N
},其中c
i
表示序列s中的第i个词汇,利用Token Embedding将文本编码成向量,获取序列s中每一个词汇固定维度的初始向量将每一个词汇向量放在一起,初始化嵌入矩阵将每一个词汇向量放在一起,初始化嵌入矩阵S202:利用Segment Embeddings区分两个用户对话文本,将0赋予第一个用户对话文本的各个词汇,将1赋予第二个用户对话文本的各个词汇;S203:在语义表征基础上加入位置编码向量,通过正余弦函数实现线性位置标注,获取上下文语义表征矩阵位置编码具体公式如下:
其中,PE(i,j)表示词汇i的位置编码,i表示词汇在句子中的位置,j表示词汇向量的位置,N表示句子的长度。5.根据权利要求4所述的一种基于领域知识融合表征的意图识别方法,其特征在于:在所述步骤S2中,构建领域知识图谱的过程具体如下:S211:通过统计词组t
m
,t
n
∈T之间的相关程度和各自的情感词性,构造业务词t
m
和t
n
的知识关联度Con(t
m
,t
n
):):Sopmi(t
m
*t
n
)=Opmi(t
m
)*Opmi(t
n
)Con(t
m
,t
n
)=w1Pmi(t
m
,t
n
)+w2*Sopmi(t
m
*t
n
)其中,Pmi(t
m
,t
n
)是t
m
和t
n
两个业务词之间的相关程度,p(t
mn
)是t
m
和t
n
同时出现的概率,p(t
m
)、p(t
n
)是t
m
和t
n
分别出现的概率;Opmi(t
k
)是t
k
的情感倾向点互信息,Op...

【专利技术属性】
技术研发人员:李飞冯影冯强中范文斌丁常坤王颜颜周源程磊赵廷芳
申请(专利权)人:科大国创云网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1