一种面向认知服务的用户意图识别方法及系统技术方案

技术编号:26259438 阅读:16 留言:0更新日期:2020-11-06 17:54
本发明专利技术公开了一种面向认知服务的用户意图识别方法及系统,所述方法包括如下步骤:步骤S1、收集并标注大规模语料库;步骤S2、挖掘概念共现模式;步骤S3、构建概念共现增强语义模型;步骤S4、实施意图识别方案。本发明专利技术提出了医疗查询文本中存在“概念共现模式”这一概念,从医疗查询记录中挖掘频繁共现模式并利用这种共现模式进行用户意图识别,揭示了概念共现与用户意图的潜在关联,并揭示了它们对多意图和隐式意图识别问题的重大影响。本发明专利技术充分考虑到了用户查询文本表达的复杂性和模糊性,从语义特征和概念共现特征两个维度进行特征提取用于意图识别,解决多意图和隐式意图等复杂意图识别问题并在多意图识别问题上具备良好的迁移性。

【技术实现步骤摘要】
一种面向认知服务的用户意图识别方法及系统
本专利技术属于计算机服务
,涉及一种面向认知服务的用户意图识别方法及系统,具体涉及一种基于概念共现增强语义模型的意图识别方法及系统。
技术介绍
认知服务是人与机器之间的桥梁,广泛应用于问答系统、人机对话系统和智能终端。用户意图识别近年来作为认知服务的一个重要模块得到了广泛的研究。但大多数研究都是在简单的生活场景中进行的。通常,用户的陈述是简单明了的。与常规应用场景不同,在医学查询领域存在许多隐式意图和多意图的场景,不同意图类别的单词往往在医学相关的查询语句中共同出现。传统的用户意图识别模型没有足够的能力来处理复杂的场景。随着对医疗在线问答需求的不断增长,从不同的用户表达中识别其真实意图变得尤为重要。用户意图识别的目标就是对给定的查询文本选定一个意图类别,本质上是一种文本分类任务。目前的解决方案主要包括神经网络文本分类和意图识别与槽位填充联合学习这两种技术。诸如CNN和RNN等神经网络模型被用于自然语言文本的分类任务,并且表现良好。这类技术可以在网络中很好地学习到来自不同领域用户问句的向量表示。然而,由于模糊表达,难以在与医学相同的领域中精确区分用户的意图。此外,在一个医学查询中通常存在多种意图和隐式意图,这给句子建模带来了挑战。另一方面,意图识别与槽位填充的联合学习模型近年来变得越来越流行,将意图识别的分类任务和槽位填充的序列标记任务相结合,减少了错误传播的影响。但是特定的槽位仅能为不同领域的意图识别贡献有效特征,因为在不同领域下槽位的重叠情况较少,比如在生活-音乐领域,针对“添加歌单”这一用户意图,往往用户的描述语句中会出现“歌手”、“歌单名称”和“音乐名称”,而在生活-天气领域,针对“查询天气”这一用户意图,会伴随出现“日期”、“时间”、“地点”等槽位,这些槽位具有显著的领域性,有助于区分“添加歌单”和“查询天气”这两类意图。然而对于用户表达较为复杂的医疗领域,用户意图的划分粒度较细,经常会出重复的槽位概念如“疾病”、“症状”、“身体部位”,这些高度重复的槽位并不能为用户意图识别提供有效特征。而且,联合学习的方法从模型设计上也仅适用于单意图的识别,对于多意图和隐式意图并不适配。在医疗查询文本中,虽然用户的表达方式多样,单意图和复杂意图场景交织出现,但这些文本都具备一种概念共现模式。对于一个医疗查询文本,我们可以标注出其中涉及到的医学概念如“症状”、“疾病”、“药物”、“医疗科室”,这些概念都是由文本中所具体出现的命名实体如“高血压”、“胸闷”或隐式抽象表达如“哪个科室”、“什么药物”作为载体。这些概念之间会随着用户查询文本的积累而出现共现模式,这种共现模式能够指导多意图识别和隐式意图推断。基于上述研究背景可以发现,医疗领域的查询文本虽然表达形式多样,但普遍存在一种概念共现模式。
技术实现思路
为了解决现有技术中存在的以上问题,本专利技术提供了一种面向认知服务的用户意图识别方法及系统。本专利技术提出了一种新型神经网络结构Conco-ERNIE,使用概念共现模式来增强预训练语义模型ERNIE的文本表示能力。本专利技术设计了一种基于Apriori算法的模式挖掘解决方案,并基于Node2Vec计算意图概念的向量表示。Conco-ERNIE通过注意力模块聚合文本语义特征和概念共现模式特征,可以捕获用户的复杂显示意图并预测用户的隐式意图。本专利技术的目的是通过以下技术方案实现的:一种面向认知服务的用户意图识别方法,包括如下步骤:步骤S1、收集并标注大规模语料库:(1)在常见的在线医疗问答网站上爬取医疗查询文本并进行数据清洗,人工筛选高质量的语料;(2)对于医疗查询文本,人工标注出其中的已知概念和意图概念,二者共同构成概念事务,基于该语料库标注结果构建概念事务集;步骤S2、挖掘概念共现模式:利用Apriori算法从步骤S1构建的概念事务集中挖掘已知概念与意图概念之间的关联规则,得到医疗查询文本中的概念共现模式,具体步骤如下:(1)将概念贡献模式的挖掘问题转化为从概念事务集中挖掘支持度和置信度高于人工设定阈值的共现模式;(2)将概念共现模式形式转化为无向图结构;(3)利用图嵌入的学习方法Node2vec进行概念向量的学习,使得具备共现关系和共现强度较高的概念在向量空间中更相近;步骤S3、构建概念共现增强语义模型:利用ERNIE的预训练模型挖掘医疗查询文本中的语义特征,结合步骤S2得到的概念关联规则特征构建概念共现增强语义模型,所述概念共现增强语义模型包括概念标注模块、编码模块、注意力机制模块、意图识别模块,其中:概念标注模块使用ERNIE和条件随机场组成的神经网络对查询文本自动标注概念标签,得到文本中用户提及的已知概念并采用独热编码的方式得到概念特征向量;编码模块使用ERNIE通过自注意力机制捕获查询文本的上下文信息,由此生成低维稠密的文本语义特征向量;注意力机制模块使用文本语义特征向量和概念特征向量以向量点乘的方式计算文本中不同概念对所属意图的贡献度;意图识别模块对文本语义特征向量和概念贡献特征向量进行连接操作得到用于意图识别的联合特征,使用激活函数对联合特征进行计算,得到每种意图的发生概率,从而完成多意图、单意图和隐式意图的识别;概念标注模块和编码模块是同级的,它们的输出是注意力机制模块的输入,注意力机制模块的输出是意图识别模块的输入,即:概念标注模块和编码模块的输出端与注意力机制模块的输入端相连,注意力机制模块的输出端与意图识别模块的输入端相连;概念共现增强语义模型的具体构建步骤如下:(1)将医疗查询文本输入到编码模块,经过Tokenizer分词器的切分后,使用Transformer进行编码得到文本的语义特征;(2)同时将医疗查询文本传递给概念标注模块来提取文本中的已知概念,并通过查询向量表即概念共现图向量矩阵,得到已知概念的向量表示;(3)将步骤(1)、(2)中得到的语义特征和概念共现特征输入到注意力机制模块中来提升特征表示的性能;(4)将经过步骤(3)提升后的两类特征进行向量连接操作,共同输入到最后的意图识别模块进行用户意图识别;步骤S4、实施意图识别方案:基于步骤S1得到的真实的医疗查询语料库,对步骤S3所构建的概念共现增强语义模型进行训练,通过参数调优选择出效果最好的模型,并将其进行线上部署,暴露成Web服务接口供服务使用者调用。一种实现上述面向认知服务的用户意图识别方法的系统,其结构框图如图1所示,包括概念共现增强语义模块、语料收集和分析模块和概念共现模式挖掘模块,其中:所述概念共现增强语义模块负责从医疗查询语句中提取出文本语义向量和已知概念向量,使用注意力机制计算文本中不同概念的贡献度,从而对给定的用户查询文本,计算出正确的用户意图分类结果;所述语料收集和分析模块负责在医疗问答网站中爬取高质量查询文本并进行文本清洗和概念共现模式标注;所述概念共现模式挖本文档来自技高网
...

【技术保护点】
1.一种面向认知服务的用户意图识别方法,其特征在于所述方法包括如下步骤:/n步骤S1、收集并标注大规模语料库:/n(1)在常见的在线医疗问答网站上爬取医疗查询文本并进行数据清洗,人工筛选高质量的语料;/n(2)对于医疗查询文本,人工标注出其中的已知概念和意图概念,二者共同构成概念事务,基于该语料库标注结果构建概念事务集;/n步骤S2、挖掘概念共现模式:/n利用Apriori算法从步骤S1构建的概念事务集中挖掘已知概念与意图概念之间的关联规则,得到医疗查询文本中的概念共现模式;/n步骤S3、构建概念共现增强语义模型:/n利用ERNIE的预训练模型挖掘医疗查询文本中的语义特征,结合步骤S2得到的概念关联规则特征构建概念共现增强语义模型;/n步骤S4、实施意图识别方案:/n基于步骤S1得到的真实的医疗查询语料库,对步骤S3所构建的概念共现增强语义模型进行训练,通过参数调优选择出效果最好的模型,并将其进行线上部署,暴露成Web服务接口供服务使用者调用。/n

【技术特征摘要】
1.一种面向认知服务的用户意图识别方法,其特征在于所述方法包括如下步骤:
步骤S1、收集并标注大规模语料库:
(1)在常见的在线医疗问答网站上爬取医疗查询文本并进行数据清洗,人工筛选高质量的语料;
(2)对于医疗查询文本,人工标注出其中的已知概念和意图概念,二者共同构成概念事务,基于该语料库标注结果构建概念事务集;
步骤S2、挖掘概念共现模式:
利用Apriori算法从步骤S1构建的概念事务集中挖掘已知概念与意图概念之间的关联规则,得到医疗查询文本中的概念共现模式;
步骤S3、构建概念共现增强语义模型:
利用ERNIE的预训练模型挖掘医疗查询文本中的语义特征,结合步骤S2得到的概念关联规则特征构建概念共现增强语义模型;
步骤S4、实施意图识别方案:
基于步骤S1得到的真实的医疗查询语料库,对步骤S3所构建的概念共现增强语义模型进行训练,通过参数调优选择出效果最好的模型,并将其进行线上部署,暴露成Web服务接口供服务使用者调用。


2.根据权利要求1所述的面向认知服务的用户意图识别方法,其特征在于所述步骤S2的具体步骤如下:
(1)将概念贡献模式的挖掘问题转化为从概念事务集中挖掘支持度和置信度高于人工设定阈值的共现模式;
(2)将概念共现模式形式转化为无向图结构;
(3)利用图嵌入的学习方法Node2vec进行概念向量的学习,使得具备共现关系和共现强度较高的概念在向量空间中更相近。


3.根据权利要求1所述的面向认知服务的用户意图识别方法,其特征在于所述概念共现增强语义模型包括概念标注模块、编码模块、注意力机制模块、意图识别模块,其中:
概念标注模块使用ERNIE和条件随机场组成的神经网络对查询文本自动标注概念标签,得到文本中用户提及的已知概念并采用独热编码的方式得到概念特征向量;
编码模块使用ERNIE通过自注意力机制捕获...

【专利技术属性】
技术研发人员:涂志莹张柏林杭少石初佃辉
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1