基于知识库和深度学习的用户查询意图理解方法及系统技术方案

技术编号:22531930 阅读:90 留言:0更新日期:2019-11-13 09:12
本发明专利技术公开了一种基于知识库和深度学习的用户查询意图理解方法;本发明专利技术还公开了一种基于知识库和深度学习的用户查询意图理解系统;本发明专利技术的有益效果是:仅需要标注少量的种子查询语句,避免了人工去标注大量的样本数据;利用目前最全面的半结构化知识库‑维基百科,爬取其中与意图领域相关的所有概念,并以这些概念集合作为意图表示的工具,最大程度地保证覆盖查询语句中的概念特征;利用深度学习模型进行查询语句和维基概念的相似度匹配,以卷积神经网络(CNN)和长短期记忆网络(LSTM)提取文本的语义向量,相比于词袋法,该方法抽取的语义向量具有低纬度的特点,并有更加强大的语义特征表达能力。

Method and system of user's query intention understanding based on knowledge base and deep learning

The invention discloses a method for understanding user's query intention based on knowledge base and deep learning; the invention also discloses a system for understanding user's query intention based on knowledge base and deep learning; the beneficial effect of the invention is that only a small number of seed query statements need to be marked to avoid manually marking a large number of sample data; the most comprehensive semi-structured knowledge at present is used Library \u2011 Wikipedia, crawls all the concepts related to intention field, and takes these concept sets as the tool of intention expression to guarantee the concept features of covering query statements to the greatest extent; uses deep learning model to match the similarity between query statements and Wiki concepts, extracts the semantic vector of text by convolution neural network (CNN) and long-term memory network (LSTM) Compared with the word bag method, the semantic vector extracted by this method has the characteristics of low latitude, and has more powerful semantic feature expression ability.

【技术实现步骤摘要】
基于知识库和深度学习的用户查询意图理解方法及系统
本专利技术属于用户查询意图理解方法和系统
,具体涉及一种基于知识库和深度学习的用户查询意图理解方法还涉及一种基于知识库和深度学习的用户查询意图理解系统。
技术介绍
用户查询意图的理解一直是搜索引擎技术中的核心问题,解决好此问题可以极大的提升用户体验。同时,随着人工智能的兴起,人机对话技术成为热点,而该技术也需要依托准确的用户查询意图理解。因此,如何准确理解用户查询意图的难题广泛地引起了学术界和工业界的关注。目前,查询意图理解的主流方法是机器学习方法。该类方法首先建立意图分类体系,然后获取各分类的训练语料,训练意图分类器,最后应用该分类器,获得查询文本的分类结果。然而,由于中文语言的博大精深,训练语料往往存在数据稀疏的问题,即语料不能覆盖大部分的中文表达,不能全面表达特定意图。当查询语句中的概念特征不被训练语料覆盖时,意图分类器将不能得出准确的结果。通过人工标注更多的语料数据或者采用一些半监督的方法可以部分克服这一弊端,但需要耗费大量的人力。再者,用户的查询语句通常比较简短,特征有限,查询语句的语义表示成为一个难题。传统的方法通常基于词袋模型,这种方法存在高纬度和高稀疏的问题,特征表达能力很弱,且忽略了上下文关系,无法提取出抽象的语义信息。解决好查询语句的概念特征覆盖问题和语义表达问题将会有助于准确理解用户查询意图,对搜索引擎优化和人机对话应用产生有益的效果;为此我们提出一种基于知识库和深度学习的用户查询意图理解方法及系统。
技术实现思路
本专利技术的目的在于提供一种基于知识库和深度学习的用户查询意图理解方法及系统,以解决上述
技术介绍
中提出的传统的方法通常基于词袋模型,这种方法存在高纬度和高稀疏的问题,特征表达能力很弱,且忽略了上下文关系,无法提取出抽象的语义信息的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于知识库和深度学习的用户查询意图理解方法,包括如下步骤:步骤一:以特定意图领域的种子查询为起点,爬取中文维基百科知识库内与该领域相关的概念和分类标签;步骤二:建立特定领域的概念链接图;步骤三:利用随机游走算法,计算得到链接图中的概念节点属于特定意图领域的概率;步骤四:获取用户查询语句,检索已建立的链接图,若概念节点覆盖了语句,则直接返回概念;否则利用深度学习模型,对查询语句和各个维基概念进行匹配打分,找到其中与查询语句最相似的前K个概念,并返回;步骤五:获取步骤四中返回的概念,利用步骤三中计算出的概念的意图概率,加和得出语句属于特定意图领域的概率,并与相应的阈值比较,判断是否属于该意图。作为本专利技术的一种优选的技术方案,所述步骤一包括:S11标注少量的特定意图领域的查询语句,将语句中的概念作为种子概念;S12找到种子概念对应的维基百科概念和概念的分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,分类标签对相关概念的包含关系和概念之间的链接关系3种关系,爬虫获得与该特定意图领域相关的所有维基百科概念、分类标签及概念的文章摘要。作为本专利技术的一种优选的技术方案,所述步骤二包括:S21以步骤S12爬取得到的m个概念和n个分类标签作为节点,若分类标签存在上下位关系、分类标签和概念存在包含关系、概念之间存在有效链接关系,则相应的分类标签之间、概念之间、分类标签与概念之间存在边,所有的节点与边共同构成无向链接图;S22记录概念间有效链接的次数,获得链接图的维度为(m+n)×(m+n)的权重矩阵W,其中元素Wij表示第i个节点和第j个节点之间的链接次数。作为本专利技术的一种优选的技术方案,步骤S21和步骤S22中的有效链接的定义是:若A概念和B概念在其百科文章中相互链接,则A概念和B概念存在有效链接。作为本专利技术的一种优选的技术方案,所述步骤四包括:S41获取用户查询语句,检索已建立的链接图,判断语句是否被概念节点所覆盖;S42若S41判断结果为是,则直接返回概念;S43若S41判断结果为否,将查询语句和各个维基概念的文本输入深度学习模型中,获得两者的匹配得分,得分越高,说明两者的相似度越高,返回前K个最相似的概念。作为本专利技术的一种优选的技术方案,步骤S43中的维基概念的文本为该概念的文章摘要。作为本专利技术的一种优选的技术方案,步骤S43中的深度学习模型包括输入层、表示层和匹配层三个层次结构。作为本专利技术的一种优选的技术方案,对于特定领域的意图理解问题,可将其当作一个二分类问题;对于多个领域的意图理解问题,可将其当作多个特定领域的意图理解问题,即多个二分类问题。本专利技术还公开了一种基于知识库和深度学习的用户查询意图理解系统,包括:数据爬取模块:爬取与特定意图领域相关的维基百科概念、分类标签,以及概念的文章摘要;链接图构建模块:将爬取的概念和分类标签作为节点,记录其中有链接关系的节点,计算概念间相互链接的次数,并生成特定意图领域的链接权重矩阵;链接图计算模块:实施链接图的随机游走算法,包括:生成初始状态向量、转移矩阵,迭代计算直至稳定状态,获得稳定状态向量;模型构建模块:用于深度学习模型的搭建和训练,获得可以进行查询语句和概念文本相似度匹配的深度神经网络模型;链接图检索模块:获取查询语句,检索链接图,判断查询语句是否被链接图中的概念覆盖,如果是,则返回该概念;模型应用模块:获取查询语句和维基概念文本,输入深度学习模型中,进行相似度匹配,返回前K个最相关的概念;意图判断模块:获取前述模块返回的概念和其属于特定意图领域的概率,相加得到查询语句的概率,与相应的阈值相比较,判断其是否属于特定意图与现有技术相比,本专利技术的有益效果是:(1)仅需要标注少量的种子查询语句,避免了人工去标注大量的样本数据;(2)利用目前最全面的半结构化知识库-维基百科,爬取其中与意图领域相关的所有概念,并以这些概念集合作为意图表示的工具,最大程度地保证覆盖查询语句中的概念特征;(3)利用深度学习模型进行查询语句和维基概念的相似度匹配,以卷积神经网络(CNN)和长短期记忆网络(LSTM)提取文本的语义向量,相比于词袋法,该方法抽取的语义向量具有低纬度的特点,并有更加强大的语义特征表达能力。附图说明图1为本专利技术的方法流程图;图2为本专利技术的深度学习模型结构图;图3为本专利技术的系统结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。意图识别问题就是让搜索引擎或者人机对话等应用等能够识别出与用户输入的查询最相关的信息;例如用户在搜索引擎中输入查询“今天多少度”时,通过用户意图识别发现该用户是想了解天气,直接把今天当地的天气情况作为结果返回给用户,就会节省用户的搜索点击次数,缩短搜索时间,大大提升使用体验。请参阅图1、图2和图3,本专利技术提供一种技术方案:一种基于知识库和深度学习的用户查询意图理解方法,包括如下步骤:步骤一:以特定意图领域的种子查询为起点,爬取中文维基百科知识库内与该领域相关的概念和分类标签;包括:S11标注少量的特定意图领域的查询语句,将语句中的概念作为种子概本文档来自技高网
...

【技术保护点】
1.一种基于知识库和深度学习的用户查询意图理解方法,其特征在于:包括如下步骤:步骤一:以特定意图领域的种子查询为起点,爬取中文维基百科知识库内与该领域相关的概念和分类标签;步骤二:建立特定领域的概念链接图;步骤三:利用随机游走算法,计算得到链接图中的概念节点属于特定意图领域的概率;步骤四:获取用户查询语句,检索已建立的链接图,若概念节点覆盖了语句,则直接返回概念;否则利用深度学习模型,对查询语句和各个维基概念进行匹配打分,找到其中与查询语句最相似的前K个概念,并返回;步骤五:获取步骤四中返回的概念,利用步骤三中计算出的概念的意图概率,加和得出语句属于特定意图领域的概率,并与相应的阈值比较,判断是否属于该意图。

【技术特征摘要】
1.一种基于知识库和深度学习的用户查询意图理解方法,其特征在于:包括如下步骤:步骤一:以特定意图领域的种子查询为起点,爬取中文维基百科知识库内与该领域相关的概念和分类标签;步骤二:建立特定领域的概念链接图;步骤三:利用随机游走算法,计算得到链接图中的概念节点属于特定意图领域的概率;步骤四:获取用户查询语句,检索已建立的链接图,若概念节点覆盖了语句,则直接返回概念;否则利用深度学习模型,对查询语句和各个维基概念进行匹配打分,找到其中与查询语句最相似的前K个概念,并返回;步骤五:获取步骤四中返回的概念,利用步骤三中计算出的概念的意图概率,加和得出语句属于特定意图领域的概率,并与相应的阈值比较,判断是否属于该意图。2.根据权利要求1所述的一种基于知识库和深度学习的用户查询意图理解方法,其特征在于:所述步骤一包括:S11标注少量的特定意图领域的查询语句,将语句中的概念作为种子概念;S12找到种子概念对应的维基百科概念和概念的分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,分类标签对相关概念的包含关系和概念之间的链接关系3种关系,爬虫获得与该特定意图领域相关的所有维基百科概念、分类标签及概念的文章摘要。3.根据权利要求1所述的一种基于知识库和深度学习的用户查询意图理解方法,其特征在于:所述步骤二包括:S21以步骤S12爬取得到的m个概念和n个分类标签作为节点,若分类标签存在上下位关系、分类标签和概念存在包含关系、概念之间存在有效链接关系,则相应的分类标签之间、概念之间、分类标签与概念之间存在边,所有的节点与边共同构成无向链接图;S22记录概念间有效链接的次数,获得链接图的维度为(m+n)×(m+n)的权重矩阵W,其中元素Wij表示第i个节点和第j个节点之间的链接次数。4.根据权利要求3所述的一种基于知识库和深度学习的用户查询意图理解方法,其特征在于:步骤S21和步骤S22中的有效链接的定义是:若A概念和B概念在其百科文章中相互链接,则A概念和B概念存在有效链接。5.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:叶正潘申龄
申请(专利权)人:深圳市思拓智联科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1