基于知识库和深度学习的用户查询意图理解方法及系统技术方案

技术编号：22531930 阅读：90 留言：0更新日期：2019-11-13 09:12

本发明专利技术公开了一种基于知识库和深度学习的用户查询意图理解方法；本发明专利技术还公开了一种基于知识库和深度学习的用户查询意图理解系统；本发明专利技术的有益效果是：仅需要标注少量的种子查询语句，避免了人工去标注大量的样本数据；利用目前最全面的半结构化知识库‑维基百科，爬取其中与意图领域相关的所有概念，并以这些概念集合作为意图表示的工具，最大程度地保证覆盖查询语句中的概念特征；利用深度学习模型进行查询语句和维基概念的相似度匹配，以卷积神经网络(CNN)和长短期记忆网络(LSTM)提取文本的语义向量，相比于词袋法，该方法抽取的语义向量具有低纬度的特点，并有更加强大的语义特征表达能力。

Method and system of user's query intention understanding based on knowledge base and deep learning

The invention discloses a method for understanding user's query intention based on knowledge base and deep learning; the invention also discloses a system for understanding user's query intention based on knowledge base and deep learning; the beneficial effect of the invention is that only a small number of seed query statements need to be marked to avoid manually marking a large number of sample data; the most comprehensive semi-structured knowledge at present is used Library \u2011 Wikipedia, crawls all the concepts related to intention field, and takes these concept sets as the tool of intention expression to guarantee the concept features of covering query statements to the greatest extent; uses deep learning model to match the similarity between query statements and Wiki concepts, extracts the semantic vector of text by convolution neural network (CNN) and long-term memory network (LSTM) Compared with the word bag method, the semantic vector extracted by this method has the characteristics of low latitude, and has more powerful semantic feature expression ability.

全部详细技术资料下载

【技术实现步骤摘要】
基于知识库和深度学习的用户查询意图理解方法及系统
本专利技术属于用户查询意图理解方法和系统
，具体涉及一种基于知识库和深度学习的用户查询意图理解方法还涉及一种基于知识库和深度学习的用户查询意图理解系统。
技术介绍
用户查询意图的理解一直是搜索引擎技术中的核心问题，解决好此问题可以极大的提升用户体验。同时，随着人工智能的兴起，人机对话技术成为热点，而该技术也需要依托准确的用户查询意图理解。因此，如何准确理解用户查询意图的难题广泛地引起了学术界和工业界的关注。目前，查询意图理解的主流方法是机器学习方法。该类方法首先建立意图分类体系，然后获取各分类的训练语料，训练意图分类器，最后应用该分类器，获得查询文本的分类结果。然而，由于中文语言的博大精深，训练语料往往存在数据稀疏的问题，即语料不能覆盖大部分的中文表达，不能全面表达特定意图。当查询语句中的概念特征不被训练语料覆盖时，意图分类器将不能得出准确的结果。通过人工标注更多的语料数据或者采用一些半监督的方法可以部分克服这一弊端，但需要耗费大量的人力。再者，用户的查询语句通常比较简短，特征有限，查询语句的语义表示成为一个难题。传统的方法通常基于词袋模型，这种方法存在高纬度和高稀疏的问题，特征表达能力很弱，且忽略了上下文关系，无法提取出抽象的语义信息。解决好查询语句的概念特征覆盖问题和语义表达问题将会有助于准确理解用户查询意图，对搜索引擎优化和人机对话应用产生有益的效果；为此我们提出一种基于知识库和深度学习的用户查询意图理解方法及系统。
技术实现思路
本专利技术的目的在于提供一种基于知识库和深度学习的用户查询意图理解方...

【技术保护点】
1.一种基于知识库和深度学习的用户查询意图理解方法，其特征在于：包括如下步骤：步骤一：以特定意图领域的种子查询为起点，爬取中文维基百科知识库内与该领域相关的概念和分类标签；步骤二：建立特定领域的概念链接图；步骤三：利用随机游走算法，计算得到链接图中的概念节点属于特定意图领域的概率；步骤四：获取用户查询语句，检索已建立的链接图，若概念节点覆盖了语句，则直接返回概念；否则利用深度学习模型，对查询语句和各个维基概念进行匹配打分，找到其中与查询语句最相似的前K个概念，并返回；步骤五：获取步骤四中返回的概念，利用步骤三中计算出的概念的意图概率，加和得出语句属于特定意图领域的概率，并与相应的阈值比较，判断是否属于该意图。

【技术特征摘要】
1.一种基于知识库和深度学习的用户查询意图理解方法，其特征在于：包括如下步骤：步骤一：以特定意图领域的种子查询为起点，爬取中文维基百科知识库内与该领域相关的概念和分类标签；步骤二：建立特定领域的概念链接图；步骤三：利用随机游走算法，计算得到链接图中的概念节点属于特定意图领域的概率；步骤四：获取用户查询语句，检索已建立的链接图，若概念节点覆盖了语句，则直接返回概念；否则利用深度学习模型，对查询语句和各个维基概念进行匹配打分，找到其中与查询语句最相似的前K个概念，并返回；步骤五：获取步骤四中返回的概念，利用步骤三中计算出的概念的意图概率，加和得出语句属于特定意图领域的概率，并与相应的阈值比较，判断是否属于该意图。2.根据权利要求1所述的一种基于知识库和深度学习的用户查询意图理解方法，其特征在于：所述步骤一包括：S11标注少量的特定意图领域的查询语句，将语句中的概念作为种子概念；S12找到种子概念对应的维基百科概念和概念的分类标签，以此为起点，并利用分类标签的母分类标签和子分类标签，分类标签对相关概念的包含关系和概念之间的链接关系3种关系，爬虫获得与该特定意图领域相关的所有维基百科概念、分类标签及概念的文章摘要。3.根据权利要求1所述的一种基于知识库和深度学习的用户查询意图理解方法，其特征在于：所述步骤二包括：S21以步骤S12爬取得到的m个概念和n个分类标签作为节点，若分类标签存在上下位关系、分类标签和概念存在包含关系、概念之间存在有效链接关系，则相应的分类标签之间、概念之间、分类标签与概念之间存在边，所有的节点与边共同构成无向链接图；S22记录概念间有效链接的次数，获得链接图的维度为(m+n)×(m+n)的权重矩阵W，其中元素Wij表示第i个节点和第j个节点之间的链接次数。4.根据权利要求3所述的一种基于知识库和深度学习的用户查询意图理解方法，其特征在于：步骤S21和步骤S22中的有效链接的定义是：若A概念和B概念在其百科文章中相互链接，则A概念和B概念存在有效链接。5.根据权利要求1所述的一...

【专利技术属性】
技术研发人员：叶正，潘申龄，
申请(专利权)人：深圳市思拓智联科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人