一种智能理解用户查询意图的方法及系统技术方案

技术编号：22261448 阅读：25 留言：0更新日期：2019-10-10 14:24

本发明专利技术公开了一种智能理解用户查询意图的方法及系统，其实现过程为输入查询语句，结合词典，进行分词处理；对分词结果进行词性标注；对标注词性后词语进行命名实体识别；通过命名实体识别的结果和设定的语法规则，进行语法解析，获得用户查询意图。本发明专利技术方法针对贷款审计行业中行文特点，对输入的查询语句逐层分析，深入地理解用户查询意图，在保证准确性的前提下，提高了查询效率。

A Method and System for Intelligently Understanding User's Query Intention

全部详细技术资料下载

【技术实现步骤摘要】
一种智能理解用户查询意图的方法及系统
本专利技术涉及自然语言处理技术，具体涉及一种智能理解用户查询意图的方法及系统。
技术介绍
用户查询意图的理解与处理旨在通过对用户输入查询的建模、分析和处理。理解用户查询的意图，利于提高信息检索的质量和用户体验。现有通用搜索的特点是抓取互联网/数据库上的一切有价值的信息同时建立索引，以关键字匹配为基本检索方式。传统的通用搜索引擎中，由于其要适用广泛的要求，其智能性往往不高；因为提高其智能性必定大幅降低搜索的效率，让搜索引擎不堪重负。因此，通用的搜索引擎在信息查找时往往存在很多的缺陷，大多数用户并不能十分准确地用查询词表达自己的搜索意图，而使得搜索引擎无法提供精准、高效、个性化的搜索服务，甚至根本就搜索不到用户真正需要查找的信息。到目前为止，关于用户查询意图理解的研究有很多，但在面向主题的用户查询意图理解中还存在以下问题：(1)现有的查询搜索方法中多是基于简短的关键字或特定格式模版的查询，能查询的输入长度十分有限，在输入一句较长文本的情况下，大多时候会被截断并忽略处理，使得用户查询意图无法正确获取；(2)对于输入完整语句的查询算法中，没有较好的利用语句中的关键实体和句法结构带来的有用信息。本专利技术人了解到，贷款审计行业中存在大量文档阅读审计的需求，阅读量大需要根据文档内容进行理解、判断进行决策。由于文本中大量都是非结构化或半结构化的数据，且写文档的人水平思路又不尽相同，造成人在审阅过程中所有内容都需要进行理解查看，而实际需要重点关注的内容其实并不多或者不同部门的人关注的内容不同，如在财务报表中，存在着大量的非结构化数据，...

【技术保护点】
1.一种智能理解用户查询意图的方法，其特征在于，该方法包括步骤：步骤110，输入查询语句，结合词典，进行分词处理；步骤120，对分词结果进行词性标注；步骤130，对标注词性后词语进行命名实体识别；步骤140，通过命名实体识别的结果和设定的语法规则，进行语法解析，获得用户查询意图。

【技术特征摘要】
1.一种智能理解用户查询意图的方法，其特征在于，该方法包括步骤：步骤110，输入查询语句，结合词典，进行分词处理；步骤120，对分词结果进行词性标注；步骤130，对标注词性后词语进行命名实体识别；步骤140，通过命名实体识别的结果和设定的语法规则，进行语法解析，获得用户查询意图。2.根据权利要求1所述的方法，其特征在于，步骤110中，词典分为粗粒度词典和细粒度词典；粗粒度词典中词语的词长较长，输入查询语句中常用词或惯用词的词频较高或词长较长时，选用粗粒度词典；细粒度词典中词语的词长较短，输入查询语句中常用词或惯用词的词频低或词长较短时，选用细粒度词典。3.根据权利要求1所述的方法，其特征在于，步骤110中，分词方法可以为正向最大匹配法、逆向最匹配法、条件随机场模型或隐马尔可夫模型，优选为正向最大匹配法或条件随机场模型；更优选正向最大匹配法结合回溯机制或条件随机场模型进行分词。4.根据权利要求1所述的方法，其特征在于，步骤120中，采用隐马尔可夫模型进行词性标注；隐马尔可夫模型的构建过程包括：将手工标注词性的数据分为训练集和测试集，根据训练集中的样本数据训练得到隐马尔可夫模型；训练完成后，利用测试集中的样本数据，对隐马尔可夫模型进行测试，获得标注准确性高的模型。5.根据权利要求1所述的方法，其特征在于，步骤130中，利用条件随机场模型进行命名实体识别；条件随机场模型构建过程包括：采用BIO标注集，将BIO标注集分为训练集和测试集，根据训练集中的样本数据训练得到条件随机场模型；训练完成后，利用测试集中...

【专利技术属性】
技术研发人员：杨云飞，李超，吴雪军，
申请(专利权)人：鼎复数据科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人