一种智能理解用户查询意图的方法及系统技术方案

技术编号:22261448 阅读:25 留言:0更新日期:2019-10-10 14:24
本发明专利技术公开了一种智能理解用户查询意图的方法及系统,其实现过程为输入查询语句,结合词典,进行分词处理;对分词结果进行词性标注;对标注词性后词语进行命名实体识别;通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。本发明专利技术方法针对贷款审计行业中行文特点,对输入的查询语句逐层分析,深入地理解用户查询意图,在保证准确性的前提下,提高了查询效率。

A Method and System for Intelligently Understanding User's Query Intention

【技术实现步骤摘要】
一种智能理解用户查询意图的方法及系统
本专利技术涉及自然语言处理技术,具体涉及一种智能理解用户查询意图的方法及系统。
技术介绍
用户查询意图的理解与处理旨在通过对用户输入查询的建模、分析和处理。理解用户查询的意图,利于提高信息检索的质量和用户体验。现有通用搜索的特点是抓取互联网/数据库上的一切有价值的信息同时建立索引,以关键字匹配为基本检索方式。传统的通用搜索引擎中,由于其要适用广泛的要求,其智能性往往不高;因为提高其智能性必定大幅降低搜索的效率,让搜索引擎不堪重负。因此,通用的搜索引擎在信息查找时往往存在很多的缺陷,大多数用户并不能十分准确地用查询词表达自己的搜索意图,而使得搜索引擎无法提供精准、高效、个性化的搜索服务,甚至根本就搜索不到用户真正需要查找的信息。到目前为止,关于用户查询意图理解的研究有很多,但在面向主题的用户查询意图理解中还存在以下问题:(1)现有的查询搜索方法中多是基于简短的关键字或特定格式模版的查询,能查询的输入长度十分有限,在输入一句较长文本的情况下,大多时候会被截断并忽略处理,使得用户查询意图无法正确获取;(2)对于输入完整语句的查询算法中,没有较好的利用语句中的关键实体和句法结构带来的有用信息。本专利技术人了解到,贷款审计行业中存在大量文档阅读审计的需求,阅读量大需要根据文档内容进行理解、判断进行决策。由于文本中大量都是非结构化或半结构化的数据,且写文档的人水平思路又不尽相同,造成人在审阅过程中所有内容都需要进行理解查看,而实际需要重点关注的内容其实并不多或者不同部门的人关注的内容不同,如在财务报表中,存在着大量的非结构化数据,但经常更关注各个指标与对应数值而不需要阅读全部文字内容,从而造成人力浪费严重;进而可能需要将非结构化或半结构化的数据转化为结构化数据,或者分析非结构化或半结构化的数据中的信息对,获得匹配的指标与对应数值。但不论是将非结构化或半结构化的数据转化为结构化数据,还是分析非结构化或半结构化的数据中的信息对,理解文档中表述的意图是基本前提。面对大量的阅读需求,有必要采用自动化智能理解技术,通过语法解析获取关键词(或实体)依存关系,对文档进行理解。人们通过语法解析后输出结果,即可获得文档语义及关键词表达。基于上述问题,亟需开发一种智能理解用户查询意图的方法,该方法不受查询输入长度限制,且能较好利用关键词,快速、准确判断用户查询意图(即查询文档内容),为准确及时的对查询信息进行反馈提供支持。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究,基于用户大量的查询输入和主题特点,结合关键词和特定主题,提出了一种经分词、词性分析、命名实体识别和自底向上的句法结构分析,逐层深入地理解用户查询意图的方法,从而完成本专利技术。本专利技术的目的在于提供以下技术方案:(1)一种智能理解用户查询意图的方法,所述方法包括:步骤110,输入查询语句,结合词典,进行分词处理;步骤120,对分词结果进行词性标注;步骤130,对标注词性后词语进行命名实体识别;步骤140,通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。(2)一种用于实现上述(1)所述方法的智能理解用户查询意图的系统,所述系统包括:分词模块,用于结合词典,对输入的查询语句进行分词处理;词性标注模块,用于对分词结果进行词性标注;命名实体识别模块,对标注词性后词语进行命名实体识别;语法解析模块,用于通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。根据本专利技术提供的一种智能理解用户查询意图的方法及系统,具有以下有益效果:(1)本专利技术中,词典为字典树结构,且词典中词语与应用领域密切相关,根据贷款审计行业行文用语对词典中词语进行筛选,以降低数据占用空间,提高分词词语查找速度;而粗粒度词典和细粒度词典的设置,便于针对不同类文档进行分词。(2)本专利技术中,采用正向最大匹配法结合回溯机制进行分词,在保证分词准确性的前提下,相较于逆向最匹配法或隐马尔可夫模型,极大提高了分词效率。(3)本专利技术中,采用隐马尔可夫模型进行词性标注,词性种类设置疏密度依据贷款审计行业词性种类专门设计,相较于现有的词性分类系统,有效词语针对性得到提高,在获得有效信息的前提下,相对地降低了系统操作繁琐性。(4)本专利技术中,输入的查询语句的语法规则以CFG表示,并等价转换为CNF形式,再使用CYK算法进行语法解析,通过上述自然语言处理过程,对输入查询语言的理解准确性极高,且处理难度降低,提高了处理速度。附图说明图1示出根据本专利技术一种优选实施方式的智能理解用户查询意图的方法流程示意图。图2示出本专利技术实施例2中的简易意图查询过程。具体实施方式下面通过附图和实施例对本专利技术示例性详细说明。通过这些说明,本专利技术的特点和优点将变得更为清楚明确。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。根据本专利技术提供的一种智能理解用户查询意图的方法,该方法用于对贷款审计行业中文档进行理解。如图1所示,所述方法使用自然语言处理技术,通过对用户输入的语句进行分词、词性标注、命名实体识别、和句法分析,逐层对输入语句进行分析和理解,进而识别查询意图。具体地,本专利技术提供的一种智能理解用户查询意图的方法,包括以下步骤:步骤110,输入查询语句,结合词典,进行分词处理;步骤120,对分词结果进行词性标注;步骤130,对标注词性后词语进行命名实体识别;步骤140,通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。步骤110,输入查询语句,结合词典,进行分词处理。本专利技术中,所述词典是指包括有常用的或固定的词语的数据库,其是分词的基准,通过比照词典以使输入的查询语句转化为具有最大字符长度的独立词语。词典中词语与应用领域密切相关,针对应用领域不同,需要对词典中词语进行筛选,以降低数据占用空间,提高分词词语查找速度。本专利技术中方法针对理解贷款审计行业中文档设计而成,输入的查询语句也多涉及该领域,基于这种主题性和专业性,词典则为包括该领域中常用的或固定的词语的数据库,例如包含词语“净利润”、“收益”、“股票”、“债券”、“煤炭”等,而可能并不包含“犯罪”、“刑法”等词语;通过对词语进行筛选再收录至词典中,在满足词语查询的前提下,降低了查询周期。现有技术中,词典的设置普遍为列表(list)形式,在设定规律下(如字母表的顺序a-z)排列。该方式的优点在于排布简单,可按照排布规律准确查到词语;然而,通常字典中数据量较大,采用列表形式需要占用较大存储空间,且需核查众多词语后才能确定目标词语,效率低。举例如下:输入“财务部2017年1月支出20万元”,分词后得到的第一个词语应当为“财务部”,分词时,在词典中查找到“财务”后并不能确定为最长字符,进一步查到“财务部”,再次确定“财务部2”已不能构成词语时,才能确定“财务部”为目标词语。本专利技术中,将列表形式词典转换为字典树结构,该字典树结构以根节点作为起始,通过子节点进行延伸;根节点不包含字符,除根节点外每一个节点都只包含一个字符;从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;每个节点的所有子节点包含的字符都不相同。在此,对英文本文档来自技高网
...

【技术保护点】
1.一种智能理解用户查询意图的方法,其特征在于,该方法包括步骤:步骤110,输入查询语句,结合词典,进行分词处理;步骤120,对分词结果进行词性标注;步骤130,对标注词性后词语进行命名实体识别;步骤140,通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。

【技术特征摘要】
1.一种智能理解用户查询意图的方法,其特征在于,该方法包括步骤:步骤110,输入查询语句,结合词典,进行分词处理;步骤120,对分词结果进行词性标注;步骤130,对标注词性后词语进行命名实体识别;步骤140,通过命名实体识别的结果和设定的语法规则,进行语法解析,获得用户查询意图。2.根据权利要求1所述的方法,其特征在于,步骤110中,词典分为粗粒度词典和细粒度词典;粗粒度词典中词语的词长较长,输入查询语句中常用词或惯用词的词频较高或词长较长时,选用粗粒度词典;细粒度词典中词语的词长较短,输入查询语句中常用词或惯用词的词频低或词长较短时,选用细粒度词典。3.根据权利要求1所述的方法,其特征在于,步骤110中,分词方法可以为正向最大匹配法、逆向最匹配法、条件随机场模型或隐马尔可夫模型,优选为正向最大匹配法或条件随机场模型;更优选正向最大匹配法结合回溯机制或条件随机场模型进行分词。4.根据权利要求1所述的方法,其特征在于,步骤120中,采用隐马尔可夫模型进行词性标注;隐马尔可夫模型的构建过程包括:将手工标注词性的数据分为训练集和测试集,根据训练集中的样本数据训练得到隐马尔可夫模型;训练完成后,利用测试集中的样本数据,对隐马尔可夫模型进行测试,获得标注准确性高的模型。5.根据权利要求1所述的方法,其特征在于,步骤130中,利用条件随机场模型进行命名实体识别;条件随机场模型构建过程包括:采用BIO标注集,将BIO标注集分为训练集和测试集,根据训练集中的样本数据训练得到条件随机场模型;训练完成后,利用测试集中...

【专利技术属性】
技术研发人员:杨云飞李超吴雪军
申请(专利权)人:鼎复数据科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1