一种基于自然语言处理的智能搜索方法技术

技术编号:31615920 阅读:29 留言:0更新日期:2021-12-29 18:48
本发明专利技术公开了一种基于自然语言处理的智能搜索方法,所述的智能搜索方法采用智能搜索引擎,所述的智能搜索引擎包括括语义分析引擎和查询引擎;所述的语义分析引擎:分析查询实体、已知属性条件和变量属性,及其之间的关系,并且能做实体关联的逻辑推理,从而生成能准确描述用户查询意图的结构化语义表示;所述的查询引擎:根据语义分析引擎的结果,自动生成和执行对应的数据库查询语句(SQL),并返回查询结果。本发明专利技术解决了现有技术中检索速度慢、便捷度低以及准确性低的问题。捷度低以及准确性低的问题。捷度低以及准确性低的问题。

【技术实现步骤摘要】
一种基于自然语言处理的智能搜索方法


[0001]本专利技术涉及的是智能搜索、自然语言处理和知识图谱
,具体涉及一种基于自然语言处理的智能搜索方法。

技术介绍

[0002]传统的搜索方法包括目录式搜索、关键词搜索和模糊搜索。目录式搜素的数据库是以人工方式或半自动方式建立的,需要人工按照分类逐层填写、逐层进入检索,检索速度慢。关键词搜素哦的缺点是执行搜索后返回信息过多,存在很多无关信息,用户必须从结果中逐一进行筛选。要减少信息过载,就需要输入多个关键词进行辅助,渐进式查询。模糊搜索即同义词搜索,无法在最短时间内帮助用户最快找到所需要的准确信息。
[0003]现有传统搜索技术的页面分析所依据的是存在于页面之间的链接关系,主要采用关键词分解、匹配等方式来实现信息检索,它不能表示这些页面本身包含什么信息,不能很好地处理页面信息的语义,缺乏知识处理能力和理解能力。
[0004]随着搜索引擎的大力发展,搜索技术进一步的提高,搜索引擎进一步向智能化、个性化发展。近年来业界开始引入语义网、知识图谱等新一代信息搜索支撑技术,开展智能信息搜索引擎产品研发,在信息多样性、搜索便捷度、结果准确性等方面大幅提升用户搜索体验。
[0005]智能搜索是从知识理解和逻辑推理的角度,分析信息对象与检索请求的搜索方法。智能搜索与传统搜索引擎的最大差别在于搜索过程和结果的智能化,通过语义网、知识图谱等技术,能够充分表达信息对象的语义联系,有效地理解用户的信息检索需求和信息对象包含的内容,从而使得搜索引擎具备理解语义和有效推理的能力。

技术实现思路

[0006]针对现有技术上存在的不足,本专利技术目的是在于提供一种基于自然语言处理的智能搜索方法,解决了现有技术中检索速度慢、便捷度低以及准确性低的问题。
[0007]为了实现上述目的,本专利技术是通过如下的技术方案来实现:一种基于自然语言处理的智能搜索方法,包括以下步骤:
[0008]1、获取信息。通过公开渠道进行数据搜集。
[0009]2、解析存储数据。通过解析器将爬取的数据解析为适当格式,存储到数据库中,解析器包含类型分析器,格式分析器,用以针对复杂的数据类型与格式,并将其解析为统一格式;
[0010]3、整合分析数据。通过算法对数据进一步整合分析,这些算法包括数据去重算法,信息抽取算法,信息分类算法;
[0011]4、建立实体知识库。通过使用中文分词,词性标注,识别标注,规则匹配等技术,对信息进行段落/句子级别的结构分析,并提取出实体及关系。之后通过词向量模型,并经过倒排索引,关键词优化,相似度排名,实体关系匹配等步骤,建立实体知识库;
[0012]5、根据智能搜索引擎中的查询引擎返回检索结果。
[0013]所述的智能搜索方法采用智能搜索引擎,所述的智能搜索引擎包括括语义分析引擎和查询引擎;所述的语义分析引擎:分析查询实体、已知属性条件和变量属性,及其之间的关系,并且能做实体关联的逻辑推理,从而生成能准确描述用户查询意图的结构化语义表示。
[0014]所述的查询引擎:根据语义分析引擎的结果,自动生成和执行对应的数据库查询语句(SQL),并返回查询结果。
[0015]本专利技术具有以下有益效果:
[0016]1、技术先进性:基于文因自研的M

Parser语义解析器;精准、迅速理解查询语义;
[0017]2、高可扩展性:通过结构化数据自动配置系统;“零训练语料“冷启动:无需标注数据;
[0018]3、高可维护性:无需手工构建问题模板。
附图说明
[0019]下面结合附图和具体实施方式来详细说明本专利技术;
[0020]图1为本专利技术的系统基础架构图;
[0021]图2为本专利技术的语义分析器MPar示意图。
具体实施方式
[0022]为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术。
[0023]参照图1

2,本具体实施方式采用以下技术方案:一种基于自然语言处理的智能搜索方法,包括以下步骤:
[0024]1、获取信息。通过公开渠道进行数据搜集。
[0025]2、解析存储数据。通过解析器将爬取的数据解析为适当格式,存储到数据库中,解析器包含类型分析器,格式分析器,用以针对复杂的数据类型与格式,并将其解析为统一格式;
[0026]3、整合分析数据。通过算法对数据进一步整合分析,这些算法包括数据去重算法,信息抽取算法,信息分类算法;
[0027]4、建立实体知识库。通过使用中文分词,词性标注,识别标注,规则匹配等技术,对信息进行段落/句子级别的结构分析,并提取出实体及关系。之后通过词向量模型,并经过倒排索引,关键词优化,相似度排名,实体关系匹配等步骤,建立实体知识库;
[0028]5、根据智能搜索引擎中的查询引擎返回检索结果。
[0029]所述的智能搜索方法采用智能搜索引擎,所述的智能搜索引擎包括括语义分析引擎和查询引擎。
[0030]所述的语义分析引擎通过模拟人对问题的思考过程,对具体的问题进行拆解,最终生成一个语义图(semantic graph)。语义解析器利用前置模块识别出的命名实体、实体间关系,基于知识图谱或数据库构建和查询语句中的主体,然后通过问题分段和限制条件分析等步骤,解析出对问题主体的约束条件,最终生成语义图,送入查询引擎。由于本具体
实施方式要解决的是查询意图理解,其抽象语义可以用实体、属性要素及其关系来表示:
[0031]1、焦点实体:要查何种类型实体的信息。比如,是查询公司基本信息,还是融资融券信息。
[0032]2、待筛选的属性:问句中表达的筛选条件是针对哪个实体的哪个属性的,以及该属性取值的约束条件。比如,“融资买入额”这个属性要满足其值大于某个数值,比如1个亿。
[0033]3、查询的目标属性:对于焦点实体,需要查询它的何种信息,比如“市价总值”这个信息点。
[0034]另外,由于实体属性间的关联关系,复杂查询语义中会存在推理的成分。
[0035]本具体实施方式中的语义分析引擎直接采用了文因互联自研的语义分析器MPar。其通过数据预建模的模块建立的实体、属性、属性值模型,逐步进行属性值、已知属性、变量属性和实体分析,并判断可能的实体关联,最终生成语义图。该语义分析器是数据建模驱动,根据接入的不同领域数据,会生成不同的数据模型,从而识别出不同的实体并匹配出可能的关系。最终由一个高度抽象的消岐模块进行消岐。
[0036]本模块接收语义分析引擎输出的语义图,将语义分析结果转化为精细化的子查询关系,通过不同类型的查询组件执行相应的查询,最终由引擎检查合法性、统一处理后返回查询的结果。查询结合了语义分析的结果、业务的查询逻辑,以及对知识库的数据分析完成对查询的合理规划。整合过程分为两步,第一步是生成一种抽象的查询结构,其与底层的数据存储方式无关。第二步是生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的智能搜索方法,其特征在于,包括以下步骤:(1)、获取信息:通过公开渠道进行数据搜集;(2)、解析存储数据:通过解析器将爬取的数据解析为适当格式,存储到数据库中,解析器包含类型分析器,格式分析器,用以针对复杂的数据类型与格式,并将其解析为统一格式;(3)、整合分析数据:通过算法对数据进一步整合分析,这些算法包括数据去重算法,信息抽取算法,信息分类算法;(4)、建立实体知识库:通过使用中文分词,词性标注,识别标注,规则匹配等技术,对信息进行段落/句子级别的结构分析,并提取出实体及关系;之后通过词向量模型,并经过倒...

【专利技术属性】
技术研发人员:鲍捷张强宋劼陆晓晖
申请(专利权)人:合肥文因互联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1