一种基于本体的搜索意图优化方法及系统技术方案

技术编号:36933737 阅读:14 留言:0更新日期:2023-03-22 18:55
本发明专利技术涉及数据处理技术领域,提出一种基于本体的搜索意图优化方法及系统,应用于包含本体库的搜索引擎,包括以下步骤:获取用户提交的查询语句和/或关键词,并对其进行预处理,得到搜索词集;在本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集;对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集;对结果集进行基于本体的语义分析和共现分析,生成探索词及其共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索次之间的共现关系作为边,生成探索图并可视化显示;根据用户对于探索图的选择指令,对搜索词集进行更新后重新搜索匹配,或确定目标搜索结果条目,得到搜索意图优化结果。图优化结果。图优化结果。

【技术实现步骤摘要】
一种基于本体的搜索意图优化方法及系统


[0001]本专利技术涉及数据处理
,更具体地,涉及一种基于本体的搜索意图优化方法及系统。

技术介绍

[0002]本体(ontology)是共享概念模型的明确的形式化规范说明,其定义了概念以及概念与概念之间的关系。词汇是概念的指称,概念是思维的单元,人们的思想通过语言(词汇串)进行交流。本体为计算机建立了类人的概念体系,使人与人之间、人与计算机之间能基于共享概念进行语言交流。本体作为机器理解人类语言的知识组织方式,应用场景包括信息查找、分析、知识自动化等,提高这些场景的智能化水平。
[0003]用户在搜索作业中,很难在初次搜索时明确表达搜索意图。目前的搜索引擎大多是基于关键字匹配的搜索引擎,形成搜索结果集。然而,这些搜索引擎很少具有语义推理能力。如Google虽然采用了一些自然语言处理技术,例如,同义词扩展,但是它并不能解析概念之间的语义关系,这样在一定程度上导致了查准率的降低,使得查询返回结果并不是用户所满意的信息。当用户一次将意图表达为多个关键字时,可能存在没有结果条目;而当关键字较少的情况,又可能有大量的结果条目,这需要用户进行多次表达,反复尝试。且当搜索出现大量的结果条目时,用户需要进行筛选并二次搜索,存在作业繁琐,效率低的问题。

技术实现思路

[0004]本专利技术为克服上述现有技术所述的搜索作业中需要用户进行多次表达,搜索效率低的缺陷,提供一种基于本体的搜索意图优化方法及系统。
[0005]为解决上述技术问题,本专利技术的技术方案如下:一种基于本体的搜索意图优化方法,应用于包含本体库的搜索引擎,包括以下步骤:S1、获取用户提交的查询语句和/或关键词,并对其进行预处理,得到搜索词集;S2、根据所述搜索词集,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集;S3、对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集;S4、对所述结果集进行基于本体的语义分析和共现分析,生成探索词及其共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索次之间的共现关系作为边,生成探索图并可视化显示;S5、根据用户对于探索图的选择指令,对搜索词集进行更新后跳转执行S2步骤,或确定目标搜索结果条目,得到搜索意图优化结果。
[0006]进一步地,本专利技术还提出一种基于本体的搜索意图优化系统,其应用本专利技术提出的于本体的搜索优化方法,且应用于包含本体库的搜索引擎。所述系统包括:
采集模块,用于获取用户提交的查询语句和/或关键词,以及用户对于探索图的选择指令;预处理模块,用于对查询语句和/或关键词进行预处理,得到搜索词集;以及用于根据用户对于探索图的选择指令,对搜索词集进行更新;关注点匹配模块,用于与所述搜索引擎数据交互,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集;搜索匹配模块,用于与所述搜索引擎数据交互,对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集;探索图生成模块,用于对所述结果集进行基于本体的语义分析,生成探索词;对所述结果集进行基于本体的共现分析,生成关注点与探索词的共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索次之间的共现关系作为边,生成探索图;显示模块,用于将所述探索图生成模块输出的探索图进行可视化显示,以及显示相应关注点或探索词节点的结果条目。
[0007]进一步地,本专利技术还提出一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本专利技术提出的基于本体的搜索意图优化方法的步骤。
[0008]与现有技术相比,本专利技术技术方案的有益效果是:本专利技术基于本体的探索式搜索,基于用户关注点,动态提供结果集视图及探索图,给出了下一步有效表达的且与结果条目对应的推荐词,帮助用户提高用户意图表达效率和结果集的浏览效率,提升用户体验。此外,本专利技术基于探索图实现用户搜索意图的交互,以实现对结果目标集合的收敛,能够进一步深化表达,从而提高表达效率。
附图说明
[0009]图1为本专利技术的基于本体的搜索意图优化方法的流程图。
[0010]图2为实施例1的探索图示意图。
[0011]图3为实施例1的古诗搜索结果条目示意图。
[0012]图4为实施例1的工单搜索结果条目示意图。
[0013]图5为本专利技术的基于本体的搜索意图优化系统的架构图。
具体实施方式
[0014]附图仅用于示例性说明,不能理解为对本专利的限制;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0015]下面结合附图和实施例对本专利技术的技术方案做进一步的说明。
实施例1
[0016]本实施例提出一种基于本体的搜索意图优化方法,如图1所示,为本实施例的搜索优化方法的流程图。
[0017]本实施例提出的基于本体的搜索意图优化方法应用于包含本体库的搜索引擎,其中包括以下步骤:
S1、获取用户提交的查询语句和/或关键词,并对其进行预处理,得到搜索词集。
[0018]S2、根据所述搜索词集,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集。
[0019]S3、对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集。
[0020]S4、对所述结果集进行基于本体的语义分析和共现分析,生成探索词及其共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索次之间的共现关系作为边,生成探索图并可视化显示。
[0021]S5、根据用户对于探索图的选择指令,对搜索词集进行更新后跳转执行S2步骤,或确定目标搜索结果条目,得到搜索意图优化结果。
[0022]其中,所述搜索词集是搜索引擎在数据源中匹配搜索结果集的条件,其来源于用户输入的查询语句和/或关键词,并经过预处理得到。
[0023]对于用户输入的查询语句和/或关键词的预处理操作,可选地包括分词、关键词提取、虚词和停用词的过滤,以及关键词的扩展。
[0024]在一可选实施例中,对用户提交的查询语句和/或关键词进行预处理的步骤包括:1)对查询语句进行分词;2)对查询语句的关键词提取;3)对分词结果、提取的关键词和/或用户提交的关键词进行虚词和停用词的过滤。
[0025]进一步可选地,对经过预处理的搜索词集进行扩展,其中,将所述搜索词集中的词利用本体转换为概念,并提取出该概念的所有指称词后,补充在所述搜索词集中;和/或,提取与该概念匹配的上位概念和/或下位概念的所有指称词,补充在所述搜索词集中。
[0026]本实施例中的关注点是以符号表达的概念或概念关联组合。在以文本为主的搜索引擎中,关注点的表现形式是带符号的词链。而在探索图中,所述关注点是由一个或多个节点组成的节点路径。如图2所示,其中圈中部分内容表示关注点“宽带

终端设备”。
[0027]本实施例中的关注点在探索图上体现为由一个或多个节点组成的节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于本体的搜索意图优化方法,应用于包含本体库的搜索引擎,其特征在于,包括以下步骤:S1、获取用户提交的查询语句和/或关键词,并对其进行预处理,得到搜索词集;S2、根据所述搜索词集,在所述本体库中进行搜索匹配得到由词链或词子集组成的关注点候选集;S3、对于任一关注点,通过搜索引擎的搜索匹配,得到与该关注点中所有词同时匹配的结果集;S4、对所述结果集进行基于本体的语义分析和共现分析,生成探索词及其共现关系;以关注点作为节点,以探索词作为子节点,以关注点与探索次之间的共现关系作为边,生成探索图并可视化显示;S5、根据用户对于探索图的选择指令,对关注点进行更新后跳转执行S3步骤,或确定目标搜索意图节点,得到搜索意图优化结果。2.根据权利要求1所述的基于本体的搜索意图优化方法,其特征在于,所述S1步骤中,对用户提交的查询语句和/或关键词进行预处理的步骤包括:对查询语句进行分词;对查询语句的关键词提取;对分词结果、提取的关键词和/或用户提交的关键词进行虚词和停用词的过滤。3.根据权利要求2所述的基于本体的搜索意图优化方法,其特征在于,所述S1步骤中,还包括以下步骤:对经过预处理的搜索词集进行扩展,其中,将所述搜索词集中的词利用本体转换为概念,并提取出该概念的所有指称词后,补充在所述搜索词集中;和/或,提取与该概念匹配的上位概念和/或下位概念的所有指称词,补充在所述搜索词集中。4.根据权利要求1所述的基于本体的搜索意图优化方法,其特征在于,所述S2步骤中,对于词数为n的搜索词集{w1,...,w
n
},将其与所述本体库中的概念节点进行匹配,获得搜索词相应的同义词和/或搜索词在本体上概念的外延词组成词集{W1,...,W
n
},并构建关注点候选集;所述关注点候选集中的关注点为特殊词链集,由所述词集经过笛卡尔乘积连接形成的词链组成;所述关注点候选集中包括:(1)由成功匹配的n个概念词组成的词集,W1*W2*...*W
n
;(2)由成功匹配的n

k个概念词组成的词集,其中1 ≤ k < n,W
k
*...*W
n
;(3)由成功匹配的单个概念词组成的词集。5.根据权利要求4所述的基于本体的搜索意图优化方法,其特征在于,所述S2步骤中,还包括以下步骤:对所述关注点候选集进行优化筛选,其中,对所述关注点候选集中的词数量进行判断:若所述关注点候选集中的词数量小于预设的优化阈值m,则不对所述关注点候选集进行筛选;否则,从所述关注点候选集中保留业务对象实体作为关注点,滤除其他词;当业务对象实体的数量大于或等于优化阈值m时,从所述业务对象实体中选择在本体分层级结构中的下层节点中的m

1个节点;当同...

【专利技术属性】
技术研发人员:胡炜梅
申请(专利权)人:广州极天信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1