一种基于语义关联网络的启发式查询扩展方法技术

技术编号:17541616 阅读:31 留言:0更新日期:2018-03-24 18:38
本发明专利技术公开一种基于语义关联网络的启发式查询扩展方法,其步骤为:1)在语料库的基础上,结合本体中抽取的概念,建立关联图;2)在所述关联图和查询的基础上,通过启发式查询扩展,得到关联语义上的扩展式查询。本发明专利技术可以保证查询扩展的合理性和准确性。该发明专利技术的最终结果可以提供给相关领域的用户使用,例如应急救援、图书推荐等领域,可以真实地反映用户需求的结果。

A heuristic query extension method based on semantic association network

【技术实现步骤摘要】
一种基于语义关联网络的启发式查询扩展方法
本专利技术属于信息查询
,具体涉及一种基于语义关联网络的启发式查询扩展方法。
技术介绍
随着信息通讯技术及其相关应用的飞速发展,各种来源的数据,如互联网网页数据、社交网络数据、移动通讯数据、交通数据、物联网采样数据等急剧膨胀,极大地改变了人们的生产与生活模式。传统的查询技术已经无法满足用户的检索需求,如何有效地利用这些数据进行查询服务,是研究者们面临的重大挑战之一。数据的查询除了简单的关键词查询、时空查询、数值查询之外,还包括更加复杂的启发式关联查询。通过关联语义得到启发式的扩展查询,可以为最终决策提供有力支持。因此启发式关联查询具有重要的研究价值与广阔的应用前景,如在应急救援领域中,实时查询某一灾害,可以衍生查询出类似灾害、救援方式、灾害区域附近的救援力量、医院分布情况等,为救援起积极指导作用;在图书查询系统中,通过用户输入的关键词,推荐类似书籍或作者的其他系列书籍等,更全面地满足用户需求;在电商推荐系统中,分析用户的购买数据,发现用户购物行为的关联关系,向其推荐感兴趣的商品。可以说,启发式关联查询技术已经得到了人们日益广泛的重视。传统的信息检索技术根据查询关键词进行匹配检索,为文本集中每个词建立精确的定位并提供检索。全文检索是典型的信息检索系统,它允许用户从全文的任意结构中查找。查询扩展是在原始查询词的基础上,通过一定的方法和策略将与原查询词相关的扩展词添加到查询中,形成能更准确表达查询意图的新查询。总体上来说,查询扩展技术可以分为三类:基于全局与局部分析的查询扩展、基于查询日志的查询扩展和基于语义概念的查询扩展。第一类主要依据文档中词语之间的共现信息来发现其相似性,从而实现查询扩展;第二类是通过分析用户的查询日志,建立查询空间与文档空间之间的联系进行扩展;第三类是从语义概念层面上对查询进行扩展]。然而,传统的检索技术只能根据关键词进行匹配,忽略了语义在查询中的作用,无法实现关联式的启发查询。查询扩展方法从统计或语义的角度出发进行研究,但是都没有考虑时间因素,且忽略了扩展词之间的关联路径。启发式查询的合理定义与描述、语义关联网络的构建方法、启发式查询扩展方法等,没有得到有效的研究与解决,对这些关键技术问题有待进一步的研究。
技术实现思路
针对上述尚没有解决的关键问题,本专利技术提出了一种基于语义关联网络的启发式查询扩展方法,目的是为查询词进行语义扩展提供一种可行的解决方案,从而搜索出相关联的数据对象。为实现上述目的,本专利技术采用如下的技术方案:一种基于语义关联网络的启发式查询扩展方法包括以下步骤:步骤1、根据本体中抽取的概念,建立关联图,其中,所述关联图用RG=(V,E)表示,V是节点的集合,v是一个概念,用语义标签A表示;E是边的集合,e=(vi,vj,rw)表示vi和vj之间有关联,且其关联权重为rw;所述查询用Q=(A1,A2,…,Am)表示,Ai表示第i个查询条件对应的概念;步骤2、根据查询Q和关联图RG,构造最小查询生成树MQST,同时根据所述最小查询生成树MQST对查询中的节点进一步进行有效路径扩展。作为优选,步骤1构建关联图的方法包括如下:步骤1-1、从本体中抽取领域内的概念集AS,将概念集中的概念作为关联图的节点,并初始化各概念对之间的关联权重为0;步骤1-2、抽取窗口Wd内的关联矩阵集合RMS’,并累加计算节点间的关联度的时间权重的加权和;步骤1-3、计算节点间的关联权重,若存在关联,则添加关联图的边。作为优选,步骤1-2所述关联矩阵的计算方法包括如下:步骤1-2-1、从本体中抽取领域内的概念集AS,然后扫描文本集ST,查看每个概念是否在ST中出现,初始化统计矩阵OM,其中,所述文本集用ST=(st1,st2,…,stn)表示,统计矩阵OM记录概念是否在文本中出现,其中,行表示文本,列表示概念,OM[i,j]表示第j个概念是否在第i个文本中出现;步骤1-2-2、逐个计算共现率和关联度,如果满足强关联条件,即共现率大于等于最小共现率且关联度大于等于最小关联度,将其保存在关联矩阵RM中,其中,在所述文本集ST=(st1,st2,…,stn)中,概念的A1和A2的共现率为其中表示A1和A2在sti中的共现情况;概念的A1和A2的关联度为其中CP(A1,A2)是A1和A2在ST中的共现率,OP(Ai)是Ai在ST中出现的概率;统计矩阵RM记录概念之间的共现率和关联度,其中行、列表示概念,RM[i,j].cp表示第i个概念与第i个概念的共现率,RM[i,j].rp表示第i个概念与第i个概念的关联度。作为优选,步骤1-2中所述统计窗口用Wd={tk-n,tk-n+1,…,tk}表示;时间权重WT(tl,tk)=1/2(tk-tl),其中tk为当前的时间段,tl(l≤k)为任一时间段;步骤1-3中所述概念对(Ai,Aj)的关联权重为其中Wd为统计窗口,WT(tl,tk)为时间权重,是Ai、Aj在时间段tl的关联度。作为优选,,步骤2中所述最小查询生成树的构造方法包括如下:步骤2-1、从查询Q中随机选择一个节点作为开始节点,并初始化最小查询生成树MQST的节点集合V’和边集合E’;步骤2-2、对Q中的每一对概念(u,v),判断其是否路径可达,若可达,则在邻接表adj中保存可达节点,并使用矩阵M的M[u,v].sp和M[u,v].w分别保存RG中u、v之间的最短路径和其关联值;否则则分别设置为空和无穷大;步骤2-3、初始化权重数组weight和小顶堆Heap;步骤2-4、开始迭代计算,弹出堆Heap中weight最小的节点u,更新Q中u的每个路径可达节点v的weigh,保证其是v到MQST的最小关联值;步骤2-5、调整堆并将该路径中的节点和边添加至集合V’和E’中,直至Heap为空,即Q中的节点全部添加至MQST中,迭代结束。作为优选,步骤2-1所述关联图RG在查询Q下的查询生成树T满足:(1)T包含Q中的每一个节点;(2)T不包含环;(3)T是RG的一个连通子图;最小查询生成树MQST满足:W(MQST)=min{W(T)|T∈TS},其中TS={T1,T2,…,Tn}是满足RG和Q的所有查询生成树的集合。作为优选,步骤2-2所述判断路径是否可达的方法是采用Dijkstra算法预先计算RG中所有节点对之间的最短路径,并保存起来,执行步骤2-2时可直接查看是否可达。作为优选,步骤2-3所述权重weight[v]表示v到MQST的所有路径中的最小关联值;小顶堆Heap依据weight值构建并调整堆。作为优选,步骤2-4所述路径P的关联值其中rw(ei)是边ei的关联权重。作为优选,步骤2中有效路径扩展方法包括如下:步骤2-2-1、对查询Q=(v1,v2,…,vm)中每个节点vi进行有效路径扩展,其中,所述节点v的有效路径VP=(v’1,v’2,…,v’k)满足:(1)v等于有效路径VP的第一个节点v’1;(2)W(VP)小于等于给定关联阈值δ;(3)有效路径VP的长度k小于等于给定关联层级阈值τ;步骤2-2-2、合并MQST和每个vi的有效路径的节点,得到查询Q的启发式关联扩展查询Q’,即本专利技术所采用的技术方案是两阶段框架,首先在语料库文本集的基础上,本文档来自技高网
...
一种基于语义关联网络的启发式查询扩展方法

【技术保护点】
一种基于语义关联网络的启发式查询扩展方法,其特征在于,包括以下步骤:步骤1、根据本体中抽取的概念,建立关联图,其中,所述关联图用RG=(V,E)表示,V是节点的集合,

【技术特征摘要】
1.一种基于语义关联网络的启发式查询扩展方法,其特征在于,包括以下步骤:步骤1、根据本体中抽取的概念,建立关联图,其中,所述关联图用RG=(V,E)表示,V是节点的集合,v是一个概念,用语义标签A表示;E是边的集合,e=(vi,vj,rw)表示vi和vj之间有关联,且其关联权重为rw;所述查询用Q=(A1,A2,…,Am)表示,Ai表示第i个查询条件对应的概念;步骤2、根据查询Q和关联图RG,构造最小查询生成树MQST,同时根据所述最小查询生成树MQST对查询中的节点进一步进行有效路径扩展。2.如权利要求1所述的基于语义关联网络的启发式查询扩展方法,其特征在于,步骤1构建关联图的方法包括如下:步骤1-1、从本体中抽取领域内的概念集AS,将概念集中的概念作为关联图的节点,并初始化各概念对之间的关联权重为0;步骤1-2、抽取窗口Wd内的关联矩阵集合RMS’,并累加计算节点间的关联度的时间权重的加权和;步骤1-3、计算节点间的关联权重,若存在关联,则添加关联图的边。3.如权利要求1所述的基于语义关联网络的启发式查询扩展方法,其特征在于,步骤1-2所述关联矩阵的计算方法包括如下:步骤1-2-1、从本体中抽取领域内的概念集AS,然后扫描文本集ST,查看每个概念是否在ST中出现,初始化统计矩阵OM,其中,所述文本集用ST=(st1,st2,…,stn)表示,统计矩阵OM记录概念是否在文本中出现,其中,行表示文本,列表示概念,OM[i,j]表示第j个概念是否在第i个文本中出现;步骤1-2-2、逐个计算共现率和关联度,如果满足强关联条件,即共现率大于等于最小共现率且关联度大于等于最小关联度,将其保存在关联矩阵RM中,其中,在所述文本集ST=(st1,st2,…,stn)中,概念的A1和A2的共现率为其中表示A1和A2在sti中的共现情况;概念的A1和A2的关联度为其中CP(A1,A2)是A1和A2在ST中的共现率,OP(Ai)是Ai在ST中出现的概率;统计矩阵RM记录概念之间的共现率和关联度,其中行、列表示概念,RM[i,j].cp表示第i个概念与第i个概念的共现率,RM[i,j].rp表示第i个概念与第i个概念的关联度。4.如权利要求3所述的基于语义关联网络的启发式查询扩展方法,其特征在于,步骤1-2中所述统计窗口用Wd={tk-n,tk-n+1,…,tk}表示;时间权重WT(tl,tk)=1/2(tk-tl),其中tk为当前的时间段,tl(l≤k)为任一时间段;步骤1-3中所述概念对(Ai,Aj)的关联权重为其中Wd为统计窗口,WT(tl,tk)为时间权重,是Ai、Aj在时间...

【专利技术属性】
技术研发人员:郭黎敏李童高需苏醒丁治明
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1