【技术实现步骤摘要】
一种基于时态和关键词查询的检索方法和系统
本专利技术面向信息检索领域,尤其涉及一种基于时态和关键词查询的检索方法和系统。
技术介绍
随着大数据时代的到来,信息呈现爆炸式性增长,如何在海量信息中查找有用信息具有更大的挑战。按照时态属性来组织、存储、管理和检索大数据,已经成为一种有效的解决途径,因为时态是信息的重要属性维度,任何信息都含有具有相应的时态特性。中国专利申请CN201610576897.1提供了一种时态图数据中动态属性数据的存储方法和装置,解决了不能实现对点/边中的动态属性数据单独存储的问题。目前,大多数的搜索引擎对于时态信息缺乏有效的处理技术,不能很好地理解用户的时态检索意图,检索效果不够理想。时态信息检索(TemporalInformationRetrieval,TIR)通过将时态信息融入信息检索技术中,可以有效地处理用户的时态查询。按照时间属性快速、高效地检索用户所需要的信息,并按时间属性分类和排序检索结果,可以在很大程度上提高检索的效率和效果,时态信息检索已经成为信息检索领域的热点研究方向。关系数据库中存储的关系数据包含较多的时态属性和时态实体联系信息。近年来,在数据库领域,基于关键词的关系数据库检索方法研究已经取得大量的研究成果,提出了许多检索算法,实现了很多原型系统。例如中国专利申请CN201310710834.7提供了一种基于关键词进行检索的方法及装置,其基于基础关键词的预测权重,虽然从一定程度上提高了检索结果的准确率和召回率,但是仍然没有充分利用关系数据中丰富的时态信息,还不能有效处理时态查询。
技术实现思路
针对现有技术的上述问题,本 ...
【技术保护点】
一种基于时态和关键词查询的检索方法,其特征在于,包括以下步骤:(1).系统启动阶段,根据关系数据库生成时态数据图,根据时态数据图的结构计算时态边的权重,得到带权重的时态数据图;(2).根据用户输入的时态关键词查询,通过全文索引和时态索引检索出符合用户的时态约束的候选时态元组集合;(3).在时态数据图上定位候选元组,得到候选时态结点,然后在时态数据图上执行时态检索算法,生成时态检索结果;(4).根据时态排序机制对检索结果排序,输出时态检索结果。
【技术特征摘要】
1.一种基于时态和关键词查询的检索方法,其特征在于,包括以下步骤:(1).系统启动阶段,根据关系数据库生成时态数据图,根据时态数据图的结构计算时态边的权重,得到带权重的时态数据图;(2).根据用户输入的时态关键词查询,通过全文索引和时态索引检索出符合用户的时态约束的候选时态元组集合;(3).在时态数据图上定位候选元组,得到候选时态结点,然后在时态数据图上执行时态检索算法,生成时态检索结果;(4).根据时态排序机制对检索结果排序,输出时态检索结果。2.如权利要求1所述的方法,其特征在于,时态检索算法具体包括:对用户输入的每一时态关键词结点分配一个迭代器,寻找一个根结点,从这个根结点到每个关键词节点的时态路径形成一棵时态Steiner树。3.如权利要求2所述的方法,其特征在于:采用轮转调度方式,对迭代器中当前关键词结点进行宽度优先搜索,在搜索的过程中,根据时间的限制进行时态边的过滤,同时,每一条边的权重都需要通过用户输入的关键词和时间信息进行相似性计算来更新边的权重值。4.如权利要求2或3所述的方法,其特征在于:对时态Steiner树进行迭代的优化,用时态最短路径来替换固定结点之间的松散路径,在时态最短路径的查找过程中找到满足时间限制的边,同时对此边进行动态的权重计算。5.如权利要求1-3之一所述的方法,其特征在于:时态数据图Gt=(Vt,Et),实体建模为时态结点vt∈Vt,表示为vt=(v,[tsvt,tevt]),v是时态结点的标识,半开时间区间[tsvt,tevt]表示实体的有效时间(ValidTime),tsvt表示实体诞生的时间,称为有效起始时间,tevt表示实体消亡的时间,称为有效结束时间;实体联系建模为时态边et∈Et,表示为et=(ut,vt,[ts’,te’]),这里ut∈Vt,vt∈Vt,[ts’,te’]表示实体联系的有效时间,ts’表示实体联系的建立时间,称为有效起始时间,te’表示实体联系的失效时间,称为有效结束时间,时态结点和时态边要满足如下时态约束:ts’>=max{tsut,tsvt},te’<min{teut,tevt};时态数据图中的结点和边的有效时间可以是多个离散的时间点,或者是多个不连续的时间区间。6.如权利要求5所述的方法,其特征在于:对于时态数据图的时态结点vt=(v,[tsvt,tevt])和ut=(u,[tsut,teut])的有效时间,时态边e=(u,v)的最大有效时间可以为[ts’,te’]],其中ts’=max{tsut,tsvt},te’=min{teut,tevt}。7.如权利要求1-6之一所述的方法,其特征在于:给定一个时态数据图Gt(Vt,Et),ut∈Vt,vt∈Vt,是Gt上两个时态结点,ut到vt在时间约束Ic=[tsc,tec)下的时态路径表示为:P(ut,vt,[tsc,tec))=(ut,xi,[tsux,teux))P(xi,yi,[tsc,tec))(yi,vt,[tsyv,teyv))其中xi∈Vt,yi∈Vt,eux=(ut,xi,[tsux,teux))∈Et和eyv=(yi,vt,[tsyv,teyv))∈Et,且P(xi,yi,[tsc,tec])是xi到yi在时间约束Ic下的时态路径。8.如权利要求1-6之一所述的方法,其特征在于:给定一个时态数据图Gt(Vt,Et),p(ut,vt,[tsc,tec])是ut到vt在时间约束Ic=[tsc,tec]下的时态路径,在时态路径P上的最短路径p∈{p(ut,vt,[tsc,tec])},并且这里W(p)为时态路径所有时态边的权重之和,W(exy)表示x,y时态结点之间边的权重。9.如权利要求1-8之一所述的方法,其特征在于,时态数据图的权重计算如下:其中每一条时态边et=(u,v,[ts’,te’])权值计算如下:w(Q,et)=αws(Q,et)+(1-α)wt(Q,et),这里参数α作为调节因子代表内容相似度权重相对于时态相似度权重的重要性,ws(Q,et)表示时态边与用户查询Q相关的文本内容相关性权值,wt(Q,et)表示时态边et与用户查询Q相关的时态语义相关性权值。10.如权利要求1-8之一所述的方法,其特征在于:时态边的有效时间表示为Ie=[tse,tee),用户查询的时间为Ic=[tsc,tec],时态语义相似性的计算公式如下:11.如权利要求7所述的方法,其特征在于:文本内容相关性权值其中IR(k,u),IR(k,v)表示关键词在元组u,v中的IR分数,这里αu=ln(1+Nin(u))作为结点u的入度对边权值影响因子,Nin(u)为结点u入度。12.一种基于时态和关...
【专利技术属性】
技术研发人员:史红权,陈行军,赵晓哲,张俊,
申请(专利权)人:中国人民解放军海军大连舰艇学院,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。