【技术实现步骤摘要】
时态一致性约束判断的网页时效获取方法
本专利技术涉及一种网页时效获取方法,特别涉及一种时态一致性约束判断的网页时效获取方法,属于网页时效判断
技术介绍
伴随互联网技术的高速发展,信息爆炸似增长,互联网每天产生的页面达到百亿量级,大数据时代已经到来。互联网作为历史上最大的信息载体,它的开放性使得网上发布新闻、言论和观点十分方便,这也导致了信息结构性差、无规则,变得杂乱无章。面对如此丰富但又混乱的信息资源,从中获得满意的信息是个巨大的挑战。搜索引擎满足了人们对所需信息查找的需求,但当下网页更新速度惊人,每天互联网上都会有海量网页更新,而且很多网页都会伴随时间变化,导致网页质量逐渐下降。对搜索引擎来说,当用户检索与时间关联的内容时,若返回结果过时,就会降低用户对搜索引擎的期望和信任;如果搜索引擎的抓取网页库新鲜度不够,搜索范围过窄,那检索结果不可能是最满意和最新的,对用户来说,检索结果也就失去了实际参考价值。现有技术的搜索引擎针对时间信息的检索也做了许多改进,大多数都是利用网页的爬取时间来辅助检索结果排序,但爬取时间跟爬虫的更新频率相关,而且并不能代表网页中内容的时间信息,存在时间差。因此,选取好的时间标准来评估网页的时效性具有重要意义和巨大的市场价值。网页发布后,其内容所描述的事件能够迅速吸引人们的注意力且容易被广泛传播,同时这些事件又具备仅在第一时间有高热度但后期伴随时间推移热度会明显下降的特点,这样的网页就具有时效性。信息从产生开始,就具有时间属性,人们利用信息的时间属性可方便有利的去评估信息价值, ...
【技术保护点】
1.时态一致性约束判断的网页时效获取方法,其特征在于,提出基于网络时态要素模型的时态不一致智能识别系统,主要包括:一是网络时态要素模型和时态信息提取,构建基于网站分层体系的时态要素模型,对网络信息的时态灵敏度分析量度,提取网络的时态信息;二是构建网络时态一致性约束和判断体系,对网页中信息的时态语义进行鉴别和判断;三是网络时态不一致发掘、分类与量度,根据网站时态要素模型提取出站点、单元、子单元和页面的时态信息值,然后采用判断体系判断未知时态信息,建立时态一致性约束集合,再检验是否违反约束体系,识别时态不一致的网页信息;/n本专利技术利用逐层递进的方式,设计网页发布时间获取方法,提出通过获取网页发布时间来评估网页时效性的检索系统,并对中文时间表达式进行充分的识别抽取,提取网页的内容时间信息;网页时间分析处理方法包括网页内容时间分析、提取网页正文、中文时间表达式识别,网页内容时间分析具体包括网页内容布局、网页中出现的时间,中文时间表达式识别具体包括时间表达式分类、识别时间表达式;/n本专利技术网页时效获取系统设计实现,从网页的发布时间角度出发,分析爬取的页面发布时间辅助检索结果的排序,并提取 ...
【技术特征摘要】
1.时态一致性约束判断的网页时效获取方法,其特征在于,提出基于网络时态要素模型的时态不一致智能识别系统,主要包括:一是网络时态要素模型和时态信息提取,构建基于网站分层体系的时态要素模型,对网络信息的时态灵敏度分析量度,提取网络的时态信息;二是构建网络时态一致性约束和判断体系,对网页中信息的时态语义进行鉴别和判断;三是网络时态不一致发掘、分类与量度,根据网站时态要素模型提取出站点、单元、子单元和页面的时态信息值,然后采用判断体系判断未知时态信息,建立时态一致性约束集合,再检验是否违反约束体系,识别时态不一致的网页信息;
本发明利用逐层递进的方式,设计网页发布时间获取方法,提出通过获取网页发布时间来评估网页时效性的检索系统,并对中文时间表达式进行充分的识别抽取,提取网页的内容时间信息;网页时间分析处理方法包括网页内容时间分析、提取网页正文、中文时间表达式识别,网页内容时间分析具体包括网页内容布局、网页中出现的时间,中文时间表达式识别具体包括时间表达式分类、识别时间表达式;
本发明网页时效获取系统设计实现,从网页的发布时间角度出发,分析爬取的页面发布时间辅助检索结果的排序,并提取网页的内容时间,根据网页的发布时间可知网页的新鲜度,采用层次结构模型获取网页的发布时间,逐层判断,获得最准确的发布时间,设计获取网页发布时间的算法加入到检索系统中,作为参考因素对检索结果排序;
本发明一是分析时效性网页具备的特征,设计了一种网络时态要素模型,并提出网络时态一致性约束和判断体系和时态模型中时态向量的提取和评估方法,然后基于时态要素模型实现对不一致时态的智能发掘、分类和量度;二是详细解析网页时间分析处理方法,首先基于网页内容布局,采样分析时间在网页内容布局中的分布状况,得出在评估网页时效性问题上最具价值的几类时间点,包括网页内容时间点、网页发布时间点、网页入库时间点,然后识别文本时间短语,采用正则表达式方法,对中文的时间表达式建立识别规则方法,鉴别匹配文本中出现的时间短语;三是提出一种逐层递进的方法获取网页发布时间,以此评估网页的时效性,并提取网页正文的内容时间。
2.根据权利要求1所述的时态一致性约束判断的网页时效获取方法,其特征在于,网络信息时态灵敏性分析与量度采用用户的访问模式、单元更新模式、文本时间信息特征对网络进行灵敏性量度,从动态和静态二方面评价网页的时态灵敏性;
定义时间灵敏度:
HXt=cA(Qv)+vA(Qu)+uA(y)式1
其中c,v,u是权重函数,
f(ti)是随时间ti变化的权重函数,Qv=(qv(t1),...,qv(tn))是用户的访问模式,以网站单元为单位,利用ti时刻单元的整体访问频率uas(ti)对ti时刻访问频率uaw(ti)进行平滑,得到的平滑后访问频率qv(ti)=m×uas(ti)+n×uaw(ti)的时间序列;
Qu=(qu(t1),...,qu(tn))是单元的更新模式,是ti时刻的更新频率qu(ti)随时间变化的时间序列,b(ti)是随时间ti变化的权重函数;
y是文本时间信息特征函数,ay为时间词词频,ry(i)为时间词i的位移,W为网页文本长度。
3.根据权利要求1所述的时态一致性约束判断的网页时效获取方法,其特征在于,网络时态要素模型在网络信息内容要素中加入时态要素,是对网站、单元、子单元和网页页面的抽象;网络时态要素模型将网站描述为一棵五层非空树,网站主页是根结点,单元及其各级子单元是中间结点,网页页面是叶子结点,每个网页最多离网站首页四次点击就能到达,将网站描述成一棵五层非空树,而且叶子结点的深度最大值为5;
网络时态要素层次树中,每一个结点用表示,由一个二元组(UO,UT)表示,UO为内容向量,UT为时态向量;其中,内容向量UO=(Otitle,Ourl,Otopic,Otext)是一个关于网页L与其描述的事件e的四维向量,包括网页标题Otitle、网页链接Ourl、网页主题Otopic、网页文本Otext;对于根结点,其内容向量可表示为UO=(Otitle,Ourl,0,0),Otitle为网站名,Ourl为网站主页链接;对于中间结点,Otitle为单元名称,Ourl为单元主页链接;时态向量UT=(Toccur,Tpublish,Tforward,Texpire)是一个关于网页L与其描述事件e的四维向量,包括事件发生时间Toccur、发表时间Tpublish、转载时间Tforward和过期时间Texpire;
知识时态层析模型提取和判断时间向量,时态层次模型描述时间实体的时间类型、时间表示、时态、描述事件概念的层次关系;时间类型包括:时间点、时间区间、时间频率;时间表示包括:显式时间、隐含时间、相对时间;时态包括:过去时,现在时,将来时;描述的事件包括:区间事件,瞬时事件,周期事件。
4.根据权利要求1所述的时态一致性约束判断的网页时效获取方法,其特征在于,网络时态一致性约束体系中,网页内时态一致性约束体系:网页信息有些没有时效性,对这类信息根据它的发布时间规定一个过期时间;而对于有时效性的信息,通过结合时间的过去、现在、将来属性进行语义分析,将信息分为三类:一是预测信息,二是实时报道信息,三是回顾报道信息,这些信息在一段时间后会失去价值,过期时间与网页信息的时间灵敏度关联,时间灵敏度越高,过期时间越短;在相同时间灵敏度下,预测信息的过期时间相对于信息发布时间最长,回顾报道信息的过期时间相对于信息发布时间最短;
网页与单元之间时态一致性约束体系:单元内的子网页,若单元中不含时态约束信息,网页与单元的时态一致性约束就等于网页内部的时态约束;若单元内有时态约束信息,首先根据单元的时态信息提取基本过期时间,过期时间是对网页的基本时间限制,只有在当前读取时间同时在基本过期时间和网页自身过期时间之前时,才认为网页与单元时态一致;
同类网站相同单元之间时态一致性约束体系:同类网站相同单元的时间信息经常出现描述同一个事件的不同时间信息,对这些描述信息做时态一致性比较,为网站评估提供参考。
5.根据权利要求1所述的时态一致性约束判断的网页时效获取方法,其特征在于,根据网络时态一致性约束体系构建逻辑推断算子,推断时态信息和约束关系:
由网络已知时态分量值到未知维度时间值的推断:网页各时间维度间具有逻辑关系,解释为在时间轴上的前后关系,由已知时间维度信息推出未知时间维度信息;
相同主题网页信息的时间一致性推断:相同主题的时态信息类似,当它们具备时态一致性时,时态关联明显,通过关联主题网页时态信息,可判断未明确包含的时间信息;从一部分网页推出的时态信息,可当作关联网页的相应未知时态信息;另外网页与它的父结点网页和子结点网页常描述同一个主题,上层网页的发布时间和过期时间均较下层网页的发布时间更晚,相邻二层网页或同一层的相邻网页之间具有相似的时间维度;
不同网站相同单元的时态统计推断:对于一些大型的时态一致性很好的网站,相同单元的时态信息也有很大的关联性;通过不同网站相同单元的统计分析比较,可从已知的时态信息判断得到未包含时间信息的网页时态信息。
6.根据权利要求3所述的时态一致性约束判断的网页时效获取方法,其特征在于,网络时态不一致网页发掘:首先根据网站时态要素模型提取出站点、单元、子单元、页面的时态信息值,然后采用推断体系判断未知时态信息,建立其时态一致性约束集合,再检验是否违反约束体系,如果检测到违反时态一致性约束,发掘时态不一致性...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。