当前位置: 首页 > 专利查询>扆亮海专利>正文

时态一致性约束判断的网页时效获取方法技术

技术编号:26730800 阅读:27 留言:0更新日期:2020-12-15 14:31
本发明专利技术的时态一致性约束判断的网页时效获取方法,基于网页时效性,提出了网络时态模型的时态不一致智能识别系统,包括网络时态模型的构建、时态不一致约束体系判断体系、基于网络时态模型的时态不一致智能识别方法。在内部搜索引擎的基础上,提出了基于层次分析模型的获取网页发布时间方法,利用网页发布时间对搜索引擎的检索结果进行时效性排序,实现时效性检索;同时从网页内容时间的角度对网页时效性进行分析,把可能出现时间短语的位置全部标记出来,保证时间短语提取更充分,网页时效获取智能化程度高,速度较快。实验中证明获取网页发布时间的方法结果是高效准确的,搜索引擎的检索结果满足了用户的时效性需求。

【技术实现步骤摘要】
时态一致性约束判断的网页时效获取方法
本专利技术涉及一种网页时效获取方法,特别涉及一种时态一致性约束判断的网页时效获取方法,属于网页时效判断

技术介绍
伴随互联网技术的高速发展,信息爆炸似增长,互联网每天产生的页面达到百亿量级,大数据时代已经到来。互联网作为历史上最大的信息载体,它的开放性使得网上发布新闻、言论和观点十分方便,这也导致了信息结构性差、无规则,变得杂乱无章。面对如此丰富但又混乱的信息资源,从中获得满意的信息是个巨大的挑战。搜索引擎满足了人们对所需信息查找的需求,但当下网页更新速度惊人,每天互联网上都会有海量网页更新,而且很多网页都会伴随时间变化,导致网页质量逐渐下降。对搜索引擎来说,当用户检索与时间关联的内容时,若返回结果过时,就会降低用户对搜索引擎的期望和信任;如果搜索引擎的抓取网页库新鲜度不够,搜索范围过窄,那检索结果不可能是最满意和最新的,对用户来说,检索结果也就失去了实际参考价值。现有技术的搜索引擎针对时间信息的检索也做了许多改进,大多数都是利用网页的爬取时间来辅助检索结果排序,但爬取时间跟爬虫的更新频率相关,而且并不能代表网页中内容的时间信息,存在时间差。因此,选取好的时间标准来评估网页的时效性具有重要意义和巨大的市场价值。网页发布后,其内容所描述的事件能够迅速吸引人们的注意力且容易被广泛传播,同时这些事件又具备仅在第一时间有高热度但后期伴随时间推移热度会明显下降的特点,这样的网页就具有时效性。信息从产生开始,就具有时间属性,人们利用信息的时间属性可方便有利的去评估信息价值,信息的时效性是指信息在特定时间段对决策有价值的性质,而且价值与时间成正比;现代信息技术的发展也为网页时效性获取奠定了基础,并且在一些信息系统和时态数据库中,时效性扮演着非常重要的角色。伴随互联网的发展,出现了许多新的应用需求,人们越来越关注数据的时态信息,其重要性与日俱增,迫切需要时态信息处理技术。时态特性是信息的客观存在。八十年代中后期,时态信息技术快速发展,已投入应用领域,由于计算机技术迅猛发展,时态信息在很多领域内得到了广泛的应用,自然语言处理、时空信息、多媒体等各种技术迅速发展,促使时态信息与应用技术相结合。由于时间维的引入,数据库设计变得复杂,对于时态数据库可通过时态函数依赖约束规范化时态数据模式,现有技术分析传统函数依赖与时态函数依赖之间的联系,提出了成员籍、有限属性闭包等时态函数依赖集算法,进一步规范化了时态数据库模式。现有技术对时间信息提取的工作起步于九十年代中后期,在1995年信息理解会议上提出了针对时间信息提取的命名实体识别任务,为深入挖掘网页中的突发事件新闻并用于应急管理,现有技术引入中文的时间关系理论,提出面向突发事件新闻的时间提取方法。在时态信息检索方面,现有技术通过分析个性化挖掘特点,提出了基于时效性的网络页面个性化推荐模型,该模型的挖掘算法在存储结构上加入了时效价值系数,使得挖掘出的信息更符合用户需求。现有技术通过引入基于时间感知的用户查询理解、索引结构和页面排序算法,提出了基于用户查询日志挖掘的时间感知搜索引擎模型,一定程度上弥补了当下主流搜索引擎在时效性检索查询方面存在的不足。百度出台了《时效性资源收录问题》,高度重视时效性信息,这说明网站内容建设必须立足时效性信息,才能引起搜索引擎的关注,时效性将成为所有网站内容中必不可少的组成部分。综上,现有技术都还存在一些明显不足,表现在以下方面:一是互联网信息结构性差、无规则,数据海量且杂乱无章,从中获得满意的信息是巨大的挑战,但当下网页更新速度惊人,每天互联网上都会有海量网页更新,而且很多网页都会伴随时间变化,现有技术的搜索引擎无法满足信息查找需求,当用户检索与时间关联的内容时,若返回结果过时,就会降低用户对搜索引擎的期望和信任;如果搜索引擎的抓取网页库新鲜度不够,搜索范围过窄,那检索结果不可能是最满意和最新的,对用户来说,检索结果也就失去了实际参考价值;现有技术的搜索引擎大多数都是利用网页的爬取时间来辅助检索结果排序,但爬取时间跟爬虫的更新频率相关,而且并不能代表网页中内容的时间信息,存在时间差,造成网页搜索结果不理想;二是网络上的信息不仅包含即时信息,同时也包含过时信息,二者间存在价值上的冲突,各类网站中都有时间不一致问题,由于网站未及时更新,这类信息失效的可能性大,使网页失去了阅读的价值,极大的损害了信息发布者的形象,影响了用户的体验,甚至可能会误导决策行为,造成生产生活中不必要的经济损失;现有技术解决网络过时信息问题主要是采用人工逐个排检,效率低且工作量大,伴随大数据时代的到来,面对不断增长的互联网海量数据,人工方式难以胜任,需要一种智能发掘网络过时信息的系统方法及工具,保持网络时态一致性,即在当前状况下,网络的各个时间要素不存在矛盾和歧义,保持一致;三是网站可看成一个网页的集合,网页呈现的信息丰富多样,蕴藏在这些信息中的时间信息决定网站是否跟得上潮流,如果某网页的内容满足某一用户的特定需求,该页面就体现出价值属性,而时效性是评估网页价值的重要标准,全面评估网页的时效性,不仅要获得网页中出现的所有关联的时间短语,还要使检索结果最大程度满足时效性要求,现有技术对网页内容布局没有分析,无法确定可能出现时间短语的位置,无法充分提取时间短语,网页时间分析处理技术不成熟,不能够满足行业需求;四是当前网站内容建设必须立足时效性信息,才能引起搜索引擎的关注,时效性是所有网站内容中必不可少的组成部分,现有技术没有提取网页的发布时间角和提取网页的内容时间切实有效的方法,无法获得最准确的网页发布时间,更是无法设计获取网页发布时间的算法加入到检索系统中,无法利用信息的时间属性去评估信息价值,导致网页检索结果失去了实际参考价值,网页时效获取的质量和精度明显达不到要求。
技术实现思路
本专利技术提供的时态一致性约束判断的网页时效获取方法,针对互联网信息结构性差、无规则,数据海量且杂乱无章,每天互联网上都会有海量网页更新,而且很多网页都会伴随时间变化,现有技术的搜索引擎无法满足信息查找需求的问题,提出了一种高精度的网页时效获取方法,能够高效准确的评估网页的时效性,筛选出时效性高的网页,不仅提高了网页时效性获取的精确度,也增强了其可靠性;本专利技术对网页内容布局做细致分析,把可能出现时间短语的位置全部标记出来,保证时间短语提取更充分,网页时效获取智能化程度高,速度较快,是一种具备显著创新性,且优势突出的网页时效获取方法。为达到以上技术效果,本专利技术所采用的技术方案如下:时态一致性约束判断的网页时效获取方法,提出基于网络时态要素模型的时态不一致智能识别系统,主要包括:一是网络时态要素模型和时态信息提取,构建基于网站分层体系的时态要素模型,对网络信息的时态灵敏度分析量度,提取网络的时态信息;二是构建网络时态一致性约束和判断体系,对网页中信息的时态语义进行鉴别和判断;三是网络时态不一致发掘、分类与量度,根据网站时态要素模型提取出站点、单元、子单元和页面的时态信息值,然后采用判断体系判断未知时态信息,建立本文档来自技高网
...

【技术保护点】
1.时态一致性约束判断的网页时效获取方法,其特征在于,提出基于网络时态要素模型的时态不一致智能识别系统,主要包括:一是网络时态要素模型和时态信息提取,构建基于网站分层体系的时态要素模型,对网络信息的时态灵敏度分析量度,提取网络的时态信息;二是构建网络时态一致性约束和判断体系,对网页中信息的时态语义进行鉴别和判断;三是网络时态不一致发掘、分类与量度,根据网站时态要素模型提取出站点、单元、子单元和页面的时态信息值,然后采用判断体系判断未知时态信息,建立时态一致性约束集合,再检验是否违反约束体系,识别时态不一致的网页信息;/n本专利技术利用逐层递进的方式,设计网页发布时间获取方法,提出通过获取网页发布时间来评估网页时效性的检索系统,并对中文时间表达式进行充分的识别抽取,提取网页的内容时间信息;网页时间分析处理方法包括网页内容时间分析、提取网页正文、中文时间表达式识别,网页内容时间分析具体包括网页内容布局、网页中出现的时间,中文时间表达式识别具体包括时间表达式分类、识别时间表达式;/n本专利技术网页时效获取系统设计实现,从网页的发布时间角度出发,分析爬取的页面发布时间辅助检索结果的排序,并提取网页的内容时间,根据网页的发布时间可知网页的新鲜度,采用层次结构模型获取网页的发布时间,逐层判断,获得最准确的发布时间,设计获取网页发布时间的算法加入到检索系统中,作为参考因素对检索结果排序;/n本专利技术一是分析时效性网页具备的特征,设计了一种网络时态要素模型,并提出网络时态一致性约束和判断体系和时态模型中时态向量的提取和评估方法,然后基于时态要素模型实现对不一致时态的智能发掘、分类和量度;二是详细解析网页时间分析处理方法,首先基于网页内容布局,采样分析时间在网页内容布局中的分布状况,得出在评估网页时效性问题上最具价值的几类时间点,包括网页内容时间点、网页发布时间点、网页入库时间点,然后识别文本时间短语,采用正则表达式方法,对中文的时间表达式建立识别规则方法,鉴别匹配文本中出现的时间短语;三是提出一种逐层递进的方法获取网页发布时间,以此评估网页的时效性,并提取网页正文的内容时间。/n...

【技术特征摘要】
1.时态一致性约束判断的网页时效获取方法,其特征在于,提出基于网络时态要素模型的时态不一致智能识别系统,主要包括:一是网络时态要素模型和时态信息提取,构建基于网站分层体系的时态要素模型,对网络信息的时态灵敏度分析量度,提取网络的时态信息;二是构建网络时态一致性约束和判断体系,对网页中信息的时态语义进行鉴别和判断;三是网络时态不一致发掘、分类与量度,根据网站时态要素模型提取出站点、单元、子单元和页面的时态信息值,然后采用判断体系判断未知时态信息,建立时态一致性约束集合,再检验是否违反约束体系,识别时态不一致的网页信息;
本发明利用逐层递进的方式,设计网页发布时间获取方法,提出通过获取网页发布时间来评估网页时效性的检索系统,并对中文时间表达式进行充分的识别抽取,提取网页的内容时间信息;网页时间分析处理方法包括网页内容时间分析、提取网页正文、中文时间表达式识别,网页内容时间分析具体包括网页内容布局、网页中出现的时间,中文时间表达式识别具体包括时间表达式分类、识别时间表达式;
本发明网页时效获取系统设计实现,从网页的发布时间角度出发,分析爬取的页面发布时间辅助检索结果的排序,并提取网页的内容时间,根据网页的发布时间可知网页的新鲜度,采用层次结构模型获取网页的发布时间,逐层判断,获得最准确的发布时间,设计获取网页发布时间的算法加入到检索系统中,作为参考因素对检索结果排序;
本发明一是分析时效性网页具备的特征,设计了一种网络时态要素模型,并提出网络时态一致性约束和判断体系和时态模型中时态向量的提取和评估方法,然后基于时态要素模型实现对不一致时态的智能发掘、分类和量度;二是详细解析网页时间分析处理方法,首先基于网页内容布局,采样分析时间在网页内容布局中的分布状况,得出在评估网页时效性问题上最具价值的几类时间点,包括网页内容时间点、网页发布时间点、网页入库时间点,然后识别文本时间短语,采用正则表达式方法,对中文的时间表达式建立识别规则方法,鉴别匹配文本中出现的时间短语;三是提出一种逐层递进的方法获取网页发布时间,以此评估网页的时效性,并提取网页正文的内容时间。


2.根据权利要求1所述的时态一致性约束判断的网页时效获取方法,其特征在于,网络信息时态灵敏性分析与量度采用用户的访问模式、单元更新模式、文本时间信息特征对网络进行灵敏性量度,从动态和静态二方面评价网页的时态灵敏性;
定义时间灵敏度:
HXt=cA(Qv)+vA(Qu)+uA(y)式1
其中c,v,u是权重函数,



f(ti)是随时间ti变化的权重函数,Qv=(qv(t1),...,qv(tn))是用户的访问模式,以网站单元为单位,利用ti时刻单元的整体访问频率uas(ti)对ti时刻访问频率uaw(ti)进行平滑,得到的平滑后访问频率qv(ti)=m×uas(ti)+n×uaw(ti)的时间序列;



Qu=(qu(t1),...,qu(tn))是单元的更新模式,是ti时刻的更新频率qu(ti)随时间变化的时间序列,b(ti)是随时间ti变化的权重函数;



y是文本时间信息特征函数,ay为时间词词频,ry(i)为时间词i的位移,W为网页文本长度。


3.根据权利要求1所述的时态一致性约束判断的网页时效获取方法,其特征在于,网络时态要素模型在网络信息内容要素中加入时态要素,是对网站、单元、子单元和网页页面的抽象;网络时态要素模型将网站描述为一棵五层非空树,网站主页是根结点,单元及其各级子单元是中间结点,网页页面是叶子结点,每个网页最多离网站首页四次点击就能到达,将网站描述成一棵五层非空树,而且叶子结点的深度最大值为5;
网络时态要素层次树中,每一个结点用表示,由一个二元组(UO,UT)表示,UO为内容向量,UT为时态向量;其中,内容向量UO=(Otitle,Ourl,Otopic,Otext)是一个关于网页L与其描述的事件e的四维向量,包括网页标题Otitle、网页链接Ourl、网页主题Otopic、网页文本Otext;对于根结点,其内容向量可表示为UO=(Otitle,Ourl,0,0),Otitle为网站名,Ourl为网站主页链接;对于中间结点,Otitle为单元名称,Ourl为单元主页链接;时态向量UT=(Toccur,Tpublish,Tforward,Texpire)是一个关于网页L与其描述事件e的四维向量,包括事件发生时间Toccur、发表时间Tpublish、转载时间Tforward和过期时间Texpire;
知识时态层析模型提取和判断时间向量,时态层次模型描述时间实体的时间类型、时间表示、时态、描述事件概念的层次关系;时间类型包括:时间点、时间区间、时间频率;时间表示包括:显式时间、隐含时间、相对时间;时态包括:过去时,现在时,将来时;描述的事件包括:区间事件,瞬时事件,周期事件。


4.根据权利要求1所述的时态一致性约束判断的网页时效获取方法,其特征在于,网络时态一致性约束体系中,网页内时态一致性约束体系:网页信息有些没有时效性,对这类信息根据它的发布时间规定一个过期时间;而对于有时效性的信息,通过结合时间的过去、现在、将来属性进行语义分析,将信息分为三类:一是预测信息,二是实时报道信息,三是回顾报道信息,这些信息在一段时间后会失去价值,过期时间与网页信息的时间灵敏度关联,时间灵敏度越高,过期时间越短;在相同时间灵敏度下,预测信息的过期时间相对于信息发布时间最长,回顾报道信息的过期时间相对于信息发布时间最短;
网页与单元之间时态一致性约束体系:单元内的子网页,若单元中不含时态约束信息,网页与单元的时态一致性约束就等于网页内部的时态约束;若单元内有时态约束信息,首先根据单元的时态信息提取基本过期时间,过期时间是对网页的基本时间限制,只有在当前读取时间同时在基本过期时间和网页自身过期时间之前时,才认为网页与单元时态一致;
同类网站相同单元之间时态一致性约束体系:同类网站相同单元的时间信息经常出现描述同一个事件的不同时间信息,对这些描述信息做时态一致性比较,为网站评估提供参考。


5.根据权利要求1所述的时态一致性约束判断的网页时效获取方法,其特征在于,根据网络时态一致性约束体系构建逻辑推断算子,推断时态信息和约束关系:
由网络已知时态分量值到未知维度时间值的推断:网页各时间维度间具有逻辑关系,解释为在时间轴上的前后关系,由已知时间维度信息推出未知时间维度信息;
相同主题网页信息的时间一致性推断:相同主题的时态信息类似,当它们具备时态一致性时,时态关联明显,通过关联主题网页时态信息,可判断未明确包含的时间信息;从一部分网页推出的时态信息,可当作关联网页的相应未知时态信息;另外网页与它的父结点网页和子结点网页常描述同一个主题,上层网页的发布时间和过期时间均较下层网页的发布时间更晚,相邻二层网页或同一层的相邻网页之间具有相似的时间维度;
不同网站相同单元的时态统计推断:对于一些大型的时态一致性很好的网站,相同单元的时态信息也有很大的关联性;通过不同网站相同单元的统计分析比较,可从已知的时态信息判断得到未包含时间信息的网页时态信息。


6.根据权利要求3所述的时态一致性约束判断的网页时效获取方法,其特征在于,网络时态不一致网页发掘:首先根据网站时态要素模型提取出站点、单元、子单元、页面的时态信息值,然后采用推断体系判断未知时态信息,建立其时态一致性约束集合,再检验是否违反约束体系,如果检测到违反时态一致性约束,发掘时态不一致性...

【专利技术属性】
技术研发人员:扆亮海
申请(专利权)人:扆亮海
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1