一种顾及时间意图的主题网络信息采集方法技术

技术编号:14271028 阅读:48 留言:0更新日期:2016-12-23 15:47
一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值;步骤B,采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A获得的所述时间分布的量化值为变量的递增函数,获得基于时间分布量化值的URL优先级分配计算公式,计算出最终的URL优先级。本发明专利技术所提供的一种顾及时间意图的主题网络信息采集方法,大大提高了网页发现数量和查准率。

【技术实现步骤摘要】

本专利技术涉及互联网网页搜索领域,特别是获取互联网中特定内容的网页的主题爬行方法,尤其是一种顾及时间意图的主题网络信息采集方法
技术介绍
主题爬行是获取互联网中特定领域网页的一种关键技术方法,旨在尽可能多地下载与指定主题相关的网页。它主要是根据用户指定的主题,通过以主题相关度计算、URL优先级分配等为主的爬行策略,不断地从泛在网络资源中获取相关网页的信息。基于网页内容的URL优先级分配方法是传统主题爬行常用的方法。其主要是根据两类相关度值计算得到的,具体为:(1)父网页内容主题相关度:其值越高,父网页所包含的URL优先级就越高;(2)锚文本主题相关度:其是指主题与锚文本、锚文本上下文和URL字符串等信息的相关度值,其中锚文本往往是对URL所指向页面内容的概括性描述。在基于网页内容的URL优先级分配方法中,父网页内容主题相关度和锚文本主题相关度常采用余弦公式计算,例如:某URL的父网页内容主题相关度为sim(VDk,VTk),锚文本主题相关度为sim(VAk,VTk),则该URL的优先级Priority(URL)可按如下公式计算:Priority(URL)=θ×sim(VDk,VTk)+γ×sim(VAk,VTk) (1-1)上式中,θ和γ分别表示父网页内容主题相关度和锚文本主题相关度的衰减因子,且满足θ+γ=1。在利用主题爬行方法收集时间敏感的突发事件信息时,时间意图常常会作为主题的一种限定要素。根据ISO19100系列标准的规定(2002),时间对象可被划分为“时刻”和“时段”,其中“时刻”表示时间空间中的一个点;“时段”相当于时间空间中的一条线,有起点、终点和长度等属性。一般来说,网络上关于某一突发事件的信息报道主要出现在事件发生之后,即报道的发布时间应晚于突发事件的起始时间;另一方面,突发事件存在产生、发展、变化和消亡的演化过程,在不同的演化阶段,人们关注该事件的热度也不一样,优先下载关注度较高时段的信息,可满足大多数人的需求,这在一定程度上反映了该事件的时间分布。也就是说,在利用主题进行网络信息采集时,时间意图(如起始时间和时间分布)在信息相关度判断和信息发现优先次序分配方面具有显著的作用。尽管在利用主题爬行方法收集网络信息时通过设定起始时间可单独用于过滤部分不相关的信息,且其时间分布会影响信息发现的优先次序,但是传统网络信息采集方法仍只是关注主题的普通语义,并没有分析利用主题的时间意图,存在时间分布平等化的问题,导致其查准率低。具体表现为:(1)缺乏时间意图的表示方法:传统单向量主题表示方法只是表示主题的关键词,没有提供其时间意图的表示方法;(2)弱化主题起始时间的作用:传统主题相关度计算策略仅依靠网页内容来判断其与主题的相关性,弱化了主题起始时间的作用;(3)忽略主题时间分布影响信息发现优先次序的影响:传统URL优先级分配方法目前主要利用网页内容、锚文本及其上下文、URL字符串、链接关系甚至网页的更新时间,但却忽略了主题时间分布的影响。
技术实现思路
本专利技术要解决的技术问题是提供一种顾及时间意图的主题网络信息采集方法,以减少或避免前面所提到的问题。为解决上述技术问题,本专利技术提供了一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值;步骤B,采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A获得的所述时间分布的量化值为变量的递增函数,并将其融入到基于网页内容的URL优先级分配方法,从而获得基于时间分布量化值的URL优先级分配计算公式,计算出最终的URL优先级,也就使得受关注时刻的URL获得较高的优先级。优选地,步骤A中的所述先验数据为Google趋势数据。优选地,步骤B中,主题中的时间意图的表达方式如下;主题和网页内容总体上的形式化表达:给定主题T和网页内容D,其按如下公式表示。T=〈VTk,TST,TTD>D=<VDk,TPT>其中,VTk,TST和TTD分别表示主题普通向量,主题的起止时间及其时间分布;VDk和TPT分别表示网页内容的普通向量及其发布时间。主题的形式化表达:其普通向量VTk,起止时间TST和时间分布TTD按照如下公式表达。VTk={(k1,wTk1),(k2,wTk2),...,(ks,wTks)本文档来自技高网
...

【技术保护点】
一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其特征在于,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值。步骤B,采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A获得的所述时间分布的量化值为变量的递增函数,并将其融入到基于网页内容的URL优先级分配方法,从而获得基于时间分布量化值的URL优先级分配计算公式,计算出最终的URL优先级。也就使得受关注时刻的URL获得较高的优先级。

【技术特征摘要】
1.一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其特征在于,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值。步骤B,采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A获得的所述时间分布的量化值为变量的递增函数,并将其融入到基于网页内容的URL优先级分配方法,从而获得基于时间分布量化值的URL优先级分配计算公式,计算出最终的URL优先级。也就使得受关注时刻的URL获得较高的优先级。2.根据...

【专利技术属性】
技术研发人员:陈军武昊侯东阳
申请(专利权)人:国家基础地理信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1