【技术实现步骤摘要】
本专利技术涉及互联网网页搜索领域,特别是获取互联网中特定内容的网页的主题爬行方法,尤其是一种顾及时间意图的主题网络信息采集方法。
技术介绍
主题爬行是获取互联网中特定领域网页的一种关键技术方法,旨在尽可能多地下载与指定主题相关的网页。它主要是根据用户指定的主题,通过以主题相关度计算、URL优先级分配等为主的爬行策略,不断地从泛在网络资源中获取相关网页的信息。基于网页内容的URL优先级分配方法是传统主题爬行常用的方法。其主要是根据两类相关度值计算得到的,具体为:(1)父网页内容主题相关度:其值越高,父网页所包含的URL优先级就越高;(2)锚文本主题相关度:其是指主题与锚文本、锚文本上下文和URL字符串等信息的相关度值,其中锚文本往往是对URL所指向页面内容的概括性描述。在基于网页内容的URL优先级分配方法中,父网页内容主题相关度和锚文本主题相关度常采用余弦公式计算,例如:某URL的父网页内容主题相关度为sim(VDk,VTk),锚文本主题相关度为sim(VAk,VTk),则该URL的优先级Priority(URL)可按如下公式计算:Priority(URL)=θ×sim(VDk,VTk)+γ×sim(VAk,VTk) (1-1)上式中,θ和γ分别表示父网页内容主题相关度和锚文本主题相关度的衰减因子,且满足θ+γ=1。在利用主题爬行方法收集时间敏感的突发事件信息时,时间意图常常会作为主题的一种限定要素。根据ISO19100系列标准的规定(2002),时间对象可被划分为“时刻”和“时段”,其中“时刻”表示时间空间中的一个点;“时段”相当于时间空间中的一条线 ...
【技术保护点】
一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其特征在于,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值。步骤B,采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A获得的所述时间分布的量化值为变量的递增函数,并将其融入到基于网页内容的URL优先级分配方法,从而获得基于时间分布量化值的URL优先级分配计算公式,计算出最终的URL优先级。也就使得受关注时刻的URL获得较高的优先级。
【技术特征摘要】
1.一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其特征在于,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值。步骤B,采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A获得的所述时间分布的量化值为变量的递增函数,并将其融入到基于网页内容的URL优先级分配方法,从而获得基于时间分布量化值的URL优先级分配计算公式,计算出最终的URL优先级。也就使得受关注时刻的URL获得较高的优先级。2.根据...
【专利技术属性】
技术研发人员:陈军,武昊,侯东阳,
申请(专利权)人:国家基础地理信息中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。