一种面向深层网页的增量信息获取方法技术

技术编号:6026486 阅读:303 留言:0更新日期:2012-04-11 18:40
本发明专利技术公布了一种面向深层网页的增量信息获取方法。本发明专利技术方法包括:步骤1:确定与远程数据源同步频率;步骤2:利用泊松过程来表示数据源变化频率;步骤3:确定平均新颖度;步骤4:根据数据时新性确定更新频率进行增量信息获取。另外,本发明专利技术还可以利用在线学习方法有效进行增量信息获取。本发明专利技术方法首先确定与远程数据源同步频率,然后利用泊松过程获得数据源变化频率;接着根据数据时新性确定更新频率。相比现有技术,本发明专利技术方法是一种非常高效的深层网页的增量信息获取方法,它能够较大范围地提高人们的工作效率以及在相同更新资源条件下,使得本地数据和远程数据保持最大化同步,为进一步实现深层网数据源集成提供基础。

【技术实现步骤摘要】

本专利技术涉及,具体涉及一种由网络查询接 口连接的深层网页的信息获取方法,用于深层网页数据源的集成。
技术介绍
目前主流搜索引擎还只能搜索Internet表面可索引的信息,在Internet深处 还隐含着大量通过主流搜索引擎无法涉及的海量信息,这些信息被称之为深层网页(De印 Web,又称为 Invisible Web 或 Hidden Web)。根据 Bright Planet 研究表明,Deep Web 信 息量非常庞大,是可索引Web信息的500倍,并且这些De印Web内容95%都是可以通过 Internet无需付费注册就可以公开访问的。De印Web的信息一般存储在服务器端Web数据 库中,与静态页面相比通常信息量更大、主题更专一、信息质量和结构更好。目前De印Web 信息集成主要有两种实现方案一种方案是基于元搜索的方法,针对某个领域提供统一的 查询接口,将用户查询经过语义映射转发到各个Deep Web数据源上,返回的结果经过抽取、 语义标注、去重合并呈现给用户。该方案不需维护本地数据库,但存在如下不足查询响应 时间由远程数据源的服务质量决定,响应时间不可控;同时,建立和维护本文档来自技高网...

【技术保护点】
1.一种面向深层网页的增量信息获取方法,其特征在于包括如下步骤:步骤1:确定本地对象与远程数据源同步频率,其中远程数据源即远程Web上数据库;步骤2:利用泊松过程来表示远程数据源平均变化频率λi,其中,i=1,2,...,n;步骤3:确定平均新颖度:由步骤2得到的平均变化频率λi,确定各对象即远程Web上数据库中各数据项ei对应的同步频率fi,在满足同步资源限制的条件下,使本地数据库的平均新颖度最大,(math)??(mrow)?(mover)?(mi)F(/mi)?(mo)‾(/mo)?(/mover)?(mrow)?(mo)((/mo)?(mi)S(/mi)?(mo))(/...

【技术特征摘要】

【专利技术属性】
技术研发人员:方巍文学志毕硕本崔志明
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1