【技术实现步骤摘要】
本专利技术涉及,具体涉及一种由网络查询接 口连接的深层网页的信息获取方法,用于深层网页数据源的集成。
技术介绍
目前主流搜索引擎还只能搜索Internet表面可索引的信息,在Internet深处 还隐含着大量通过主流搜索引擎无法涉及的海量信息,这些信息被称之为深层网页(De印 Web,又称为 Invisible Web 或 Hidden Web)。根据 Bright Planet 研究表明,Deep Web 信 息量非常庞大,是可索引Web信息的500倍,并且这些De印Web内容95%都是可以通过 Internet无需付费注册就可以公开访问的。De印Web的信息一般存储在服务器端Web数据 库中,与静态页面相比通常信息量更大、主题更专一、信息质量和结构更好。目前De印Web 信息集成主要有两种实现方案一种方案是基于元搜索的方法,针对某个领域提供统一的 查询接口,将用户查询经过语义映射转发到各个Deep Web数据源上,返回的结果经过抽取、 语义标注、去重合并呈现给用户。该方案不需维护本地数据库,但存在如下不足查询响应 时间由远程数据源的服务质量决定,响应时间不可 ...
【技术保护点】
1.一种面向深层网页的增量信息获取方法,其特征在于包括如下步骤:步骤1:确定本地对象与远程数据源同步频率,其中远程数据源即远程Web上数据库;步骤2:利用泊松过程来表示远程数据源平均变化频率λi,其中,i=1,2,...,n;步骤3:确定平均新颖度:由步骤2得到的平均变化频率λi,确定各对象即远程Web上数据库中各数据项ei对应的同步频率fi,在满足同步资源限制的条件下,使本地数据库的平均新颖度最大,(math)??(mrow)?(mover)?(mi)F(/mi)?(mo)‾(/mo)?(/mover)?(mrow)?(mo)((/mo)?(mi)S(/m ...
【技术特征摘要】
【专利技术属性】
技术研发人员:方巍,文学志,毕硕本,崔志明,
申请(专利权)人:南京信息工程大学,
类型:发明
国别省市:84
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。