一种基于元搜索的内网信息采集方法技术

技术编号：7288264 阅读：644 留言：0更新日期：2012-04-25 13:01

本发明专利技术涉及一种基于元搜索的内网信息采集方法，它面向内网信息系统，通过各信息系统内置的检索引擎进行敏感信息的汇总采集，很好的保证了各信息系统的系统独立性，同时采集系统可以很方便的嵌入不同的复杂内网信息系统环境。其优点是应对内网信息系统的扩展，对于系统更改只是添加了一个搜索配置，对于敏感词的监控和存档，配置简单，无需定制专门的采集模版。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
为了对内网中海量信息进行有效的监控和存档，一个有效的采集系统是先决条件。现有的采集系统大多采用直接对网站进行采集的方式，首先，这样效率低下，对采集系统负载要求很高。曾经有研究采用分布式采集系统来提高采集效率，但是这对采集系统提出了较高的硬件要求，其次，需要面对各种不同的网站情况，对采集源的格式分析比较复杂，采集系统很难及时应对URL的频繁变化，最后，传统的采集系统大多以存档为主要目的，缺乏对采集内容的分析和重组，在浩瀚的内容面前很难及时发现热点和趋势。
技术实现思路
本专利技术的目的是提供一种结构简单的基于元搜索的内网信息采集方法。本专利技术的基于元搜索的内网信息采集方法，工作对象是内网发布的网站/信息系统，包括以下步骤分时启动采集程序；根据敏感词对内网信息系统内置搜索引擎的搜索条件构建；自动采集搜索结果。其中关键的采集流程如下 1、分时启动采集线程对于η个焦点，以现有设定的X个搜索引擎，采集任务启动后会发生最多η*22次对搜索引擎的访问，最多解析到η*χ*100条最新信息，去重、热点分析、统计信息更新，目标页面主体获取等操作会造成对网络和数据库的频繁访问，如果一个时点同时启动各个搜索引擎的采集线程，会对服务器硬件和网络环境造成过大的压力，对搜索引擎频繁的访问也容易被列入非正常访问黑名单，所以采用分时启动采集线程的模式执行采集任务。在采集前先根据当前采集周期(比如1小时)和焦点数量η计算两个焦点线程启动的时间间隔m秒(m=50*60/n)，在构造下一个焦点线程前主进程睡眠m秒，在此采集周期内会间隔性的有线程启动和退出，确保在同一...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：杨更，
申请(专利权)人：军工思波信息科技产业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人