一种情报收集处理和检索系统技术方案

技术编号:2831788 阅读:213 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了情报收集处理和检索系统,包括:策略管理模块,对数据挖掘处理模块的抓取策略、模式设置以及情报特征进行配置管理;数据挖掘处理模块,根据互联网资源进行搜索,并保存抓取的数据,识别后提取有效信息,进行筛选,将保留的情报信息写入情报数据库保存;检索模块,对情报数据库中情报信息进行加工,生成摘要信息,并对情报信息进行归类,形成索引库;情报数据库,用于存储数据挖掘处理模块传来的情报信息、以及检索模块写回的情报信息,并提供给浏览检索界面进行检索;浏览检索界面,接收用户查询请求,通过情报数据库进行检索。本系统可以比较全面地、及时地收集情报信息,自动进行情报的后续加工处理,并可以集中的检索和浏览。

【技术实现步骤摘要】

本专利技术涉及一种情报收集处理和检索系统,具体地涉及网络信息处理 系统中一种利用网络数据挖掘和自然语言处理及搜索引擎进行情报收集、 处理和4企索的系统。
技术介绍
情报信息分析,是商业活动中的重要环节。而情报信息收集和处理是 情报信息得以利用的第一步,也是关键的一步。情报信息收集处理工作的 好坏,直接关系到整个情报信息管理工作的质量。为了保证情报信息收集 的质量,应做到准确,全面,和时效性。目前情报信息收集有如下一些手段社会调查,运用观察、询问等方 法直接从社会中了解情况,收集资料和数据;收集新闻媒体情报,包括一 般书报的相关记载,业界书报的新制品介绍、业界的动向、商品动向、市 场状况等相关记事,有关消费者动态和倾向之杂志报告记事,政府及地方 公共团体所发行的消费者调查报告,业界研讨会、讲习会等情报,各种研 究机关的调查及建议案等;收集各种专业技术刊物,会议文献,论文,文 章,文档等技术和商业资料;收集其他公司内部的市场资料,销售资料, 技术资料,人员资料等。目前的情报信息收集方式主要存在以下问题1)投入人力物力耗费 大。采用社会调查和收集其他公司内部的资料都需要付出额外的人力或者 物力,因此通常都作为单次的补充手段或者临时手段;2)难以保障情报 信息收集的全面性。通过人员收集新闻媒体情报或者专业刊物上的情报资 料,难以保障情报信息收集的全面性。因为相关的媒体情报信息资料与互 联网信息资料庞大,通过手工方式很难保障收集的全面性;3)难以保障情报信息收集的及时性。通过人工方式收集,通常效率比较低,周期长,因此难以保障情报信息收集的及时性;4)情报信息的汇总,摘要,整理, 分类困难。由于人工方式收集到的资料形式各异,包括电子的,纸质的等 形式很难进行汇总,摘要,整理,分类,给后续的分析处理带来困难。专利200610038392.6中提出了仿人工细粒度网页信息采集方法,能 够提高细分采集信息价值,所采集到的细分信息可以直接用于商务情报的 分析、各类数据库系统的数据源。但该专利并没有形成完备的情报处理检 索系统。
技术实现思路
本专利技术要解决的技术问题是提供一种情报收集处理和检索系统,可以 比较全面地、及时地收集情报信息,自动进行情报的后续加工处理,并可 以集中的检索和浏览,节省大量费用。为了解决上述问题,本专利技术提供了一种情报收集处理和检索系统,包括策略管理模块,对数据挖掘处理模块的抓取策略、模式设置以及情报 特征进行配置管理;数据挖掘处理模块,根据互联网提供的资源,进行爬行搜索,并将抓 取到网络数据保存下来,识别后提取出其中的有效信息,之后进行筛选过 滤,将保留的情报信息内容写入情报数据库中保存;检索模块,对所述情报数据库中情报信息的完整内容进行加工,生成 摘要信息,并对情报信息进行归类处理,形成用于搜索的索引库,并提供 检索功能;情报数据库,用于存储所述数据挖掘处理模块传来的情报信息、以及 所述检索模块处理后写回的情报信息,并提供给浏览检索界面进行检索;浏览检索界面,接收使用者查询请求,通过所述情报数据库进行检索, 分类查看、浏览摘要及全文内容;进一步的,本专利技术所述的系统,其中,所述数据挖掘处理模块的抓取策略,包括抓取的页面类型、文档类型、抓取站点列表、以及扫描间隔; 所述模式设置,包括页面数据的格式;所述情才艮特征,包括所迷保留 的情t艮信息的文本文字特征;进一步的,本专利技术所述的系统,其中,所述数据挖掘处理模块,还包括网络抓取子模块,根据所述抓取策略中互联网页面列表、站点列表或 者网段列表,对站点进行爬行搜索,并根据策略中配置的页面类型和文档 类型将抓取到的匹配的页面、文档、数据保存下来,并交给模式识别子模 块进行处理,同时根据配置的时间策略,定时对抓取结果进行增量更新, 或者进行完全的重新抓取;模式识别子模块,根据所述策略管理模块配置的模式设置,对所述网 络抓取子模块抓取下来的内容进行识别,按信息域提取出有效信息,完毕 后通知特征识别子模块进行处理;特征识别子模块,按所述策略管理模块配置的情报特征,对所述模式 识别子模块传来的有效信息按信息域进行筛选过滤,过滤掉非情报信息、 和非关注情报,保留关注的情报信息内容,将其写入所述情报数据库中保 存;进一步的,本专利技术所述的系统,其中,所述网络抓取子模块,对指定 站点进行爬行搜索的过程,由系统定期自动进行或者手动触发;进一步的,本专利技术所述的系统,其中,所述网络抓取子模块,还用于 对地址段进行大范围的扫描收集;进一步的,本专利技术所述的系统,其中,所述检索模块,还包括自动摘要子模块,读取所述情报数据库中的情报信息的完整内容,对 内容字段中的文本信息进行加工,生成整个情报内容的摘要信息,并保存 回所述情报数据库中;自动分类子模块,读取所述情报数据库中的情寺艮信息的完整内容,根 据内容字段中的文本信息进行归类处理、生成分类类别,并将生成的类别信息保存回所述情报数据库中;搜索引擎子模块,读取所述情报数据库中的情报信息的完整内容,并 根据内容字段中的文本信息生成用于搜索的索引库,该索引库独立保存, 提供检索功能;进一步的,本专利技术所述的系统,其中,所述自动摘要子模块,使用自 然语言处理方式的摘要生成方法,根据所述文本信息自动生成摘要信息;进一步的,本专利技术所述的系统,其中,所述自动分类子模块,使用自 然语言处理方式的文章分类方法,根据所述文本信息自动进行情报信息的 归类;进一步的,本专利技术所述的系统,其中,所述浏览检索界面,包括普 通窗口界面、以及网页界面。与现有技术相比,本专利技术所述系统,实现了以下有益效果(1) 费用节省。通过互联网信息抓取方式,可以免费地获取情报信 息,除某些站点和资料需要协议付费外,大量的站点和资料可以免费访问;(2) 可以比较全面地收集情报信息。由于可以指定页面,站点,甚 至网^殳进行爬行抓取,因此系统可以针对这些站点的内容进行全面的爬行 抓取,并通过特征识别模块获取较准确的情报信息。对于站点中的新信息, 系统能够在爬行遍历中捕获到和模式识别自动提取出来;(3) 可以及时地收集情报信息。网络抓取模块根据配置的策略,定 时地对站点进行爬行4爪取,对变化的信息进行更新,同时发现新的信息, 使情报数据库中的记录能够保持最新状态;(4) 系统自动进行情报的后续加工处理。系统中,摘要模块和分类 模块可以对情报数据库中的情报信息进行加工处理,搜索引擎系统对情报信息创建索引,便于情报分析时分类检索和查询;(5)可以集中的检索和浏览,由于收集和加工处理的情报信息都存 储在情报数据库中,因此便于通过浏览检索界面进行分类检索和搜索查询浏览。附图说明图1是本专利技术实施例中提出的一种情报收集和处理系统的结构示意图;图2是本专利技术实施例中情报信息的检索和浏览过程的方法流程图。具体实施方式本专利技术为了解决传统技术方案存在的弊端,通过以下具体实施例进一 步阐述本专利技术所述的一种情报收集处理和检索系统,以下对具体实施方式 进行详细描述,但不作为对本专利技术的限定。如图l所示,是本专利技术实施例中提出的一种情报收集和处理系统的结 构示意图,其中虚框部分是系统外部模块,其他是系统内部模块,该系统包括策略管理模块102,完成配置管理功能,包括抓取模块的抓取策略配 置,模式识别模块的模式设置,特征识别模块本文档来自技高网
...

【技术保护点】
一种情报收集处理和检索系统,其特征在于,包括:策略管理模块,对数据挖掘处理模块的抓取策略、模式设置以及情报特征进行配置管理;数据挖掘处理模块,根据互联网提供的资源,进行爬行搜索,并将抓取到网络数据保存下来,识别后提取出其中的有效信息,之后进行筛选过滤,将保留的情报信息内容写入情报数据库中保存;检索模块,对所述情报数据库中情报信息的完整内容进行加工,生成摘要信息,并对情报信息进行归类处理,形成用于搜索的索引库,并提供检索功能;情报数据库,用于存储所述数据挖掘处理模块传来的情报信息、以及所述检索模块处理后写回的情报信息,并提供给浏览检索界面进行检索;浏览检索界面,接收使用者查询请求,通过所述情报数据库进行检索,分类查看、浏览摘要及全文内容。

【技术特征摘要】
1、一种情报收集处理和检索系统,其特征在于,包括策略管理模块,对数据挖掘处理模块的抓取策略、模式设置以及情报特征进行配置管理;数据挖掘处理模块,根据互联网提供的资源,进行爬行搜索,并将抓取到网络数据保存下来,识别后提取出其中的有效信息,之后进行筛选过滤,将保留的情报信息内容写入情报数据库中保存;检索模块,对所述情报数据库中情报信息的完整内容进行加工,生成摘要信息,并对情报信息进行归类处理,形成用于搜索的索引库,并提供检索功能;情报数据库,用于存储所述数据挖掘处理模块传来的情报信息、以及所述检索模块处理后写回的情报信息,并提供给浏览检索界面进行检索;浏览检索界面,接收使用者查询请求,通过所述情报数据库进行检索,分类查看、浏览摘要及全文内容。2、 如权利要求l所述的系统,其特征在于,所述数据挖掘处理才莫块 的抓取策略,包括抓取的页面类型、文档类型、抓取站点列表、以及扫 描间隔;所述模式设置,包括页面数据的格式;所述情报特征,包括所述保留的情报信息的文本文字特征。3、 如权利要求2所述的系统,其特征在于,所述数据挖掘处理模块, 还包括网络抓取子模块,根据所述抓取策略中互联网页面列表、站点列表或 者网段列表,对站点进行爬行搜索,并根据策略中配置的页面类型和文档 类型将抓取到的匹配的页面、文档、数据保存下来,并交给模式识别子模 块进行处理,同时根据配置的时间策略,定时对抓取结果进行增量更新, 或者进行完全的重新抓取;模式识别子模块,根据所述策略管理模块配置的模式设置,对所述网 络抓取子模块抓取下来的内容进行识别,按信息域提取出有...

【专利技术属性】
技术研发人员:游波刘丽丽
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1