一种页面信息提取系统及提取方法技术方案

技术编号:19647130 阅读:27 留言:0更新日期:2018-12-05 20:33
本发明专利技术公开了一种页面信息提取系统及提取方法,涉及数据处理领域。本发明专利技术的一种页面信息提取方法包括如下步骤:步骤S001:页面获取;步骤S002:信息提取;步骤S003:信息去重;步骤S004:获取公告内容;步骤S005:自动分类;步骤S006:生成索引;步骤S007:信息分析提取;步骤S008:保存至数据库。本发明专利技术通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,提高了网页信息采集速度以及精准度,极大的增加了用户体验度。

A Page Information Extraction System and Method

The invention discloses a page information extraction system and extraction method, which relates to the field of data processing. A page information extraction method of the present invention includes the following steps: page acquisition; 002: information extraction; 003: information duplication; 004: acquisition of announcement content; 005: automatic classification; 006: generation of index; 007: information analysis and extraction; 008: saving to data. Library. By asynchronously accessing multiple servers and collecting multiple web page data at the same time, the invention uses the technical means of the Internet to conduct data analysis, matches perceived information for users, intelligently sorts and filters user information, pushes accurate matching information for users in real time, improves the speed of web page information acquisition and improves the speed of web page information acquisition. Accuracy greatly increases the user experience.

【技术实现步骤摘要】
一种页面信息提取系统及提取方法
本专利技术属于数据提取领域,特别是涉及一种页面信息提取系统及提取方法。
技术介绍
按照预估计,全国公共采购招标网站在4000个以上,如果计入大型企业网站发布的招标信息在内可能在10000家以上。有些企业网站需要注册以后才能登录访问招标信息;要快速采集全国各招标网站最新发布的招标信息,必须对这几千上万的网站相关页面进行多线程并行自动访问。在现有技术中,由于网页采集招标信息需要从几百上千个网站上获取,导致招标信息采集过慢、采集信息不准确,影响了用户快速了解招标信息。本专利技术提出一种信息提取方法,根据需要进行多服务器同时采集。同一个网页采集线程需要管理几百上千个网站页面的获取,因此网页获取要采用异步访问模式,加快获取的速度。
技术实现思路
本专利技术的目的在于提供一种页面信息提取系统及提取方法,通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,解决了现有的网页信息采集过慢、信息精准度不足、用户体验不佳的问题。为解决上述技术问题,本专利技术是通过以下技术方案实现的:本专利技术为一种页面信息提取方法,包括如下步骤:步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;步骤S003信息去重:抽取信息完成后,将重复的信息删除;步骤S004获取公告内容:通过线程获取公告内容;步骤S005自动分类:对获取的公告内容进行分类;步骤S006生成索引:对分类完成的公告内容创建索引;步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;步骤S008保存至数据库:将发送的信息保存到系统数据库。优选地,所述步骤S002中,页面信息抽取包括以下步骤:步骤T001页面预处理:通过JavaHTMLParser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;步骤T003加载页面抽取规格:根据需求加载对应的抽取规则;步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;步骤T007输出结构化公告信息组:将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。优选地,所述步骤T003中,抽取规格通过正则表达式进行制定。本专利技术为一种页面信息提取方法的提取系统,包括手机APP、交换机和应用服务器;所述手机APP通过互联网与交换机无线连接;所述互联网和应用服务器之间设有一安全设备;所述交换机用于为多个网络节点提供独享的电性通路;所述应用服务器包括存储模块、消息推送模块、检索模块、日志模块、推荐模块、消息采集模块、分析模块和通信模块;所述存储模块用于存储采集信息、日志信息和推送信息;所述检索模块用于用户通过关键字进行全文检索;所述日志模块用于对用户的操作生成日志;所述推荐模块用于根据用户的使用习惯,用户查询时优先显示其喜好的信息;所述消息采集模块用于采集页面信息和推送信息;所述通信模块用于应用服务器与交换机之间通信连接。优选地,所述检索模块采用全文检索技术,公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库。优选地,所述应用服务器为多个;所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器;其中,所述公告采集服务器、推送信息生成、分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器均匀交换机通信连接;所述手机APP应用服务器通过反向代理或负载均衡服务器与交换机通信连接。优选地,所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器均统一部署、配置。本专利技术具有以下有益效果:本专利技术通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,提高了网页信息采集速度以及精准度,极大的增加了用户体验度。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的一种页面信息提取方法步骤图;图2为页面信息抽取步骤图;图3为专利技术的一种页面信息提取系统结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1所示,本专利技术为一种页面信息提取方法,包括如下步骤:步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;例如一批可以同时异步访问100个页面,一个采集循环分10批完成,具体运行几个采集线程,分几批,每批并发获取多少页面需要实际选择不同参数试验来确定;步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取,抽取的信息包括招标信息和中标信息等等;步骤S003信息去重:抽取信息完成后,将重复的信息删除,只保留最新的信息;步骤S004获取公告内容:通过线程获取公告内容,获取公告内容只需1-2个线程获取,然后将获取的信息提交的数据产生模块和自动分类模块;步骤S005自动分类:对获取的公告内容进行分类;步骤S006生成索引:对分类完成的公告内容创建索引;步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;步骤S008保存至数据库:将发送的信息保存到系统数据库,使用一线程专门负责信息到数据库的保存。请参阅图2所示,步骤S002中,页面信息抽取包括以下步骤:步骤T001页面预处理:通过JavaHTMLParser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;步骤T003加载页面抽取规格:根据需求加载对应的抽取规则;步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;步骤T005按抽取规则搜索DOM节点:通过模本文档来自技高网...

【技术保护点】
1.一种页面信息提取方法,其特征在于,包括如下步骤:步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;步骤S003信息去重:抽取信息完成后,将重复的信息删除;步骤S004获取公告内容:通过线程获取公告内容;步骤S005自动分类:对获取的公告内容进行分类;步骤S006生成索引:对分类完成的公告内容创建索引;步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;步骤S008保存至数据库:将发送的信息保存到系统数据库。

【技术特征摘要】
1.一种页面信息提取方法,其特征在于,包括如下步骤:步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;步骤S003信息去重:抽取信息完成后,将重复的信息删除;步骤S004获取公告内容:通过线程获取公告内容;步骤S005自动分类:对获取的公告内容进行分类;步骤S006生成索引:对分类完成的公告内容创建索引;步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;步骤S008保存至数据库:将发送的信息保存到系统数据库。2.根据权利要求1所述的一种页面信息提取方法,其特征在于,所述步骤S002中,页面信息抽取包括以下步骤:步骤T001页面预处理:通过JavaHTMLParser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;步骤T003加载页面抽取规格:根据需求加载对应的抽取规则;步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;步骤T007输出结构化公告信息组:将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。3.根据权利要求2所述的一种页面信息提取方法,其特征在于,所述步骤T003中,抽取规格通过正则表达式制定。4.如根据权利要求1-3任意一所述的一种页面...

【专利技术属性】
技术研发人员:宋小俐
申请(专利权)人:芜湖瑞芬莱网络科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1