The invention discloses a page information extraction system and extraction method, which relates to the field of data processing. A page information extraction method of the present invention includes the following steps: page acquisition; 002: information extraction; 003: information duplication; 004: acquisition of announcement content; 005: automatic classification; 006: generation of index; 007: information analysis and extraction; 008: saving to data. Library. By asynchronously accessing multiple servers and collecting multiple web page data at the same time, the invention uses the technical means of the Internet to conduct data analysis, matches perceived information for users, intelligently sorts and filters user information, pushes accurate matching information for users in real time, improves the speed of web page information acquisition and improves the speed of web page information acquisition. Accuracy greatly increases the user experience.
【技术实现步骤摘要】
一种页面信息提取系统及提取方法
本专利技术属于数据提取领域,特别是涉及一种页面信息提取系统及提取方法。
技术介绍
按照预估计,全国公共采购招标网站在4000个以上,如果计入大型企业网站发布的招标信息在内可能在10000家以上。有些企业网站需要注册以后才能登录访问招标信息;要快速采集全国各招标网站最新发布的招标信息,必须对这几千上万的网站相关页面进行多线程并行自动访问。在现有技术中,由于网页采集招标信息需要从几百上千个网站上获取,导致招标信息采集过慢、采集信息不准确,影响了用户快速了解招标信息。本专利技术提出一种信息提取方法,根据需要进行多服务器同时采集。同一个网页采集线程需要管理几百上千个网站页面的获取,因此网页获取要采用异步访问模式,加快获取的速度。
技术实现思路
本专利技术的目的在于提供一种页面信息提取系统及提取方法,通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,解决了现有的网页信息采集过慢、信息精准度不足、用户体验不佳的问题。为解决上述技术问题,本专利技术是通过以下技术方案实现的:本专利技术为一种页面信息提取方法,包括如下步骤:步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;步骤S003信息去重:抽取信息完成后,将重复的信息删除;步骤S004获取公告内容:通过线程获取公告内容;步骤S005自动分类: ...
【技术保护点】
1.一种页面信息提取方法,其特征在于,包括如下步骤:步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;步骤S003信息去重:抽取信息完成后,将重复的信息删除;步骤S004获取公告内容:通过线程获取公告内容;步骤S005自动分类:对获取的公告内容进行分类;步骤S006生成索引:对分类完成的公告内容创建索引;步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;步骤S008保存至数据库:将发送的信息保存到系统数据库。
【技术特征摘要】
1.一种页面信息提取方法,其特征在于,包括如下步骤:步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;步骤S003信息去重:抽取信息完成后,将重复的信息删除;步骤S004获取公告内容:通过线程获取公告内容;步骤S005自动分类:对获取的公告内容进行分类;步骤S006生成索引:对分类完成的公告内容创建索引;步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;步骤S008保存至数据库:将发送的信息保存到系统数据库。2.根据权利要求1所述的一种页面信息提取方法,其特征在于,所述步骤S002中,页面信息抽取包括以下步骤:步骤T001页面预处理:通过JavaHTMLParser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;步骤T003加载页面抽取规格:根据需求加载对应的抽取规则;步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;步骤T007输出结构化公告信息组:将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。3.根据权利要求2所述的一种页面信息提取方法,其特征在于,所述步骤T003中,抽取规格通过正则表达式制定。4.如根据权利要求1-3任意一所述的一种页面...
【专利技术属性】
技术研发人员:宋小俐,
申请(专利权)人:芜湖瑞芬莱网络科技有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。