适用于专利公开科技数据库的信息抓取方法技术

技术编号:16129030 阅读:47 留言:0更新日期:2017-09-01 20:57
本发明专利技术涉及一种适用于专利公开科技数据库的信息抓取方法,设定独立的抓取模块,根据网段的不同设定抓取协议;衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取;检索后的数据文件首先在抓取服务器中进行存储;所述抓取服务器内的数据文件进行过滤后,进行解析;解析后的数据存入终端服务器并通过发布装置进行发布。由此,可依据网段的不同设定对应的抓取协议,减少抓取的匹配运算过程,提高抓取执行效率;可依据关键词制定抓取方式,获取有针对性数据。拥有完善的存储、过滤机制,提升数据的保存安全性,同时减少无效信息,便于文件汇总收录。可匹配常用的智能设备进行信息抓取后的发布,实施便捷。

Information crawling method suitable for patent open technology database

The present invention relates to a patent technology database information capture method, capture module set independently, according to different segments of the set protocol capture; foreign patent database data port connection, according to the set of keywords to grab; to retrieve the data file in the first capture server for storage; filtering the crawl the server in the data file, parse; after parsing the data stored in the terminal server and released via the release device. Accordingly, the corresponding grasping protocols can be set according to the network segments, which can reduce the matching operation process and improve the efficiency of grasping execution. Has a perfect storage and filtering mechanism to enhance data storage security, while reducing invalid information, easy to document collection included. It can match the commonly used intelligent equipment for information capture and release, and it is convenient to implement.

【技术实现步骤摘要】
适用于专利公开科技数据库的信息抓取方法
本专利技术涉及一种信息抓取方法,尤其涉及一种适用于专利公开科技数据库的信息抓取方法。
技术介绍
就现有的企业研发数据收集来看,往往是采用人工方式,通过关键词以及逻辑公式进行不同数据库的检索,以获得相关的资源信息。但是,这种搜集方式费时费力,搜集完毕后还需要通过人工进行二次比对,才能过滤出可用的参考信息。对于研发需求量大的部门或是企业,人力成本投入较大,且因为人员差异化会导致搜集差异。有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于专利公开科技数据库的信息抓取方法,使其更具有产业上的利用价值。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种适用于专利公开科技数据库的信息抓取方法。本专利技术的适用于专利公开科技数据库的信息抓取方法,其中:设定独立的抓取模块,根据网段的不同设定抓取协议。衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取。检索后的数据文件首先在抓取服务器中进行存储。同时,所述抓取服务器内的数据文件进行过滤后,进行解析。最终,解析后的数据存入终端服务器并通过发布装置进行发布。进一步地,上述的适用于专利公开本文档来自技高网...

【技术保护点】
适用于专利公开科技数据库的信息抓取方法,其特征在于:设定独立的抓取模块,根据网段的不同设定抓取协议;衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取;检索后的数据文件首先在抓取服务器中进行存储;所述抓取服务器内的数据文件进行过滤后,进行解析;解析后的数据存入终端服务器并通过发布装置进行发布。

【技术特征摘要】
1.适用于专利公开科技数据库的信息抓取方法,其特征在于:设定独立的抓取模块,根据网段的不同设定抓取协议;衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取;检索后的数据文件首先在抓取服务器中进行存储;所述抓取服务器内的数据文件进行过滤后,进行解析;解析后的数据存入终端服务器并通过发布装置进行发布。2.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所述抓取模块为网络爬虫模块,所述网络爬虫模块设有独立的抓取关键词管理库,通过设定时间段进行数据抓取。3.根据权利要求2所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所述设定时间为网络爬虫模块依据带宽负荷,在低于拥堵阈值时,进行抓取。4.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所述抓取协议为,抓取模块根据针对的内网、外网的带宽、数据传输效率、验证方式、原始数据格式,判断采用文本文件导出,或是html格式文件导出,或是图片格式文件导出,或...

【专利技术属性】
技术研发人员:孙娅罗亚利
申请(专利权)人:苏州唯亚信息科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1