The present invention relates to a patent technology database information capture method, capture module set independently, according to different segments of the set protocol capture; foreign patent database data port connection, according to the set of keywords to grab; to retrieve the data file in the first capture server for storage; filtering the crawl the server in the data file, parse; after parsing the data stored in the terminal server and released via the release device. Accordingly, the corresponding grasping protocols can be set according to the network segments, which can reduce the matching operation process and improve the efficiency of grasping execution. Has a perfect storage and filtering mechanism to enhance data storage security, while reducing invalid information, easy to document collection included. It can match the commonly used intelligent equipment for information capture and release, and it is convenient to implement.
【技术实现步骤摘要】
适用于专利公开科技数据库的信息抓取方法
本专利技术涉及一种信息抓取方法,尤其涉及一种适用于专利公开科技数据库的信息抓取方法。
技术介绍
就现有的企业研发数据收集来看,往往是采用人工方式,通过关键词以及逻辑公式进行不同数据库的检索,以获得相关的资源信息。但是,这种搜集方式费时费力,搜集完毕后还需要通过人工进行二次比对,才能过滤出可用的参考信息。对于研发需求量大的部门或是企业,人力成本投入较大,且因为人员差异化会导致搜集差异。有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于专利公开科技数据库的信息抓取方法,使其更具有产业上的利用价值。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种适用于专利公开科技数据库的信息抓取方法。本专利技术的适用于专利公开科技数据库的信息抓取方法,其中:设定独立的抓取模块,根据网段的不同设定抓取协议。衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取。检索后的数据文件首先在抓取服务器中进行存储。同时,所述抓取服务器内的数据文件进行过滤后,进行解析。最终,解析后的数据存入终端服务器并通过发布装置进行发布。进一步地, ...
【技术保护点】
适用于专利公开科技数据库的信息抓取方法,其特征在于:设定独立的抓取模块,根据网段的不同设定抓取协议;衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取;检索后的数据文件首先在抓取服务器中进行存储;所述抓取服务器内的数据文件进行过滤后,进行解析;解析后的数据存入终端服务器并通过发布装置进行发布。
【技术特征摘要】
1.适用于专利公开科技数据库的信息抓取方法,其特征在于:设定独立的抓取模块,根据网段的不同设定抓取协议;衔接专利公开数据库的对外数据端口,按照设定关键词进行抓取;检索后的数据文件首先在抓取服务器中进行存储;所述抓取服务器内的数据文件进行过滤后,进行解析;解析后的数据存入终端服务器并通过发布装置进行发布。2.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所述抓取模块为网络爬虫模块,所述网络爬虫模块设有独立的抓取关键词管理库,通过设定时间段进行数据抓取。3.根据权利要求2所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所述设定时间为网络爬虫模块依据带宽负荷,在低于拥堵阈值时,进行抓取。4.根据权利要求1所述的适用于专利公开科技数据库的信息抓取方法,其特征在于:所述抓取协议为,抓取模块根据针对的内网、外网的带宽、数据传输效率、验证方式、原始数据格式,判断采用文本文件导出,或是html格式文件导出,或是图片格式文件导出,或...
【专利技术属性】
技术研发人员:孙娅,罗亚利,
申请(专利权)人:苏州唯亚信息科技股份有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。