一种智能的政策信息采集和查询方法及其系统技术方案

技术编号:22531969 阅读:38 留言:0更新日期:2019-11-13 09:14
本发明专利技术涉及计算机人工智能数据处理技术领域,公开了一种智能的政策信息采集和查询方法,包括了S1:网络爬虫工具抓取全国各地政府网站上与科技政策有关的网页内容和附件,并将抓取到的网页内容和附件存储到Elasticsearch服务器中;S2:政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库;S3:文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取,并整合到Solr服务器中;S4:用户使用高企云搜索从Solr服务器中获取政策内容,本发明专利技术还公开了一种智能的政策信息采集和查询系统,本发明专利技术通过设置内容提取模块使得系统可以对政策信息附件的内容进行提取,便于用户对科技政策的快速查询。

An intelligent method and system for collecting and querying policy information

The invention relates to the field of computer artificial intelligence data processing technology, and discloses an intelligent policy information collection and query method, including S1: the web crawler tool grabs the web page content and accessories related to the science and technology policies on the government websites all over the country, and stores the captured web page content and accessories into the elasticsearch server; S2: the policy timing scheduling module from the elast Icsearch server obtains web content and attachments and stores them in the high enterprise cloud policy library; S3: file content extraction module analyzes and extracts web content and attachments of the high enterprise cloud policy library and integrates them into Solr server; S4: users use the high enterprise cloud search to obtain policy content from Solr server, and the invention also discloses an intelligent policy information collection and query system The system can extract the content of the policy information attachment by setting the content extraction module, which is convenient for users to quickly query the science and technology policy.

【技术实现步骤摘要】
一种智能的政策信息采集和查询方法及其系统
本专利技术涉及计算机人工智能数据处理
,特别是一种智能的政策信息采集和查询方法及其系统。
技术介绍
近几年,为增强企业自主创新能力,提高科技创新水平,国家、省、市区政府先后出台了一系列支持企业科技创新、成果转化、创新创业的政策。为打破政府部门之间存在的信息孤岛和数据分割的局面,方便用户快速了解最新的、所有的政策通知,国内一些科技政策服务平台把这些分布在各区域政府网站上的政策采集整理到一个平台上,并按区域、文件类型进行分类展示,这样可以省去用户到不同网站查看政策的麻烦,节省不少时间。当前的科技政策服务平台可以满足基本的一站式政策查询,但是对于想要快速系统性地了解某个行业或产业政策以及企业已获政策扶持信息的功能还有待完善。因为当前的科技政策服务平台只是对各政府网站政策通知正文内容进行采集和对所附附件进行直接转发,并未对所附附件内容进行相关的文字处理,而多数有效详细的政策信息和公示信息又均在附件中列出,导致实际使用中输入关键词不能有效识别筛选出所有有用的政策文件,仍需要逐个下载附件打开进行查看,这样比较费时费力,不便于为各类用户提供不同视角的本文档来自技高网...

【技术保护点】
1.一种智能的政策信息采集和查询方法,其特征在于,包括以下步骤:S1:网络爬虫模块抓取全国各地政府网站上与科技政策有关的网页内容和附件,并将抓取到的网页内容和附件存储到Elasticsearch服务器中;S2:政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库;S3:文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取,并整合到Solr服务器中;S4:用户使用高企云搜索从Solr服务器中获取政策内容。

【技术特征摘要】
1.一种智能的政策信息采集和查询方法,其特征在于,包括以下步骤:S1:网络爬虫模块抓取全国各地政府网站上与科技政策有关的网页内容和附件,并将抓取到的网页内容和附件存储到Elasticsearch服务器中;S2:政策定时调度模块从Elasticsearch服务器获取网页内容和附件并存放到高企云政策库;S3:文件内容提取模块将高企云政策库的网页内容和附件进行分析和提取,并整合到Solr服务器中;S4:用户使用高企云搜索从Solr服务器中获取政策内容。2.如权利要求1所述的一种智能的政策信息采集和查询的方法,其特征在于:所述的网络爬虫模块爬取网页内容过程S1流程如下:S11:爬虫获取初始的URL,从初始的URL开始爬取网页内容;S12:爬取的网页内容和附件存储到Elasticsearch服务器中,爬取到URL放入任务调度服务器的优先级队列中;S13:然后再对优先级队列中的URL进行再一次的爬取并重复上述步骤;S14:当满足系统设置的条件停止爬虫。3.如权利要求2所述的一种智能的政策信息采集和查询的方法,其特征在于:所述的网页附件内容的提取过程S3流程如下:S21:下载中心单元从高企云政策库下载网页内容和附件;S22:文件检查单元对网页附件类型进行检测,并将附件传给相应文件格式的解析器;S23:Word文件解析器、Pdf文件解析器、Excel文件解析器和OCR图片提取器分别提前相应格式文件的内容;S24:压缩文件解压器解压压缩文件并重复S22和S23步骤;S25:内容整合单元将各种文件解析器提取的文件内容整合并存储到Solr服务器。4.如权利要求3所述的一种智能的政策信息采集和查询的方法,其特征在于:所述的OCR图片提取器提取图片内容前使用图片预处理模块对图片进行二值化和降噪处理。5.一种智能政策信息采集和查...

【专利技术属性】
技术研发人员:费红琳肖巧巧丁杰倪向东
申请(专利权)人:广州高企云信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1