一种基于大数据的政策采集、清洗及自动精准推送的方法技术

技术编号:30101776 阅读:13 留言:0更新日期:2021-09-18 09:07
本发明专利技术属于有计算机应用技术领域,尤其涉及一种基于大数据的政策采集、清洗及自动精准推送的方法。本发明专利技术根据政策文件的特性,整理出相应的关键词,然后,利用网络爬虫的爬取相关的政策文献并对政策文献的进行分析,结合企业的基本信息,形成信息匹配,进而实现对企业的政策精准推送,为企业解决最后一公里的问题,让更多的企业、人才获得政策红利。同时,本发明专利技术方法简单、操作方便,适合大规模推广使用。适合大规模推广使用。

【技术实现步骤摘要】
一种基于大数据的政策采集、清洗及自动精准推送的方法


[0001]本专利技术属于有计算机应用
,尤其涉及一种基于大数据的政策采集、清洗及自动精准推送的方法。

技术介绍

[0002]企业的发展必须广泛的了解国家和地方以及行业协会的相应政策要求,这样才能遵守国家法律制度、了解行业运行规则、充分运用政策红利、做大做强企业主体、提升企业的市场竞争力,为企业发展保驾护航。
[0003]随着《优化营商环境条例》的正式实施,在政策服务方面明确指出了政府部门要不断完善政策措施,落实政策惠及企业、人才主体。虽然优惠政策种类繁多,但是各种政策相对分散、申报条件迥异、信息不对称等各种问题,让不少企业、人才错失好政策,不能获得真正的扶持,政策俨然成了摆设,使得企业、人才颇为失望。为完成政策服务的“最后一公里”,让更多的企业、人才获得政策红利,如何从海量的数据中,真正把政策红利释放出来,使得他们可以解决后顾之忧,让企业获得更多优惠、让人才安于创新、专于创业,成为信息技术处理领域重要的研究方向。

技术实现思路

[0004]本专利技术针对上述的政策的精准推送所存在的计算问题,提出一种设计合理、方法简单、操作方便且能够实现政策对相应企业实现精准推送的一种基于大数据的政策采集、清洗及自动精准推送的方法。
[0005]为了达到上述目的,本专利技术采用的技术方案为,本专利技术提供一种基于大数据的政策采集、清洗及自动精准推送的方法,包括以下有效步骤:
[0006]a、首先根据以往政府政策的内容提取关键词,构建关键词集,其中,所述关键词集包括主题关键词集和约束关键词集;
[0007]b、将政府的相关网站加入到初始地址URL种子集;
[0008]c、利用主题关键词集中的关键词形成主题爬虫,从初始地址URL种子集开始,分析爬行网页的主题相关度,将与主题相关的网页存储到数据库中;
[0009]d、分析数据库内网页的文本内容,根据约束关键词集内的关键词将含有关键词的句子提取出来;
[0010]e、根据约束关键词集对提取出来含有关键词的句子进行分析,获取关键约束属性集;
[0011]f、根据约束关键词集构建含有企业信息的企业推荐属性集;
[0012]g、将获取的关键约束属性集和企业推荐属性集进行一一比对,确定只有企业推荐属性集内的所有属性与关键约束属性集中的所有约束属性都匹配成功时,则将含有此关键约束属性集的网页推送给企业。
[0013]作为优选,所述c步骤,当网络爬虫对URL种子集内网页进行爬取时,先搜索完一个
种子网页内所有连接,然后在搜索下一层所有链接,返回执行下下一层的搜索,直到最底层。
[0014]作为优选,所述d步骤中,包括以下有效步骤:
[0015]d1、首先选取适当的分隔符对网页的文本内容的句子分割成句子集P={S1,...S
N
},其中N为句子的总数;
[0016]d2、然后将每个句子进行分词,得到当前句子的分词集Si={w
i1
,....,w
im
},其中m为当前句子分词集的词语总数;
[0017]d3、根据公式:
[0018]Ass(k,Si)=|<wk|wk∈Si&wk∈k>|
[0019]其中,Ass(KW,Si)为关键词和当前句子的关联度;将含有关键词的句子提取出来。
[0020]作为优选,所述关键约束属性集和企业推荐属性集均包括属性名称和属性值。
[0021]作为优选,所述g步骤中,根据杜威十进制分类法的特征确定关键约束属性集和企业推荐属性集中企业所属的领域属性。
[0022]作为优选,根据杜威十进制分类法查找约束关键词集内以及企业推荐属性集内关键词的分类号,然后运用杜威十进制分类法的关键词号码的长度作为X轴,关键词分类号码作为Y轴,将关键约束属性集和企业推荐属性集内关键词对应的杜威十进制分类号码在二维坐标绘制相应的点,若企业推荐属性集内关键词所形成的点在关键约束属性集内关键词点的附近或重合,则判断领域属性匹配成功,若远离,则领域属性匹配不成功。
[0023]与现有技术相比,本专利技术的优点和积极效果在于,
[0024]1、本专利技术提供一种基于大数据的政策采集、清洗及自动精准推送的方法,根据政策文件的特性,整理出相应的关键词,然后,利用网络爬虫的爬取相关的政策文献并对政策文献的进行分析,结合企业的基本信息,形成信息匹配,进而实现对企业的政策精准推送,为企业解决最后一公里的问题,让更多的企业、人才获得政策红利。同时,本专利技术方法简单、操作方便,适合大规模推广使用。
具体实施方式
[0025]为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合实施例对本专利技术做进一步说明。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0026]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用不同于在此描述的其他方式来实施,因此,本专利技术并不限于下面公开说明书的具体实施例的限制。
[0027]实施例1,本实施例提供一种基于大数据的政策采集、清洗及自动精准推送的方法
[0028]首先根据以往政府政策的内容提取关键词,构建关键词集,网站的抓取主要是利用网络爬虫来进行抓取,现有的网络爬虫有两种,一种是通用型的网络爬虫,一种是主题型的网络爬虫,相对于通用型的网络爬虫,主题型的网络爬虫的针对性更强,而主题型的网络爬虫就需要相应的主题,为此,在构建主题时,先根据政策以往发布的政策内容来确定主题,根据分析,针对申报类的政策而言,其在文本中都含有“申报条件”的要求,为此,“申报条件”可以作为关键词之一,另外,还有“高新技术企业”、“一企一技术”、“国家级知识产权
示范中心”、“省级实验室”、“国家级实验室”等申报类的政策,此类名称都可以作为主题型网络爬虫爬取的主题词。
[0029]考虑到现有的文本摘要技术主要是通过词汇在文本中大量出现,来获取出相应的关键词,而申报类中申报条件中,所出现的词语一般都为一次性出现,为此,采用此类技术无法实现对政策的解读,为此,根据以往的政策的申报条件要求,可以将其形成关键词,这样,可以利用此类关键词,将需要的申报条件提取出来,为此,根据政府以往的政策文献的要求可以生成的关键词集就包括用于主题型网络爬虫搜索的主题关键词集以及用于实现对文献清洗解读、分析的约束关键词集。
[0030]由于政府的政策在发布后,在一些其他外网的网站上也可以看到类似的文献,这样,就导致主题型网络爬虫在根据主题爬取网站时会爬取过多的重复的文献,考虑到政府网站在发布相关政策要求时,仅会发布一次,那么将政府的相关网站加入到主题型网络爬虫爬取的初始地址URL种子集,就可以避免到大量重复文本的出现,进而省去了重复计算的过去,保留了带宽,为快速筛选提供了保障,考虑到申报类的政策往往有县级、市级、省级以及国家级的要求,为此,需要本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,包括以下有效步骤:a、首先根据以往政府政策的内容提取关键词,构建关键词集,其中,所述关键词集包括主题关键词集和约束关键词集;b、将政府的相关网站加入到初始地址URL种子集;c、利用主题关键词集中的关键词形成主题爬虫,从初始地址URL种子集开始,分析爬行网页的主题相关度,将与主题相关的网页存储到数据库中;d、分析数据库内网页的文本内容,根据约束关键词集内的关键词将含有关键词的句子提取出来;e、根据约束关键词集对提取出来含有关键词的句子进行分析,获取关键约束属性集;f、根据约束关键词集构建含有企业信息的企业推荐属性集;g、将获取的关键约束属性集和企业推荐属性集进行一一比对,确定只有企业推荐属性集内的所有属性与关键约束属性集中的所有约束属性都匹配成功时,则将含有此关键约束属性集的网页推送给企业。2.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述c步骤,当网络爬虫对URL种子集内网页进行爬取时,先搜索完一个种子网页内所有连接,然后在搜索下一层所有链接,返回执行下下一层的搜索,直到最底层。3.根据权利要求1所述的一种基于大数据的政策采集、清洗及自动精准推送的方法,其特征在于,所述d步骤中,包括以下有效步骤:d1、首先选取适当的分隔符对网页的文本内容的句子分割成句子集P={S1,...S
...

【专利技术属性】
技术研发人员:党文锐王庆雷冯兆红黄德凤田龙美桑婷陈明辉
申请(专利权)人:山东北斗科技信息咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1