【技术实现步骤摘要】
一种政府项目信息提取方法、装置以及储存介质
[0001]本专利技术涉及数据处理
,尤其涉及一种政府项目信息提取方法
、
装置以及储存介质
。
技术介绍
[0002]随着互联网的发展,用户越来越重视从网络上获取信息,则需要针对不同的企业用户提供更多样且更精确的内容服务,随着经济下行压力越来越大,国家对中小企业扶持力度越来越大,会根据相关的相关产业的引导提供不同的扶持政策,扶持政策内容提供商给用户提供相关的政策申报内容给相关的企业,提醒服务时,需要获取相关的政策的基本信息和符合条件的企业相匹配,
[0003]因此,内容服务提供商需要先从相关政策公开网页获取相关的政策信息,并分析相关的政策信息,生成申报策略,并发送至企业用户终端
。
技术实现思路
[0004]本专利技术的目的在于提供一种政府项目信息提取方法
、
装置以及储存介质,旨在解决该方法在聚类分析政府项目信息数据时,具有精确度高
、
稳定性好
、
可靠性高
、
实时性强等优点
。
[0005]为实现上述目的,本专利技术提供了一种政府项目信息提取方法,其特征在于,包括以下步骤:
[0006]S1、
预处理提取原始政府项目文本关键词;
[0007]S2、
将所述关键词发送到网络搜索引擎,启动所述网络搜索引擎获得与所述关键词匹配的
URL
集;
[0008]S3、
对所 ...
【技术保护点】
【技术特征摘要】
1.
一种政府项目信息提取方法,其特征在于,包括以下步骤:
S1、
预处理提取原始政府项目文本关键词;
S2、
将所述关键词发送到网络搜索引擎,启动所述网络搜索引擎获得与所述关键词匹配的
URL
集;
S3、
对所述
URL
集进行分类,筛选出符合条件的所述
URL
集存入备选库;
S4、
调取备选库中任一
URL
连接,截图获得到该
URL
连接页面所有出现与关键词匹配的页面图片;
S5、
对所述页面图片相关数据进行预处理,得到样本集
D、
聚类的簇数
k
以及最大迭代次数
N
;
S6、
基于聚类的簇数
k
和最大迭代次数
N
,采用
k
布朗运动聚类算法对样本集
D
进行聚类,得到聚类结果;
S7、
根据聚类结果,分析各个政府项目信息群组的特点和企业定位,得到企业匹配的分析结果;
S8、
基于企业匹配分析结果,制定相应的申报策略
。2.
根据权利要求1所述的政府项目信息分析方法,其特征在于,所述步骤
S2
中所述
URL
集相关连接后缀包括
gov
和
/
或
cn。3.
根据权利要求所述的一种政府项目信息提取方法,其特征在于,所述步骤
S2
中所述关键词包括项目信息类型分类
、
支持行业领域分类
、
补贴方式分类和是否接受联合校企联合分类
。4.
如权利要求3的所述政府项目信息提取方法,其特征在...
【专利技术属性】
技术研发人员:左小凡,刘科,周林,
申请(专利权)人:四川联欣科技服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。