一种政府项目信息提取方法技术

技术编号:39591776 阅读:4 留言:0更新日期:2023-12-03 19:46
本发明专利技术涉及数据处理技术领域,具体涉及一种政府项目信息提取方法

【技术实现步骤摘要】
一种政府项目信息提取方法、装置以及储存介质


[0001]本专利技术涉及数据处理
,尤其涉及一种政府项目信息提取方法

装置以及储存介质


技术介绍

[0002]随着互联网的发展,用户越来越重视从网络上获取信息,则需要针对不同的企业用户提供更多样且更精确的内容服务,随着经济下行压力越来越大,国家对中小企业扶持力度越来越大,会根据相关的相关产业的引导提供不同的扶持政策,扶持政策内容提供商给用户提供相关的政策申报内容给相关的企业,提醒服务时,需要获取相关的政策的基本信息和符合条件的企业相匹配,
[0003]因此,内容服务提供商需要先从相关政策公开网页获取相关的政策信息,并分析相关的政策信息,生成申报策略,并发送至企业用户终端


技术实现思路

[0004]本专利技术的目的在于提供一种政府项目信息提取方法

装置以及储存介质,旨在解决该方法在聚类分析政府项目信息数据时,具有精确度高

稳定性好

可靠性高

实时性强等优点

[0005]为实现上述目的,本专利技术提供了一种政府项目信息提取方法,其特征在于,包括以下步骤:
[0006]S1、
预处理提取原始政府项目文本关键词;
[0007]S2、
将所述关键词发送到网络搜索引擎,启动所述网络搜索引擎获得与所述关键词匹配的
URL
集;
[0008]S3、
对所
URL
集进行分类,筛选出符合条件的所述
URL
集存入备选库;
[0009]S4、
调取备选库中任一
URL
连接,截图获得到该
URL
连接页面所有出现与关键词匹配的页面图片;
[0010]S5、
对所述页面图片相关数据进行预处理,得到样本集
D、
聚类的簇数
k
以及最大迭代次数
N

[0011]S6、
基于聚类的簇数
k
和最大迭代次数
N
,采用
k
布朗运动聚类算法对样本集
D
进行聚类,得到聚类结果;
[0012]S7、
根据聚类结果,分析各个政府项目信息群组的特点和企业定位,得到企业匹配的分析结果;
[0013]S8、
基于企业匹配分析结果,制定相应的申报策略

[0014]进一步的,所述步骤
S2
中所述
URL
集相关连接后缀包括
gov

/

cn。
[0015]进一步的,所述步骤
S2
中所述关键词包括项目信息类型分类

支持行业领域分类

补贴方式分类和是否接受联合校企联合分类

[0016]进一步的,将所述关键词进行整合和标准化处理

[0017]进一步的,将所述关键词进行整合和标准化处理,具体步骤包括:
[0018]采用深度学习框架
PyTorch
,构建联合学习模型;
[0019]依据不同任务的难度与重要性,为不同的任务设置权重,并构建联合损失函数;
[0020]采用反向传播算法对联合损失函数进行优化,得到最终的联合学习模型;
[0021]基于最终的联合学习模型提取关键词

[0022]一种政府项目信息提取装置,其特征在于,包括
[0023]预处理模块,所述预处理模块用于,预处理提取原始政府项目文本关键词;
[0024]网络搜索引擎模块,所述网络搜索引擎模块用于,接受所述所述关键词启动所述网络搜索引擎获得与所述关键词匹配的
URL
集;
[0025]URL
集分类储存模块,所述
URL
集分类储存模块用于,对所述
URL
集进行分类储存,筛选出符合条件的所述
URL
集存入备选库;
[0026]网页提取模块,所述网页提取模块用于,调取备选库中任一
URL
连接,截图获得到该
URL
连接页面所有出现与关键词匹配的页面图片;
[0027]页面图片聚类模块,所述页面图片聚类模块用于,对所述页面图片相关数据进行预处理,得到样本集
D、
聚类的簇数
k
以及最大迭代次数
N
;基于聚类的簇数
k
和最大迭代次数
N
,采用
k
布朗运动聚类算法对样本集
D
进行聚类,得到聚类结果;根据聚类结果,分析各个政府项目信息群组的特点和企业定位,得到企业匹配的分析结果;
[0028]输出模块,所述输出模块基于企业匹配分析结果,输出制定相应的申报策略

[0029]一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任意一项所述方法中的步骤

[0030]有益效果是,本专利技术的一种政府项目信息提取方法,通过获取原始政府项目文件进行收集预处理;对预处理后的政府项目信息图片进行聚类;能够及时地响应政策变化,更准确地对政府项目的类容进行分析,为企业提供更准确的申报策略

具体实施方式
[0031]下面详细描述本专利技术的实施例,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件

下面描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制

[0032]实施例一
[0033]本专利技术提供了一种政府项目信息提取方法,其特征在于,包括以下步骤:
[0034]S1、
预处理提取原始政府项目文本关键词;进一步的将所述关键词进行整合和标准化处理

[0035]S2、
将所述关键词发送到网络搜索引擎,启动所述网络搜索引擎获得与所述关键词匹配的
URL
集;所述步骤
S2
中所述
URL
集相关连接后缀包括
gov

/

cn
;所述步骤
S2
中所述关键词包括项目信息类型分类

支持行业领域分类

补贴方式分类和是否接受联合校企联合分类

[0036]S3、
对所述
URL
集进行分类,筛选出符合条件的所述
URL
集存入备选库;
[0037]S4、
调取备选库中任一
URL
连接,截图获得到该
URL
连接页面所有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种政府项目信息提取方法,其特征在于,包括以下步骤:
S1、
预处理提取原始政府项目文本关键词;
S2、
将所述关键词发送到网络搜索引擎,启动所述网络搜索引擎获得与所述关键词匹配的
URL
集;
S3、
对所述
URL
集进行分类,筛选出符合条件的所述
URL
集存入备选库;
S4、
调取备选库中任一
URL
连接,截图获得到该
URL
连接页面所有出现与关键词匹配的页面图片;
S5、
对所述页面图片相关数据进行预处理,得到样本集
D、
聚类的簇数
k
以及最大迭代次数
N

S6、
基于聚类的簇数
k
和最大迭代次数
N
,采用
k
布朗运动聚类算法对样本集
D
进行聚类,得到聚类结果;
S7、
根据聚类结果,分析各个政府项目信息群组的特点和企业定位,得到企业匹配的分析结果;
S8、
基于企业匹配分析结果,制定相应的申报策略
。2.
根据权利要求1所述的政府项目信息分析方法,其特征在于,所述步骤
S2
中所述
URL
集相关连接后缀包括
gov

/

cn。3.
根据权利要求所述的一种政府项目信息提取方法,其特征在于,所述步骤
S2
中所述关键词包括项目信息类型分类

支持行业领域分类

补贴方式分类和是否接受联合校企联合分类
。4.
如权利要求3的所述政府项目信息提取方法,其特征在...

【专利技术属性】
技术研发人员:左小凡刘科周林
申请(专利权)人:四川联欣科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1