一种基于聚类算法的产业链图谱生成方法、装置、设备及存储介质制造方法及图纸

技术编号:38862111 阅读:32 留言:0更新日期:2023-09-17 10:04
本申请涉及数据处理领域,本申请提供一种基于聚类算法的产业链图谱生成方法、装置、设备及存储介质,所述方法使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息;基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;根据所述预设图形数据库生成企业产业链关系图谱;将企业的企业实体信息进行集合并降维,得到企业数据集,根据预设的聚类算法模型将所述企业数据集进行分类,得到企业类别信息,将所述企业类别信息添加到所述企业关系图谱中。快速生成企业产业链图谱,便于用户对企业产业链的位次进行识别。进行识别。进行识别。

【技术实现步骤摘要】
一种基于聚类算法的产业链图谱生成方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种基于聚类算法的产业链图谱生成方法、装置、设备及存储介质。

技术介绍

[0002]产业链是一个包含价值链、企业链、供需链和空间链四个维度的概念。这四个维度在相互对接的均衡过程中形成了产业链,这种“对接机制”是产业链形成的内模式,在互联网中,存有海量的企业信息数据以供用户进行浏览,然而面对海量的企业信息数据,用户只能浏览网络中静态的企业信息,而无法从网络中提取用户所需的有用企业信息并对企业产业链进行关联分析,从而导致从海量企业信息数据中获取有用的企业产业链信息并进行分析的效率较低。

技术实现思路

[0003]本专利技术的主要目的在于提供一种基于聚类算法的产业链图谱生成方法、装置、设备及计算机可读存储介质,旨在解决现有从网络上获取企业产业链关联信息效率低下的技术问题。
[0004]为实现上述目的,本专利技术提供一种基于聚类算法的产业链图谱生成方法,所述基于聚类算法的产业链图谱生成方法包括:使用网络爬虫算法从全国企本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于聚类算法的产业链图谱生成方法,其特征在于,所述基于聚类算法的产业链图谱生成方法包括以下步骤:使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息;基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;根据所述预设图形数据库生成企业产业链关系图谱;将企业的企业实体信息进行集合并降维,得到企业数据集,根据预设的聚类算法模型将所述企业数据集进行分类,得到企业类别信息,将所述企业类别信息添加到所述企业关系图谱中。2.如权利要求1所述的基于聚类算法的产业链图谱生成方法,其特征在于,所述使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息,包括:确定所要爬取的全国企业信用信息公示系统、企业年报的URL地址;遍历所确定的URL地址中的企业信息,并获取URL地址中的企业信息。3.如权利要求1所述的基于聚类算法的产业链图谱生成方法,其特征在于,所述基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系之后,所述方法还包括:若企业信息中存在多个企业实体以及多个实体关系,将所抽取的多个企业实体存储于预设的实体集合中,将所抽取的多个实体关系存储于预设的关系集合中。4.如权利要求1所述的基于聚类算法的产业链图谱生成方法,其特征在于,所述根据所述预设图形数据库生成企业产业链关系图谱,包括:从所述预设图形数据库中提取出企业实体关系数据,并根据所述企业实体关系数据确定企业ID和企业名称;将所述企业ID和企业名称封装为企业节点并存放在预设节点数组中,在所述节点数组中添加企业股东和企业对外投资企业名称作为两个辅助节点;将所述企业实体关系数据中的企业与企业之间的交易关系、企业与企业之间的业务合作关系和企业与企业之间的投资关系存储到预设连线数组中;使用网页画布将所述预设节点数组、辅助节点以及预设连线数组传入所述网页画布的力导向布局中,并根据所述网页画布的力导向布局生成所述企业产业链关系图谱。5.如权利要求1所述的基...

【专利技术属性】
技术研发人员:霍胜军高睿郑鑫杨尚伟
申请(专利权)人:青岛檬豆网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1