一种基于聚类算法的产业链图谱生成方法、装置、设备及存储介质制造方法及图纸

技术编号:38862111 阅读:17 留言:0更新日期:2023-09-17 10:04
本申请涉及数据处理领域,本申请提供一种基于聚类算法的产业链图谱生成方法、装置、设备及存储介质,所述方法使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息;基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;根据所述预设图形数据库生成企业产业链关系图谱;将企业的企业实体信息进行集合并降维,得到企业数据集,根据预设的聚类算法模型将所述企业数据集进行分类,得到企业类别信息,将所述企业类别信息添加到所述企业关系图谱中。快速生成企业产业链图谱,便于用户对企业产业链的位次进行识别。进行识别。进行识别。

【技术实现步骤摘要】
一种基于聚类算法的产业链图谱生成方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种基于聚类算法的产业链图谱生成方法、装置、设备及存储介质。

技术介绍

[0002]产业链是一个包含价值链、企业链、供需链和空间链四个维度的概念。这四个维度在相互对接的均衡过程中形成了产业链,这种“对接机制”是产业链形成的内模式,在互联网中,存有海量的企业信息数据以供用户进行浏览,然而面对海量的企业信息数据,用户只能浏览网络中静态的企业信息,而无法从网络中提取用户所需的有用企业信息并对企业产业链进行关联分析,从而导致从海量企业信息数据中获取有用的企业产业链信息并进行分析的效率较低。

技术实现思路

[0003]本专利技术的主要目的在于提供一种基于聚类算法的产业链图谱生成方法、装置、设备及计算机可读存储介质,旨在解决现有从网络上获取企业产业链关联信息效率低下的技术问题。
[0004]为实现上述目的,本专利技术提供一种基于聚类算法的产业链图谱生成方法,所述基于聚类算法的产业链图谱生成方法包括:使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息;
[0005]基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;
[0006]确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;
[0007]根据所述预设图形数据库生成企业产业链关系图谱;
[0008]将企业的企业实体信息进行集合并降维,得到企业数据集,根据预设的聚类算法模型将所述企业数据集进行分类,得到企业类别信息,将所述企业类别信息添加到所述企业关系图谱中。
[0009]在本申请提供的基于聚类算法的产业链图谱生成方法中,所述使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息,包括:确定所要爬取的全国企业信用信息公示系统、企业年报的URL地址;
[0010]遍历所确定的URL地址中的企业信息,并获取URL地址中的企业信息。
[0011]在本申请提供的基于聚类算法的产业链图谱生成方法中,所述基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系之后,所述方法还包括:若企业信息中存在多个企业实体以及多个实体关系,将所抽取的多个企业实体存储于预设的实体集合中,将所抽取的多个实体关系存储于预设的关系集合中。
[0012]在本申请提供的基于聚类算法的产业链图谱生成方法中,所述根据所述预设图形
数据库生成企业产业链关系图谱,包括:从所述预设图形数据库中提取出企业实体关系数据,并根据所述企业实体关系数据确定企业ID和企业名称;
[0013]将所述企业ID和企业名称封装为企业节点并存放在预设节点数组中,在所述节点数组中添加企业股东和企业对外投资企业名称作为两个辅助节点;
[0014]将所述企业实体关系数据中的企业与企业之间的交易关系、企业与企业之间的业务合作关系和企业与企业之间的投资关系存储到预设连线数组中;
[0015]使用网页画布将所述预设节点数组、辅助节点以及预设连线数组传入所述网页画布的力导向布局中,并根据所述网页画布的力导向布局生成所述企业产业链关系图谱。
[0016]在本申请提供的基于聚类算法的产业链图谱生成方法中,所述企业实体包括企业之间的交易关系、企业之间的业务合作关系和企业之间的投资关系、企业资金流向关系。
[0017]在本申请提供的基于聚类算法的产业链图谱生成方法中,所述根据预设的聚类算法模型将所述企业数据集进行分类,得到企业类别信息,将所述企业类别信息添加到所述企业关系图谱中,包括:
[0018]根据预设的聚类算法模型,将所述企业数据集带入所述聚类算法模型中进行计算,得到一个距离d,确定d对应的企业类别信息,将所述企业类别信息添加到所述企业关系图谱中,其中所述企业类别信息包括上游产业、中游产业、下游产业。
[0019]本申请提供了一种基于聚类算法的产业链图谱生成装置,所述基于聚类算法的产业链图谱生成装置包括:爬取模块,用于使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息;信息抽取模块,用于基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;数据预存模块,用于确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;第一产业链图谱生成模块,用于根据所述预设图形数据库生成企业产业链关系图谱;第二产业链图谱生成模块,用于将企业的企业实体信息进行集合并降维,得到企业数据集,根据预设的聚类算法模型将所述企业数据集进行分类,得到企业类别信息,将所述企业类别信息添加到所述企业关系图谱中。
[0020]此外,为实现上述目的,本专利技术还提供一种基于聚类算法的产业链图谱生成设备,所述基于聚类算法的产业链图谱生成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于聚类算法的产业链图谱生成程序,其中所述基于聚类算法的产业链图谱生成程序被所述处理器执行时,实现如上述的基于聚类算法的产业链图谱生成方法的步骤。
[0021]此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于聚类算法的产业链图谱生成程序,其中所述基于聚类算法的产业链图谱生成程序被处理器执行时,实现如上述的基于聚类算法的产业链图谱生成方法的步骤。
[0022]本专利技术提供一种基于聚类算法的产业链图谱生成方法,所述方法使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息;基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;根据所述预设图形数据库生成企业产业链关系图谱;将企业的企业实体信息进行集合并降维,得到企业数据集,根据预设的聚
类算法模型将所述企业数据集进行分类,得到企业类别信息,将所述企业类别信息添加到所述企业关系图谱中。通过上述方法,可以快速地从网络上获取信息并且生成企业产业链图谱,使得用户能够快速获取信息,并且根据信息,将企业打上类别标签,便于用户对企业产业链的位次进行识别。
附图说明
[0023]图1为本专利技术实施例方案中涉及的基于聚类算法的产业链图谱生成设备的硬件结构示意图;
[0024]图2为本专利技术基于聚类算法的产业链图谱生成方法第一实施例的流程示意图。
[0025]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0026]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0027]本专利技术实施例涉及的基于聚类算法的产业链图谱生成方法主要应用于基于聚类算法的产业链图谱生成设备,该基于聚类算法的产业链图谱生成设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
[0028]参照图1,图1为本专利技术实施例方案中涉及的基于聚类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类算法的产业链图谱生成方法,其特征在于,所述基于聚类算法的产业链图谱生成方法包括以下步骤:使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息;基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系;确定所述企业实体的属性值,并将所述企业实体的属性值、实体关系保存至预设图形数据库中;根据所述预设图形数据库生成企业产业链关系图谱;将企业的企业实体信息进行集合并降维,得到企业数据集,根据预设的聚类算法模型将所述企业数据集进行分类,得到企业类别信息,将所述企业类别信息添加到所述企业关系图谱中。2.如权利要求1所述的基于聚类算法的产业链图谱生成方法,其特征在于,所述使用网络爬虫算法从全国企业信用信息公示系统、企业年报中爬取企业信息,包括:确定所要爬取的全国企业信用信息公示系统、企业年报的URL地址;遍历所确定的URL地址中的企业信息,并获取URL地址中的企业信息。3.如权利要求1所述的基于聚类算法的产业链图谱生成方法,其特征在于,所述基于命名实体识别算法,从爬取到的所述企业信息中抽取企业实体、实体关系之后,所述方法还包括:若企业信息中存在多个企业实体以及多个实体关系,将所抽取的多个企业实体存储于预设的实体集合中,将所抽取的多个实体关系存储于预设的关系集合中。4.如权利要求1所述的基于聚类算法的产业链图谱生成方法,其特征在于,所述根据所述预设图形数据库生成企业产业链关系图谱,包括:从所述预设图形数据库中提取出企业实体关系数据,并根据所述企业实体关系数据确定企业ID和企业名称;将所述企业ID和企业名称封装为企业节点并存放在预设节点数组中,在所述节点数组中添加企业股东和企业对外投资企业名称作为两个辅助节点;将所述企业实体关系数据中的企业与企业之间的交易关系、企业与企业之间的业务合作关系和企业与企业之间的投资关系存储到预设连线数组中;使用网页画布将所述预设节点数组、辅助节点以及预设连线数组传入所述网页画布的力导向布局中,并根据所述网页画布的力导向布局生成所述企业产业链关系图谱。5.如权利要求1所述的基...

【专利技术属性】
技术研发人员:霍胜军高睿郑鑫杨尚伟
申请(专利权)人:青岛檬豆网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1