当前位置: 首页 > 专利查询>杨虎专利>正文

一种基于双向图卷积神经网络的头部企业识别方法技术

技术编号：28498809 阅读：35 留言：0更新日期：2021-05-19 22:37

本发明专利技术公开了一种基于双向图卷积神经网络的头部企业识别方法，该方法包括数据爬取与预处理模块、特征构建模块、模型训练与调优模块、预测模块四个部分，具体实施步骤有：从互联网上收集数据，建立风险投资公司投资事件数据库；提取描述风投规模与投资经验的九个指标(特征)；构建风投联合投资网络；构建风投特征关系网络；构建图卷积神经网络模型；模型训练与结果输出。该方法融合了企业自身属性、企业之间的合作网络以及属性之间的关系网络三类信息；并设计出了一个双向图卷积神经网络模型，将三类数据作为模型输入，训练半监督分类模型，解决了头部企业识别信息不充分问题，能够更有效、更灵活地识别出网络中的重要节点，确定行业中的头部企业。确定行业中的头部企业。确定行业中的头部企业。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双向图卷积神经网络的头部企业识别方法

[0001]本专利技术属于信息
，具体涉及一种基于双向图卷积神经网络的头部企业识别方法。

技术介绍

[0002]头部企业是其所在产业的重要引领者，掌握着该产业的技术、利润、占有率等最有价值的市场资源，主导产业的发展方向。识别头部企业是研究任一产业的关键环节，对产业研究具有重要意义。行业中声望高的企业能够有效控制投成本与风险，并有较高的绩效，是行业中的领导者。企业选择合作伙伴时倾向于与声望高的头部企业合作。因此，识别头部企业是企业选择合作伙伴的重要参考依据。
[0003]目前现有技术对于识别头部企业的方法存在以下问题：
[0004]1.针对头部企业识别的方法缺少
[0005]识别头部企业本质上是分类问题，它旨在把产业中的头部企业与其他企业区分开来。目前，对于样本分类的研究有很多，比如传统的多元判别分析、Logistic模型、决策树等基础分类方法，近年来也有不少学者使用神经网络、支持向量机等方法进行研究。但是这些研究主要针对的是结构化数据建模，如果要利用企业的合作网络等关系特征，则需要借助图神经网络的深度学习方法来实现。图卷积神经网络与其他神经网络相比，在处理图数据方面更加高效且易于实现。常见的图神经网络主要有：基于谱的图神经网络(Spectral
‑
based graph neural networks,Spectral GNNs)和基于空间的图神经网络(Spatial graph neural networks,Spatia...

【技术保护点】

【技术特征摘要】
1.一种基于双向图卷积神经网络的头部企业识别方法，其特征在于，包括：数据爬取与预处理模块、特征构建模块、模型训练与调优模块、预测模块四个部分，具体如下：1)数据爬取与预处理模块1
‑
1)数据爬取：首先，选取待评价的行业，确定信息来源，从信息来源网页中爬取企业信息，包括两类，一是企业基本信息：企业的名称、成立的时间、所属行业；二是企业的合作事件：投融资事件、项目合作事件、买卖关系；每一条合作事件都代表在某个时间节点，某个企业与其他企业的合作情况；此外，为了获取企业市场中的新企业数据，设置定时数据采集功能，能够定期获取新企业数据，并更新企业之间的合作记录；1
‑
2)数据处理与存储：为了保证数据的一致性和有效性，对爬取到的原始数据进行汇总；首先进行数据清洗，包括重复值处理、缺失值处理、异常值处理；其次进行数据集成，包括实体识别和冗余属性识别，并且进行了数据变换，包括数据规范化、连续属性离散化和属性构造；最后进行了数据规约，包括属性规约和数值规约；将处理好的数据导入MySQL数据库；2)特征构建模块2
‑
1)企业的特征提取从数据集中提取与企业的规模、经验有关的多个指，包括：风险投资公司投资公司数NoC，投资总次数TNI，投资领域数NoI，投资时期数NoP，投资国家数NoCoun，投资省份数NoPR，初始期投资数NoSI，扩张期投资数NoSE和种子期投资数NoSS；2
‑
2)企业样本之间的关系结构提取：企业样本之间的网络即合作网络，考虑到企业的排名与头部企业会随时间变化，按照年来构建合作网络；合作网络以企业为节点，以企业之间是否存在合作来定义节点间的连边；2
‑
3)企业特征之间的关系结构提取；3)模型训练与调优模块3
‑
1)vcGCNN模型训练与调优：构建一个两层的双向图卷积神经网络模型，并将特征提取部分构建的企业自身属性、属性之间的网络、样本之间的网络三类特征作为输入，以解决结构化数据和非结构化数据即关系数据的融合建模问题，最后通过池化的方法将所有的信息拼接起来，输入到一个前馈的神经网络模型中进行企业全特征的学习；4)预测模块通过输入待评估的企业的数据，并输入相关企业的合作事件，基于这些新样本的属性特征和网络结构特征，使用训练好的模型对其进行分类，解决企业标记不全、新企业进入后的预测和评估问题。2.如权利要求1所述的头部企业识别方法，其特征在于，所述2
‑
2)企业样本之间的关系结构提取中，具体如下：定义合作网络G，G是无向图并包含有序的三元组其中V(G)是非空的节点集合V(G)＝{v
i
|i∈(1,2,
…
,n)}，v
i
代表网络中的企业；E(G)是与节点集合V(G)不相交的
边的集合E(G)＝{e
uv
|u,v∈V}，e
uv
刻画企业之间的合作关系；是关联函数，它将网络中每条边与节点之间的关系对应起来；假设市场中的企业数量为K，定义合作行为两家企业在同一时间开展合作，用表示在(t,t+Δt)的时间内企业的合作行为集合，其中是企业i在(t,t+Δt)时间内与其他企业的合作行为，内与其他企业的合作行为，若企业在(t,t+Δt)时刻与公司q合作，那么否则定义关联函数使得即：即：其中，是度量合作行为相似性的符号函数；若企业u和企业v在同一年开展了合作项目j，那么否则根据上述定义，构建(t,t+Δt)时间内企业之间的合作网络，用G(t,t+Δt)表示，简记为G
t
；若观察的合作时间长度被划分为T个观测单元，那么构造T个合作网络，记为：G1,G...

【专利技术属性】
技术研发人员：罗家德，杨虎，
申请(专利权)人：杨虎，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人