当前位置: 首页 > 专利查询>杨虎专利>正文

一种基于双向图卷积神经网络的头部企业识别方法技术

技术编号:28498809 阅读:35 留言:0更新日期:2021-05-19 22:37
本发明专利技术公开了一种基于双向图卷积神经网络的头部企业识别方法,该方法包括数据爬取与预处理模块、特征构建模块、模型训练与调优模块、预测模块四个部分,具体实施步骤有:从互联网上收集数据,建立风险投资公司投资事件数据库;提取描述风投规模与投资经验的九个指标(特征);构建风投联合投资网络;构建风投特征关系网络;构建图卷积神经网络模型;模型训练与结果输出。该方法融合了企业自身属性、企业之间的合作网络以及属性之间的关系网络三类信息;并设计出了一个双向图卷积神经网络模型,将三类数据作为模型输入,训练半监督分类模型,解决了头部企业识别信息不充分问题,能够更有效、更灵活地识别出网络中的重要节点,确定行业中的头部企业。确定行业中的头部企业。确定行业中的头部企业。

【技术实现步骤摘要】
一种基于双向图卷积神经网络的头部企业识别方法


[0001]本专利技术属于信息
,具体涉及一种基于双向图卷积神经网络的头部企业识别方法。

技术介绍

[0002]头部企业是其所在产业的重要引领者,掌握着该产业的技术、利润、占有率等最有价值的市场资源,主导产业的发展方向。识别头部企业是研究任一产业的关键环节,对产业研究具有重要意义。行业中声望高的企业能够有效控制投成本与风险,并有较高的绩效,是行业中的领导者。企业选择合作伙伴时倾向于与声望高的头部企业合作。因此,识别头部企业是企业选择合作伙伴的重要参考依据。
[0003]目前现有技术对于识别头部企业的方法存在以下问题:
[0004]1.针对头部企业识别的方法缺少
[0005]识别头部企业本质上是分类问题,它旨在把产业中的头部企业与其他企业区分开来。目前,对于样本分类的研究有很多,比如传统的多元判别分析、Logistic模型、决策树等基础分类方法,近年来也有不少学者使用神经网络、支持向量机等方法进行研究。但是这些研究主要针对的是结构化数据建模,如果要利用企业的合作网络等关系特征,则需要借助图神经网络的深度学习方法来实现。图卷积神经网络与其他神经网络相比,在处理图数据方面更加高效且易于实现。常见的图神经网络主要有:基于谱的图神经网络(Spectral

based graph neural networks,Spectral GNNs)和基于空间的图神经网络(Spatial graph neural networks,Spatial GNNs)两大类。基于谱的的图神经网络的核心是如何定义图卷积运算。例如:切比雪夫网络(ChebNet),它用Chebyshev多项式逼近卷积滤波器;图卷积神经网络(Graph Convolutional Neural Networks,GCNs),则通过简化图卷积核的多项式逼近来降低计算复杂度;凯莱网络(CayleyNet)则通过凯莱(Cayley)多项式逼近来捕获滤波器的窄带。此外,基于空间的方法继承了递归图神经网络的思想,可以通过信息聚合来定义图的卷积。
[0006]虽然现有的方法在一定程度上可以用来识别头部企业,但在识别过程中,除了企业的特征、企业之间的合作,还存在特征之间的关系数据等结构信息。例如:在企业的自身特征方面,所属地区属于之间有相邻关系或者是均从属于某一个范围,所属行业之间是上下游关系等等;样本之间的结构关系指的是合作网络中,某两家企业在同一时间具有合作,那么这两家公司就存在连接。为了充分利用这些结构化数据与关系数据,本专利改进图卷积神经网络,在模型中引入图结构并进行特征学习,从而提升算法预测的准确度。
[0007]2.训练样本标签不足
[0008]解决训练样本标签不足的问题本质上是半监督学习问题,常见的方法有:无监督特征学习类算法和正则化约束类学习算法。
[0009]无监督特征学习类算法通常利用所有样本(包含标记样本和无标记样本)学习出样本的隐特征或隐含变量表示(Latent Featureor Hidden Variable),在此基础上利用有
监督分类器对无标记样本所对应的隐特征进行分类,从而间接地对无标记样本进行分类。文献
[14]中采用叠加的生成模型来学习标记样本和无标记样本的隐变量并使用支持向量机(Support Vector Machine,SVM)对学习的隐变量进行分类。文献
[15]则采用局部区域卷积(Local Region Convolution)在无标记的文本中学习出双视嵌入(Two

View Embedding),然后采用卷积神经网络进行分类。
[0010]正则化约束类算法通常是在有监督神经网络的输出层或者隐含层的目标函数中加入体现样本分布特性的正则化项,用以在训练中引入无标记样本。文献
[16]中把图的拉普拉斯正则化项分别加入到网络输出层的目标函数和中间隐含层的目标函数中,用来做半监督的分类和特征学习
[0011]相对于其他的半监督学习算法,单分类SVM算法具有更强的泛化能力、高维数据的处理能力,且可以避免神经网络结构选择和局部极小点问题,因此本专利选择单分类SVM算法来构建分类器。本专利技术将最大化利用未标记样本信息与标记的样本信息来构建头部企业识别算法,即实现基于图卷积神经网络的半监督头部企业识别算法,其中结合单分类的SVM方法,实现头部企业的识别。
[0012]3.新企业的评估问题
[0013]对于新的企业来说,本专利将在头部企业识别算法的基础上,借助企业特征、新企业间的合作关系等数据,对新企业进行评估,从而预测它们成为头部企业的可能性。

技术实现思路

[0014]我们提出一种新的头部企业识别方法,该方法基于图卷积神经网络把节点的网络结构与节点的特征融合,用来识别合作网络中的影响节点,从而用来识别头部企业。为达成这一目标,本专利技术拟解决的主要问题包括以下三个:
[0015]1.结构化数据和关系数据融合建模问题
[0016]要实现图卷积神经网络的头部企业识别系统,需要解决关系结构数据与节点属性数据数据融合的问题。企业之间的合作关系是关系数据,而度量企业之间的属性的数据则是结构化数据,如何把这两种数据融合,是本专利的主要创新点。此外,刻画企业的特征之间也存在关系结构,比如行业之间的上下游关系、地区之间的空间依赖关系等等。因此,如何综合考虑企业的特征信息、企业之间的合作关系,特征之间的关系等信息是本专利拟解决的关键问题。
[0017]2.部分标记或分类标签不全的问题
[0018]目前产业研究中,企业的资质良莠不齐,其成立时间、市场威望、经营状况等存在明显差异,市场对这些企业的认知也有所不同。虽然通过邀请部分业内专家对于一些企业进行评估,可以获取头部企业信息,但是要完全对行业中的所有企业进行评估较为困难;而且,随着时间的推移,一些行业市场结构也会发生改变,一些头部企业会丧失领导地位,而一些企业会崛起而成为新的头部企业,因而识别算法会面临训练样本标签不全的问题。在此本专利将借助半监督学习算法来解决标签不全的建模问题。
[0019]3.新企业的评估问题
[0020]随着时间的推移,每年都会涌现出大量的新企业,如何合理地评估新企业的发展潜力,是投资人及监管部门掌握产业动态的重要决策方法。并且随着信息技术和互联网的
高速发展,企业数据及信息的获取更加便捷,数据的更新与数据量的增长不断加快,传统信用评级方法已无法满足高速的市场变化。及时评估新企业是否会成为潜在的头部企业变得尤为重要。
[0021]从复杂网络分析的角度来看,识别头部企业等同于识别网络中的高影响力节点。常见的度量网络节点影响力的方法有网络中心度指标。由于网络中心度测度通常只是从节点在网络中的某种位置来评价节点的重要性,因此针对不同的网络结构存在不同的中心度度量方法。同时由于网络中心度只度量了节点在网络中的位置,忽略了节点本身的特征,因此这类测量指标会有一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双向图卷积神经网络的头部企业识别方法,其特征在于,包括:数据爬取与预处理模块、特征构建模块、模型训练与调优模块、预测模块四个部分,具体如下:1)数据爬取与预处理模块1

1)数据爬取:首先,选取待评价的行业,确定信息来源,从信息来源网页中爬取企业信息,包括两类,一是企业基本信息:企业的名称、成立的时间、所属行业;二是企业的合作事件:投融资事件、项目合作事件、买卖关系;每一条合作事件都代表在某个时间节点,某个企业与其他企业的合作情况;此外,为了获取企业市场中的新企业数据,设置定时数据采集功能,能够定期获取新企业数据,并更新企业之间的合作记录;1

2)数据处理与存储:为了保证数据的一致性和有效性,对爬取到的原始数据进行汇总;首先进行数据清洗,包括重复值处理、缺失值处理、异常值处理;其次进行数据集成,包括实体识别和冗余属性识别,并且进行了数据变换,包括数据规范化、连续属性离散化和属性构造;最后进行了数据规约,包括属性规约和数值规约;将处理好的数据导入MySQL数据库;2)特征构建模块2

1)企业的特征提取从数据集中提取与企业的规模、经验有关的多个指,包括:风险投资公司投资公司数NoC,投资总次数TNI,投资领域数NoI,投资时期数NoP,投资国家数NoCoun,投资省份数NoPR,初始期投资数NoSI,扩张期投资数NoSE和种子期投资数NoSS;2

2)企业样本之间的关系结构提取:企业样本之间的网络即合作网络,考虑到企业的排名与头部企业会随时间变化,按照年来构建合作网络;合作网络以企业为节点,以企业之间是否存在合作来定义节点间的连边;2

3)企业特征之间的关系结构提取;3)模型训练与调优模块3

1)vcGCNN模型训练与调优:构建一个两层的双向图卷积神经网络模型,并将特征提取部分构建的企业自身属性、属性之间的网络、样本之间的网络三类特征作为输入,以解决结构化数据和非结构化数据即关系数据的融合建模问题,最后通过池化的方法将所有的信息拼接起来,输入到一个前馈的神经网络模型中进行企业全特征的学习;4)预测模块通过输入待评估的企业的数据,并输入相关企业的合作事件,基于这些新样本的属性特征和网络结构特征,使用训练好的模型对其进行分类,解决企业标记不全、新企业进入后的预测和评估问题。2.如权利要求1所述的头部企业识别方法,其特征在于,所述2

2)企业样本之间的关系结构提取中,具体如下:定义合作网络G,G是无向图并包含有序的三元组其中V(G)是非空的节点集合V(G)={v
i
|i∈(1,2,

,n)},v
i
代表网络中的企业;E(G)是与节点集合V(G)不相交的
边的集合E(G)={e
uv
|u,v∈V},e
uv
刻画企业之间的合作关系;是关联函数,它将网络中每条边与节点之间的关系对应起来;假设市场中的企业数量为K,定义合作行为两家企业在同一时间开展合作,用表示在(t,t+Δt)的时间内企业的合作行为集合,其中是企业i在(t,t+Δt)时间内与其他企业的合作行为,内与其他企业的合作行为,若企业在(t,t+Δt)时刻与公司q合作,那么否则定义关联函数使得即:即:其中,是度量合作行为相似性的符号函数;若企业u和企业v在同一年开展了合作项目j,那么否则根据上述定义,构建(t,t+Δt)时间内企业之间的合作网络,用G(t,t+Δt)表示,简记为G
t
;若观察的合作时间长度被划分为T个观测单元,那么构造T个合作网络,记为:G1,G...

【专利技术属性】
技术研发人员:罗家德杨虎
申请(专利权)人:杨虎
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1