一种用于识别供应链中核心企业的方法及系统技术方案

技术编号:14836287 阅读:129 留言:0更新日期:2017-03-17 03:54
本发明专利技术提供了一种供应链核心企业的识别方法和系统,利用图论中特征向量中心性度量方法来计算企业在供应链中的重要程度,本发明专利技术把各企业之间的购销关系当成是一个无向图结构,通过简单可行的算法,有效地计算出每个企业的重要性,有利于税务机关企业与行业中所有企业的关联。所述方法包括:构建购方识别号、销方识别号和贸易金额的三元组的集合;建立纳税人识别号的集合,并建立邻接矩阵和无向图结构;计算邻接矩阵中每个节点的相对中心性;对相对中心性最大的前k个节点所对应的纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链核心企业。

【技术实现步骤摘要】

本专利技术涉及税务大数据领域,并且更具体地,涉及一种用于识别供应链中核心企业的方法及系统
技术介绍
随着互联网和大数据技术的兴起,税务机关的税务数据规模不断增长,基于税务数据的企业画像技术应运而生。互联网时代,很多企业和政府机构也嗅到了大数据带来的机遇。由于征信双方信息不对称,信息平台的数据处理能力和数据挖掘能力不够等问题,税务机关往往不能对企业形成一个立体化的描述。大部分的企业通过使用数据参与经营决策,减低经营成本,获取经营收入,使得企业的涉税行为更加隐蔽和无形,税务机关通过现有的征管手段很难跟踪和获知这些情况。供应链核心企业作为企业画像中重要的标识,通过标记供应链核心企业能够有效找到行业供应链中的重要企业,这样有利于税务机关企业与行业中所有企业的关联,查看企业对行业的影响。
技术实现思路
本专利技术提供了一种用于识别供应链中核心企业的方法及系统,利用图论中EigenvectorCentrality特征向量中心性度量方法来计算企业在供应链中的重要程度,该方法把各企业之间的购销关系当成是一个无向图结构,计算方法简单可行,有效地计算出每个企业的重要性。供应链核心企业的识别和标注是进行企业画像的重要部分,方便税务机关通过查看供应链核心企业的税务情况了解整个行业的发展情况,对行业风向和投资决策和投资依据具有重大意义。根据本专利技术的一个方面,提供一种用于识别供应链中核心企业的方法,包括:获取发票中的购方识别号和销方识别号并建立购方识别号和销方识别号的二元组的集合,其中购方识别号和销方识别号均为纳税人识别号;获取发票中的贸易金额添加并到所述二元组的集合中,从而形成三元组的集合;建立纳税人识别号的集合,设纳税人识别号的个数为n,则将纳税人识别号与[1,n]之间的整数建立一一映射,建立一个n*n的邻接矩阵A,且每个企业对应一个纳税人识别号;将企业之间的贸易金额作为邻接矩阵中相邻节点之间的权重并且添加至邻接矩阵中,以构成无向图结构;通过AX=λX计算出特征值λ,以计算出的最大特征值作为λ的值,并计算出与λ对应的特征向量X的值,其中A为邻接矩阵;通过计算出节点v在特征向量X中的相对中心性得分xv,其中v、t均为节点,xt为节点t在特征向量X中的相对中心性得分,λ为特征值,M(v)表示与节点v相连的点的集合,G=(E,V),其中E表示边的集合,V表示节点的集合;对特征向量X进行归一化,然后分别对应每个节点的值进行标准化,将特征向量中每个节点的值转换为该节点在整个向量中所占的百分比;取出相对中心性得分最高的前k个节点,并根据邻接矩阵中每个节点对应的纳税人识别号,对相对中心性得分最高的前k个纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链中的核心企业。优选地,若两个企业有多次贸易关系,则对贸易金额进行累加。优选地,将企业之间的贸易金额作为邻接矩阵中相邻节点之间的权重时,按一定阈值倍数对所述贸易金额进行缩小。优选地,所述k的值小于n的值。根据本专利技术的另一方面,提供一种用于识别供应链中核心企业的系统,包括:数据处理模块,用于构建购方识别号、销方识别号和贸易金额的三元组的集合;图构造模块,建立纳税人识别号的集合,并建立邻接矩阵和无向图结构;特征向量中心性度量计算模块,计算邻接矩阵中每个节点的相对中心性,即特征向量;以及核心企业标记模块,对相对中心性最大的前k个节点所对应的纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链核心企业。附图说明通过参考下面的附图,可以更为完整地理解本专利技术的示例性实施方式:图1为根据本专利技术优选实施例的供应链核心企业的识别方法的流程图;以及图2为根据本专利技术优选实施例的供应链核心企业的识别系统的结构图。具体实施方式现在参考附图介绍本专利技术的示例性实施方式,然而,本专利技术可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本专利技术,并且向所属
的技术人员充分传达本专利技术的范围。对于表示在附图中的示例性实施方式中的术语并不是对本专利技术的限定。在附图中,相同的单元/元件使用相同的附图标记。除非另有说明,此处使用的术语(包括科技术语)对所属
的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。图1为根据本专利技术优选实施例的供应链核心企业的识别方法的流程图。如图1所示,供应链核心企业的识别方法100从步骤101开始。在步骤101中,从发票数据库中识别出发票上的购方识别号和销方识别号信息,并建立购方识别号和销方识别号的二元组的集合,其中,购方识别号和销方识别号均为纳税人识别号。应当了解的是,每一个企业均有且只有一个纳税人识别号,只是因购销关系不同区分为购方识别号和销方识别号。在步骤102中,取出发票中的贸易金额添加到步骤101形成的二元组的集合中,从而形成三元组的集合,若两个企业之间存在多次贸易关系,则对贸易金额进行累加。应当了解的是,所述两个企业之间存在贸易关系,是指两个企业之间互为购方和销方,并不仅限于某一个企业只作为购方,另一个企业只做销方。在步骤103中,建立纳税人识别号的集合,设纳税人识别号的个数为n,则将纳税人识别号与[1,n]之间的整数建立一一映射,建立一个n*n的邻接矩阵A。在步骤104中,将企业之间的贸易金额作为邻接矩阵中各节点之间的权重添加至邻接矩阵中,在进行权重添加时,按一定的阈值倍数对所述贸易金额进行缩小,其中,所述阈值可以为1000倍、10000倍或50000倍等,具体缩小的倍数根据实际情况选择。在步骤105中,通过AX=λX计算出特征值λ,由于会计算出多个特征值值,在本专利技术中,以计算出的最大特征值作为λ的值,并计算出与λ对应的特征向量X的值,其中A为邻接矩阵。在步骤106中,通过计算出节点v在特征向量X中的相对中心性得分xv,所述相对中心性得分,即为节点v在供应链中的重要程度。其中v、t均为节点,xt为节点t在特征向量X中的相对中心性得分,λ为特征值,M(v)表示与节点v相连的点的集合,G=(E,V),其中E表示边的集合,V表示节点的集合。在步骤107中,对步骤105中得出的特征向量进行归一化,即对特征向量中的每个节点的值进行相加求和,然后分别对应每个节点的值进行标准化,将特征向量中每个节点的值转换为该节点在整个向量中所占的百分比。在步骤108中,取出相对中心性得分最高的前k个节点编号,并根据邻接矩阵中每个节点对应的纳税人识别号,对相对中心性得分最高的前k个纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链核心企业。其中,k的值小于纳税人识别号的个数n的值,并且在实际使用时,k的值推荐取5或者10。图2为根据本专利技术优选实施例的供应链核心企业的识别系统的结构图。如图2所示,供应链核心企业的识别系统200主要由数据处理模块201、图构造模块202、特征向量中心性度量计算模块203以及核心企业标记模块204组成。优选地,所述数据处理模块201用于构建购方识别号、销方识别号和贸易金额的三元组的集合。优选地,所述图构造模块202用于建立纳税人识别号的集合,并利用与纳税人识别号个数的映射建立邻接矩阵,并在邻接矩阵本文档来自技高网
...
一种用于识别供应链中核心企业的方法及系统

【技术保护点】
一种用于识别供应链中核心企业的方法,包括:获取发票中的购方识别号和销方识别号并建立购方识别号和销方识别号的二元组的集合,其中购方识别号和销方识别号均为纳税人识别号;获取发票中的贸易金额添加并到所述二元组的集合中,从而形成三元组的集合;建立纳税人识别号的集合,设纳税人识别号的个数为n,则将纳税人识别号与[1,n]之间的整数建立一一映射,建立一个n*n的邻接矩阵A,且每个企业对应一个纳税人识别号;将企业之间的贸易金额作为邻接矩阵中相邻节点之间的权重并且添加至邻接矩阵中,以构成无向图结构;通过AX=λX计算出特征值λ,以计算出的最大特征值作为λ的值,并计算出与λ对应的特征向量X的值,其中A为邻接矩阵;通过计算出节点v在特征向量X中的相对中心性得分xv,其中v、t均为节点,xt为节点t在特征向量X中的相对中心性得分,λ为特征值,M(v)表示与节点v相连的点的集合,G=(E,V),其中E表示边的集合,V表示节点的集合;对特征向量X进行归一化,然后分别对应每个节点的值进行标准化,将特征向量中每个节点的值转换为该节点在整个向量中所占的百分比;取出相对中心性得分最高的前k个节点,并根据邻接矩阵中每个节点对应的纳税人识别号,对相对中心性得分最高的前k个纳税人识别号进行标记,以表示该纳税人识别号对应的企业是供应链中的核心企业。...

【技术特征摘要】
1.一种用于识别供应链中核心企业的方法,包括:获取发票中的购方识别号和销方识别号并建立购方识别号和销方识别号的二元组的集合,其中购方识别号和销方识别号均为纳税人识别号;获取发票中的贸易金额添加并到所述二元组的集合中,从而形成三元组的集合;建立纳税人识别号的集合,设纳税人识别号的个数为n,则将纳税人识别号与[1,n]之间的整数建立一一映射,建立一个n*n的邻接矩阵A,且每个企业对应一个纳税人识别号;将企业之间的贸易金额作为邻接矩阵中相邻节点之间的权重并且添加至邻接矩阵中,以构成无向图结构;通过AX=λX计算出特征值λ,以计算出的最大特征值作为λ的值,并计算出与λ对应的特征向量X的值,其中A为邻接矩阵;通过计算出节点v在特征向量X中的相对中心性得分xv,其中v、t均为节点,xt为节点t在特征向量X中的相对中心性得分,λ为特征值,M(v)表示与节点v相连的点的集合,G=(E,V),其中E表示边的集合,V表示节点的集合;对特征向量X进行归一化,然后分别对应每个节点的值进行标准化,将特征向量中每个...

【专利技术属性】
技术研发人员:齐超胡懋地
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1