一种基于线性分析的成长性预测方法和装置制造方法及图纸

技术编号:33850617 阅读:25 留言:0更新日期:2022-06-18 10:36
本发明专利技术公开了一种基于线性分析的成长性预测方法和装置,其中,该方法包括:获取企业多个属性数据;将企业多个属性数据输入训练好的线性成长模型进行企业分析评估,以得到企业成长性评分;其中,线性成长模型是基于分布式训练获得;基于企业成长性评分,得到企业成长性预测结果。本发明专利技术可以有效的评估企业自身的成长价值,帮助创业园区的管理者评估待入驻企业的成长性,辅助制定相关的优惠政策。辅助制定相关的优惠政策。辅助制定相关的优惠政策。

【技术实现步骤摘要】
一种基于线性分析的成长性预测方法和装置


[0001]本专利技术涉及评估预测领域,尤其涉及一种基于线性分析的成长性预测方法和装置。

技术介绍

[0002]随着大数据和人工智能技术在工业界的兴起,基于人工智能的服务越来越多。拥有海量数据的企业可以建立自己的大数据中台,支撑人工智能技术的研发;而数据量不足的企业通常寻求企业间合作。这些数据量不足的企业,由于日渐严苛的数据隐私限制,常常选择联邦学习框架作为研发人工智能服务的技术支撑。联邦学习是一种具有隐私保护的分布式机器学习框架,能在保护数据隐私和数据安全前提下完成多参与方的联合建模任务。该框架包含一台中心节点和多台本地节点。中心节点负责下发训练任务,收集任务结果并聚合为全局模型;本地节点各自在其隐私数据上训练本地模型,将模型上交给中心节点。该过程中不涉及数据传递,因此具有保护隐私的效果。由于联邦学习为大规模集群设计,量级可到数百万,而企业通常仅拥有百台甚至十几台以内的节点,因此联邦学习框架常在小规模集群中运行。
[0003]但传统联邦学习框架在小规模场景下面临拜占庭将军问题。拜占庭将军问题,即中心节点无法判断本地节点上传的模型是否正确的问题,在小规模集群中对全局模型的影响极大。该问题发生于以下两种情况:1.本地节点由于包含恶意程序、具有错误的数据集等,发送了错误模型;2.模型在传输过程中遭遇网络波动,导致信息错误或部分缺失。
[0004]针对以上问题,现有方法从中心节点的聚合算法入手,在模型聚合时排除拜占庭模型对最终结果的影响。此类技术主要有以下两种方案:<br/>[0005]1.使用辅助数据集的方法。该方法要求中心节点保存一个尽可能无偏的数据集,用于验证每轮迭代中每个本地模型的正确性。对于存在网络波动、具有错误数据的节点具有良好检测效果。此类方法往往直接使用该领域的评价指标,如准确率、召回率等,或相似的其他指标。因此便于理解和模型的迭代研发。
[0006]2.使用基于模型相似度的方法。该方法基于切比雪夫大数定理。当本地模型数量足够多时,算法认为每个本地模型属于同一分布的不同观测,较大概率具有较高的相似度。而拜占庭模型具有不同的分布,与其他模型相似度低。此类方法对算力和内存的要求较低,在本地模型较多时更具优势。
[0007]以上技术方案仍存在诸多问题。对于方案1,如何构建一个无偏数据集,并辅之以合适的评价指标是一个研究方向。但是企业数据通常为隐私敏感数据,缺乏可公开、脱敏的数据集,构造辅助数据集难度较大,因此不适合作为该领域的解决方案。对于方案2,目前方法的效果与模型数量呈正相关,这与小规模场景矛盾。节点数量过少导致模型面临在迭代过程中持续中毒、聚合信息不足、对超参敏感度高等问题。
[0008]基于此,现有的技术方案例如不能很好的帮助创业园区的管理者评估待入驻企业的成长性。

技术实现思路

[0009]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0010]为此,本专利技术的目的在于提出一种基于线性分析的成长性预测方法,可以帮助创业园区的管理者评估待入驻企业的成长性,辅助制定相关的优惠政策,如资金补贴、技术支持等,帮助管理者节约投资成本、降低投资风险、降低管理门槛。
[0011]本专利技术的另一个目的在于提出一种基于线性分析的成长性预测装置。
[0012]为达上述目的,本专利技术一方面提出了一种基于线性分析的成长性预测方法,包括以下步骤:
[0013]获取企业多个属性数据;将所述企业多个属性数据输入训练好的线性成长模型进行企业分析评估,以得到企业成长性评分;其中,所述线性成长模型是基于分布式训练获得;基于所述企业成长性评分,得到企业成长性预测结果。
[0014]本专利技术实施例的基于线性分析的成长性预测方法,可以帮助创业园区的管理者评估待入驻企业的成长性,辅助制定相关的优惠政策。
[0015]另外,根据本专利技术上述实施例的基于线性分析的成长性预测方法还可以具有以下附加的技术特征:
[0016]进一步地,所述企业多个属性数据,包括:企业类型、所属地区、注册资本、实缴资本、成立时间、所属行业、人员规模、主营业务、登记状态、关联机构成长性评分、最大股东持股比例、对外投资信息、接受投资信息、司法案件数量、竞品成长性评分、知识产权数、APP数、小程序数、公众号数、微博账号数、作品著作权、软件著作权、备案网站数、预设年限的营业收入、营业利润、总资产、净资产中的多种。
[0017]进一步地,所述线性成长模型基于分布式训练获得,包括:获取企业多个属性数据样本;将所述企业多个属性数据样本输入线性成长模型进行分布式训练,生成训练好的线性成长模型。
[0018]进一步地,所述将所述企业多个属性数据样本输入线性成长模型进行分布式训练,生成训练好的线性成长模型,包括:将所述企业多个属性数据样本通过缺失数据补全以及类别特征编码得到预处理数据,并将所述预处理数据输入线性成长模型以得到本地模型;输入所述本地模型,通过拜占庭模型检测算法构建基于所述本地模型相似度的全连通图,基于所述全连通图构建非拜占庭节点模型的子图以获得拜占庭节点;基于所述拜占庭节点,通过模型聚合算法删除历史结果中拜占庭节点的模型,聚合所述非拜占庭节点模型以得到所述训练好的线性成长模型以输出全局模型。
[0019]进一步地,所述通过拜占庭模型检测算法构建基于所述本地模型的模型相似度的全连通图,基于所述全连通图构建非拜占庭节点模型的子图以获得拜占庭节点,包括:通过计算基于所述模型相似度的模型两两间的L1距离得到代价矩阵,构造全连通图;从所述全连通图中逐一排除代价最大的点,求得每次节点减少时全图的平均代价;基于所述平均代价,以代价最小的一半节点为最小子图,以获取拜占庭节点;其中,所述拜占庭节点为距所述最小子图距离大于预设距离的节点。
[0020]进一步地,所述通过模型聚合算法删除历史结果中拜占庭节点的模型,聚合所述非拜占庭节点模型得到所述训练好的线性成长模型以输出全局模型,包括:根据所述拜占庭节点得到拜占庭节点模型;基于所述拜占庭节点模型,将所述全局模型回溯到预设轮次
之前,把本地模型中对应的所述拜占庭节点模型删除以获得非拜占庭节点模型;根据所述非拜占庭节点模型完成聚合,并重复所述预设轮次得到当前轮的所述全局模型。
[0021]进一步地,所述通过计算基于所述模型相似度的模型两两间的L1距离得到代价矩阵,构造全连通图,包括:构建图G=(V,E),其中,V为G中n个顶点的集合,E为G中边的集合,k=|V|为节点数量,D∈R
k
×
k
为邻接矩阵,矩阵中的d
ij
代表顶点v
i
与顶点v
j
之间边的权重,使用模型两两间的L1距离为D的每个元素赋值,d
ij
=L1(m1,m2)。
[0022]进一步地,所述从所述全连通图中逐一排除代价最大的点,求得每次节点减少时全图的平均代价,包括:使用贪心策略依次排除代价最大的点,记录图G中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于线性分析的成长性预测方法,其特征在于,包括以下步骤:获取企业多个属性数据;将所述企业多个属性数据输入训练好的线性成长模型进行企业分析评估,以得到企业成长性评分;其中,所述线性成长模型是基于分布式训练获得;基于所述企业成长性评分,得到企业成长性预测结果。2.根据权利要求1所述方法,其特征在于,所述企业多个属性数据,包括:企业类型、所属地区、注册资本、实缴资本、成立时间、所属行业、人员规模、主营业务、登记状态、关联机构成长性评分、最大股东持股比例、对外投资信息、接受投资信息、司法案件数量、竞品成长性评分、知识产权数、APP数、小程序数、公众号数、微博账号数、作品著作权、软件著作权、备案网站数、预设年限的营业收入、营业利润、总资产、净资产中的多种。3.根据权利要求1所述方法,其特征在于,所述线性成长模型是基于分布式训练获得,包括:获取企业多个属性数据样本;将所述企业多个属性数据样本输入线性成长模型进行分布式训练,生成训练好的线性成长模型。4.根据权利要求2所述方法,其特征在于,所述将所述企业多个属性数据样本输入线性成长模型进行分布式训练,生成训练好的线性成长模型,包括:将所述企业多个属性数据样本通过缺失数据补全以及类别特征编码得到预处理数据,并将所述预处理数据输入线性成长模型以得到本地模型;输入所述本地模型,通过拜占庭模型检测算法构建基于所述本地模型相似度的全连通图,基于所述全连通图构建非拜占庭节点模型的子图以获得拜占庭节点;基于所述拜占庭节点,通过模型聚合算法删除历史结果中拜占庭节点的模型,聚合所述非拜占庭节点模型以得到所述训练好的线性成长模型以输出全局模型。5.根据权利要求4所述方法,其特征在于,所述通过拜占庭模型检测算法构建基于所述本地模型的模型相似度的全连通图,基于所述全连通图构建非拜占庭节点模型的子图以获得拜占庭节点,包括:通过计算基于所述模型相似度的模型两两间的L1距离得到代价矩阵,构造全连通图;从所述全连通图中逐一排除代价最大的点,求得每次节点减少时全图的平均代价;基于所述平均代价,以代价最小的一半节点为最小子图,以获取拜占庭节点;其中,所述拜占庭节点为距所述最小子图距离大于预设距离的节点。6.根据权利要求4所述方法,其特征在于,所述通过模型聚合算法删除历史结果中拜占庭节点的模型,聚合所述非拜占庭节点模型得到所述训练好的线性成长模型以输出全局模型,包括:根据所述拜占庭节点得到拜占庭节点模型;基于所述拜占庭节点模型,将所述全局模型回溯到预设轮次之前,把本地模型中对应的所述拜占庭节点模型删除以获得非拜占庭节点模型;根据所述非拜占庭节点模型完成...

【专利技术属性】
技术研发人员:欧中洪崔兆林宋美娜张光卫鄂海红
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1