System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种智能计算企业活跃度评分的方法技术_技高网

一种智能计算企业活跃度评分的方法技术

技术编号:40912241 阅读:3 留言:0更新日期:2024-04-18 14:40
本发明专利技术公开了一种智能计算企业活跃度评分的方法,收集企业数据;对企业数据进行数据预处理;对数据预处理后的企业数据通过特征工程形成数据集;将数据集中的一部分划分为训练数据用于训练模型,另一部分划分为校验数据用于数据校验;使用XGBoost算法对训练数据进行训练,并通过多轮迭代更新训练模型得到初始的企业活跃度评分模型,计算出训练结果;将校验数据代入初始的企业活跃度评分模型对训练结果进行评估,形成评估指标,得到最优的企业活跃度评分模型以完成智能计算企业活跃度评分的任务。本发明专利技术提供一种能够自动、准确地计算企业活跃度评分的方法提高了评分的效率,减少了人工分析和判断的工作量和准确性。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种智能计算企业活跃度评分的方法


技术介绍

1、在大数据和人工智能技术日益发展的今天,数据分析已经成为各行各业的重要工具。尤其在企业管理领域,如何准确评估企业的活跃度,对于企业决策、投资决策等都具有重要意义。

2、在现有技术中,企业活跃度的评分主要依赖于人工分析并判断。这种方式需要人工收集和处理大量的企业信息,如融资信息、产品动态、招聘情况和舆情情况等,然后根据这些信息进行判断;人工收集和处理信息需要大量的时间和精力,因此效率低下;此外,不同的人可能会有不同的判断,人工判断的准确性也无法保证,而且人的判断可能会受到主观因素的影响;人也无法时刻关注所有的企业信息,人工分析和判断也无法实时更新,无法及时反映企业的最新活跃度。

3、基于数据挖掘的企业活跃度评估方法是现有技术方案是一种典型代表,这种方法步骤是首先通过网络爬虫等技术收集企业的各种信息,然后通过数据挖掘技术对这些信息进行分析,最后根据分析结果计算出企业的活跃度评分。这种方法的优点是可以自动收集和处理信息,提高了评估的效率。但是,这种方法的缺点是其依赖于数据挖掘技术,而数据挖掘技术的准确性受到数据质量的影响,如果收集的数据质量不高,那么计算出的企业活跃度评分的准确性也会受到影响。


技术实现思路

1、为了解决上述技术所存在的不足之处,本专利技术提供了一种智能计算企业活跃度评分的方法。

2、为了解决以上技术问题,本专利技术采用的技术方案是:一种智能计算企业活跃度评分的方法,包括以下步骤:

3、s1,收集企业数据;

4、s2,对企业数据进行数据预处理;

5、s3,对数据预处理后的企业数据通过特征工程形成数据集;

6、s4,将数据集中的一部分划分为训练数据用于训练模型,另一部分划分为校验数据用于数据校验;

7、s5,使用xgboost算法对训练数据进行训练,并通过多轮迭代更新训练模型得到初始的企业活跃度评分模型,计算出训练结果;

8、s6,将校验数据代入初始的企业活跃度评分模型对训练结果进行评估,形成评估指标,得到最优的企业活跃度评分模型以完成智能计算企业活跃度评分的任务。

9、进一步地,步骤s1中的企业数据的类型包括企业的融资信息、产品动态、招聘情况和舆情情况,企业数据收集的渠道于在线资源中获取,在线资源包括企业官方网站、新闻网站、社交媒体平台、行业报告和公开数据库。

10、进一步地,步骤s2中的数据预处理包括以下步骤:

11、s21,将收集到的所有企业数据将根据企业数据的类型进行数据归类;

12、s22,识别并去除重复的企业数据;

13、s23,根据企业数据的内容或在线资源采集的页面增加数据时间以对企业数据添加时间属性,用以跟踪和分析企业的活跃度变化。

14、进一步地,步骤s3中的特征工程包括以下步骤:

15、s31,使用箱体检测技术对步骤s2处理后的企业数据进行异常值剔除处理;

16、s32,使用label encoding编号技术将步骤s31处理后企业数据由类别变量转换为数值变量实现对企业数据的数值化处理;

17、s33,使用min值对于存在缺失值的数值变量进行填充缺失值处理形成数据集。

18、进一步地,步骤s4将数据集进行划分为特征维度和标签维度,特征维度包括企业的融资信息、产品动态、招聘情况和舆情情况,标签维度包括企业的活跃度评分。

19、进一步地,步骤s4中将数据集中的80%的数据用于训练模型,剩余20%的数据用于数据校验。

20、进一步地,步骤s5中使用xgboost算法对训练数据进行训练,xgboost算法对训练数据进行训练的步骤为:

21、s51,xgboost算法将数据集按照特征列进行划分,将每个特征列的数据分配给不同的线程或处理单元进行处理;

22、s52,在每个特征列上,xgboost算法并行计算特征列的梯度和二阶导数;

23、s53,在构建决策树时,xgboos算法并行地在每个特征列上进行分裂点的搜索;

24、s54,在特征列上进行分裂点搜索时,xgboost算法使用基于直方图的近似排序方法对特征列进行排序。

25、进一步地,步骤s6在形成最优的企业活跃度评分模型的过程中,通过调整决策树的深度和基分类器的个数以找到最优的参数组合,从而得到最优的企业活跃度评分模型。

26、进一步地,评估指标包括模型预测正确的比例、模型预测为正例的样本中真正为正例的比例、真正的正例中被模型预测为正例的比例、精确率和召回率的调和平均数。

27、进一步地,xgboost算法在训练过程中遇到缺失值的企业数据会为每个特征列中的缺失值分配一个默认的分裂方向,实现利用缺失值的企业数据进行训练和预测,进而根据缺失值的分裂方向将样本分配到相应的子节点中以保持了模型的一致性。

28、本专利技术公开了一种智能计算企业活跃度评分的方法,针对现有技术的这些缺点,本专利技术的目的是提供一种能够自动、准确地计算企业活跃度评分的方法通过自动收集和处理企业的融资信息、产品动态、招聘情况和舆情情况等数据,利用智能算法计算出企业的活跃度评分,从而提高了评分的效率,减少了人工分析和判断的工作量。由于智能算法的判断基于数据和算法,而不是人的主观判断,因此可以提高评分的准确性。此外本专利技术可以实时更新企业的活跃度评分,反映企业的最新活跃度,达到提高评分效率、提高评分准确性和实时更新评分的技术效果。

本文档来自技高网...

【技术保护点】

1.一种智能计算企业活跃度评分的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤S1中的企业数据的类型包括企业的融资信息、产品动态、招聘情况和舆情情况,企业数据收集的渠道于在线资源中获取,在线资源包括企业官方网站、新闻网站、社交媒体平台、行业报告和公开数据库。

3.根据权利要求2所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤S2中的数据预处理包括以下步骤:

4.根据权利要求1或3所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤S3中的特征工程包括以下步骤:

5.根据权利要求4所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤S4将数据集进行划分为特征维度和标签维度,特征维度包括企业的融资信息、产品动态、招聘情况和舆情情况,标签维度包括企业的活跃度评分。

6.根据权利要求4所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤S4中将数据集中的80%的数据用于训练模型,剩余20%的数据用于数据校验。

7.根据权利要求6所述的智能计算企业活跃度评分的方法,其特征在于,所述步骤S5中使用XGBoost算法对训练数据进行训练,XGBoost算法对训练数据进行训练的步骤为:

8.根据权利要求7所述的智能计算企业活跃度评分的方法,其特征在于,所述步骤S6在形成最优的企业活跃度评分模型的过程中,通过调整决策树的深度和基分类器的个数以找到最优的参数组合,从而得到最优的企业活跃度评分模型。

9.根据权利要求8所述的智能计算企业活跃度评分的方法,其特征在于,所述评估指标包括模型预测正确的比例、模型预测为正例的样本中真正为正例的比例、真正的正例中被模型预测为正例的比例、精确率和召回率的调和平均数。

10.根据权利要求9所述的智能计算企业活跃度评分的方法,其特征在于,所述XGBoost算法在训练过程中遇到缺失值的企业数据会为每个特征列中的缺失值分配一个默认的分裂方向,实现利用缺失值的企业数据进行训练和预测,进而根据缺失值的分裂方向将样本分配到相应的子节点中以保持了模型的一致性。

...

【技术特征摘要】

1.一种智能计算企业活跃度评分的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤s1中的企业数据的类型包括企业的融资信息、产品动态、招聘情况和舆情情况,企业数据收集的渠道于在线资源中获取,在线资源包括企业官方网站、新闻网站、社交媒体平台、行业报告和公开数据库。

3.根据权利要求2所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤s2中的数据预处理包括以下步骤:

4.根据权利要求1或3所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤s3中的特征工程包括以下步骤:

5.根据权利要求4所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤s4将数据集进行划分为特征维度和标签维度,特征维度包括企业的融资信息、产品动态、招聘情况和舆情情况,标签维度包括企业的活跃度评分。

6.根据权利要求4所述的智能计算企业活跃度评分的方法,其特征在于:所述步骤s4中将数据集中的80%的数据用于训练模型,剩余20%的数...

【专利技术属性】
技术研发人员:阎龙张陆鹏
申请(专利权)人:珠海绘客科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1