一种基于大数据的自律性评价体系构建方法及系统技术方案

技术编号:32281432 阅读:21 留言:0更新日期:2022-02-12 19:48
本发明专利技术涉及一种基于大数据的自律性评价体系构建方法及系统,其中,构建方法包括以下步骤:通过公开的信息网站获取涉及网络文化经营的企业列表,建立企业列表;根据企业列表,获取企业相关数据,构建企业信息库;制定企业网络文化分级策略;在企业信息库和分级策略的基础上,结合XGboost算法建立预测模型,实现企业自律性评价;根据所制定的分级策略,返回企业自律性评价分级结果。本发明专利技术利用网格搜索算法来对极端梯度推进决策树进行优化调参,并且重构重构损失函数来缓解数据不均衡所带来的问题,虽然训练时间有所增加,但是大大提高了评价的准确性。价的准确性。价的准确性。

【技术实现步骤摘要】
一种基于大数据的自律性评价体系构建方法及系统


[0001]本专利技术涉及基于企业自律性评价体系的分级模型构建,大数据分析与处理以及机器学习领域,尤其是涉及一种基于大数据的自律性评价体系构建方法及系统。

技术介绍

[0002]企业网络文化自律性评价体系旨在企业根据预先制定好的评价指标以及分级策略,采用自律性评价模型,对自身的综合因素进行评价,得到企业的评价等级,提供决策参考,用于后续对企业的网络文化监管。
[0003]现有的企业网络文化经营自律性评价体系构建方法分为人工方式和半人工方式两种手段。人工方式是在企业上报相关材料后,通过预先定义好的关键属性,进行人工判断并进行评分,得到最终的评价等级。半人工的评价策略是经人工预选定义好关键属性,并经过实验不断修正属性的权重,得到一个较为合理的属性定义,然后经过自动化的检测得到最终的评价等级。半人工方式虽然省时省力,但是训练权重是比较困难而且不准确,所以目前的主要评价手段还是依靠人工判断并进行评分。

技术实现思路

[0004]本专利技术的目的在于,解决现有的企业网络文化经营自律性评价体系构建方法存在的上述问题。
[0005]为了实现上述目的,一方面,本专利技术提供了一种基于大数据的自律性评价体系构建方法,包括以下步骤:
[0006]通过公开的信息网站获取涉及网络文化经营的企业列表,建立企业列表;
[0007]根据企业列表,获取企业相关数据,构建企业信息库;
[0008]制定企业网络文化分级策略;
[0009]在企业信息库和分级策略的基础上,结合XGboost算法建立预测模型,实现企业自律性评价;
[0010]根据所制定的分级策略,返回企业自律性评价分级结果。
[0011]另一方面,本专利技术提供了一种基于大数据的自律性评价体系构建系统,该系统包括:
[0012]第一创建模块,用于通过公开的信息网站获取涉及网络文化经营的企业列表,建立企业列表;
[0013]第二创建模块,用于根据企业列表,获取企业相关数据,构建企业信息库;
[0014]第三创建模块,用于制定企业网络文化分级策略;
[0015]第一处理模块,用于在企业信息库和分级策略的基础上,结合XGboost算法建立预测模型,实现企业自律性评价;
[0016]第二处理模块,用于根据所制定的分级策略,返回企业自律性评价分级结果。
[0017]本专利技术利用自动化的程序来实现整体企业网络文化自律性评价系统,其中包括自
动爬取企业信息、自动处理数据以及自动分级评价,这大大简化了监管部门的工作量,提高工作效率。首先,根据政府公开网站和企业信息网站所获取到的信息,包括企业名称、注册资本、经营状态和用户投诉量等信息构建企业标准信息库,并同时对这些信息做预处理;根据企业现有指标,结合企业信用等级的划分策略,给出相对的应对策略,构建企业自律性评价体系。最后利用改进的极端梯度推进决策树(XGboost)模型来构建企业自律性评价模型,并且通过网格搜索对模型进行自动调参来获得模型最优参数,以一种全自动化的方式来获取企业的自律性评价等级并返回给监管部门提供对应的处理方案。
附图说明
[0018]图1为本专利技术实施例提供的一种基于大数据的自律性评价体系构建方法流程示意图;
[0019]图2为本专利技术实施例提供的一种基于大数据的自律性评价体系构建系统结构示意图。
具体实施方式
[0020]下面将参照以上说明更详细地描述本公开的示例性实施例。虽然本实施例显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0021]图1为本专利技术实施例提供的一种基于大数据的自律性评价体系构建方法流程示意图。如图1所示,该方法包括以下步骤:
[0022]步骤S101,通过政府的公开信息网站获取涉及网络文化经营的企业列表,建立企业列表。
[0023]具体地,本专利技术实施例定期通过爬虫系统更新企业列表。爬虫系统为自建机制健全的爬虫程序,针对不同网站和不同数据制定不同的爬虫规则:定期爬取方案包括;爬取代码包含爬取、去重模块、入库三个模块。爬取逻辑遵循“搜索”到需要的数据列表页。爬取列表页,得到所有公司详情页面的URL链接。把链接放入去重模块中,去重模块会从redis或本地文件中读取已经爬取过的URL进行比对,最后留下从未爬取过的URL再次传给下载模块,下载模块获取详情页内容进行解析后将格式化的数据传给入库模块写入基于分布式文件存储的数据库mongodb。
[0024]步骤S102:根据企业列表,获取企业相关数据,构建企业信息库。
[0025]具体地,构建企业自律性评价指标。使用全方位、多角度的评价指标(包括企业基本信息和公众评价信息两大部分)来表示企业在网络文化领域的综合表现。根据所构建的指标,利用爬虫系统爬去各类企业网站企业信息(如政府企业信息公示系统等网站),获取企业列表中所有企业的基本信息,其中包括注册资本、上市情况、成立年限、行政处罚、用户投诉量等企业信息;再通过爬虫系统定期的自动化的更新企业信息库。
[0026]步骤S103,制定企业网络文化分级策略。
[0027]具体地,通过既定的影响指标,结合企业信用等级的划分策略,如设定从AAA~D的等级划分。
[0028]详细企业网络文化分级策略如下:
[0029][0030]针对不同自律性评价等级,设定不同的监管力度。(从AAA等级到D等级,监管部门的监管措施力度将不断增加)
[0031]步骤S104,在企业信息库和分级策略的基础上,结合XGboost算法建立预测模型,实现企业自律性评价。
[0032]具体地,对获取到的企业信息进行数据预处理,并根据分级策略划分公开信息网站(天眼查网站)评分的等级,作为模型的预测标签,同时将其输入到XGboost模型中进行训练。另外,重构损失函数来改进XGboost算法,解决各个等级之间数据不平衡所带来的对最终准确率的影响。各个等级之间数据集存在不均衡问题,如AAA与D等级的数量分别占到总数量的3%以及2%,于是需要对XGboost的损失函数进行重构来缓解数据不均衡所带来的问题。本专利技术实施例采用非线性转化重构损失函数,本质是通过赋予少样本的数据更高的权重,将使得数据达到均衡状态。具体权重计算方法如下:
[0033][0034][0035]其中,d
k
为第K类的样本数,D为样本总数,ρ为权重范围控制参数。自律性评价任务为分类任务,因此选择负对数似然损失函数作为损失函数。具体损失函数如下所示:
[0036][0037]其中,ω为平衡样本的参数,y
i
表示真实值,表示预测值,K表示样本数。
[0038]对企业特征进行筛选,根据特征的重要性进行排序,排除影响因子很小的特征。企业特征是指企业的特征信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的自律性评价体系构建方法,其特征在于,包括以下步骤:通过公开的信息网站获取涉及网络文化经营的企业列表,建立企业列表;根据企业列表,获取企业相关数据,构建企业信息库;制定企业网络文化分级策略;在企业信息库和分级策略的基础上,结合XGboost算法建立预测模型,实现企业自律性评价;根据所制定的分级策略,返回企业自律性评价分级结果。2.根据权利要求1所述的方法,其特征在于,所述在企业信息库和分级策略的基础上,结合XGboost算法建立预测模型,实现企业自律性评价步骤,包括:对获取到的企业信息进行数据预处理;重构损失函数来改进XGboost算法,解决各个等级之间数据不平衡所带来的对最终准确率的影响;对企业特征进行筛选,根据特征的重要性进行排序,排除影响因子很小的特征;使用网格搜索方式对XGboost算法确定最优参数。3.根据权利要求2所述的方法,其特征在于,采用非线性转化重构损失函数,通过赋予少样本的数据更高的权重,将使得数据达到均衡状态;所述损失函数计算公式为:其中,ω为平衡样本的参数,y
i
表示真实值,表示预测值,K表示样本数。所述权重ω计算公式为:所述权重ω计算公式为:其中,d
k
为第K类的样本数,D为样本总数,ρ为权重范围控制参数。4.根据权利要求2所述的方法,其特征在于,所述使用网格搜索方式对XGboost算法确定最优参数步骤,包括:使用网格搜索方式对指定参数在一定范围内划分网格并遍历网格内的所有取值。5.根据权利要求1所述的方法,其特征在于,所述根据企业列表,获取企业相关数据,构建企业信息库步骤,包括:构建企业自律性评价指标,所述评价指标包括:企业基本信息和公众评价信息两大部分;根据所构建的评价指标,利用爬虫系统爬去各类企业网站企业信息,获取企业列表中所有企业的基本信息,其中包括注册资本、上市情况、成立年限、行政处罚、用户投诉量;通过爬虫系统定期的自动化的更新企业信息库。6.一种基于大数据的自律...

【专利技术属性】
技术研发人员:赵泽方李俊刘宇炀岳兆娟
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1