基于机器学习的企业行政处罚数据分类方法及系统技术方案

技术编号:35589753 阅读:11 留言:0更新日期:2022-11-16 15:06
本发明专利技术公开了基于机器学习的企业行政处罚数据分类方法及系统,包括:数据处理模块,用于对现有处罚数据进行人工标注;并将标注后的数据进行向量化;模型搭建模块,用于搭建深度学习模型;模型调优模块,用于对模型进行调优,手动介入线性层为其设置概率阈值,并进行分类判断;外部交互模块,用于模型保存,部署服务器,通过flask框架为外部提供服务。本发明专利技术通过搭建模型,模型调优,通过预设的准确率评价指标对模型进行学习率调整;并进行特征工程修改,为数据进行定性分类,能够体现出数据价值让使用者对数据进行快捷索引。让使用者对数据进行快捷索引。让使用者对数据进行快捷索引。

【技术实现步骤摘要】
基于机器学习的企业行政处罚数据分类方法及系统


[0001]本专利技术涉及企业行政处罚数据分类领域,尤其涉及基于机器学习的企业行政处罚数据分类方法及系统。

技术介绍

[0002]行政数据描述的是某一个社会群体的特征,而企业作为目前社会上一个数量巨大的群体,其对应的企业行政数据对一个企业来说是至关重要的,且企业行政数据的数据类型较多、数据规模较大。征信一个人的信用评价指标,很多事情都建立在征信基础上开展的,对于公司来说,特别是建筑企业从个人的不良信息就可以饰选出来是否是一个优质企业。市面上都是将信息揉在一起没有具体的分类和定性,就让这些数据的价值变低降低。

技术实现思路

[0003]针对上述问题,本专利技术提供基于机器学习的企业行政处罚数据分类方法及系统。
[0004]本专利技术通过以下技术方案实现:基于机器学习的企业行政处罚数据分类方法,包括以下步骤:S1. 对现有处罚数据进行人工标注;并将标注后的处罚数据进行向量化;S2. 搭建深度学习模型;S3. 进行模型调优,手动介入线性层为其设置概率阈值,并进行分类判断;S4. 模型保存,部署服务器,通过flask框架为外部提供服务。
[0005]进一步的,所述步骤S1具体包括以下子步骤:S101. 对已有的处罚数据进行人工标注;S102. 管理员对数据进行验证分析,提取特征,进行特征工程;S103. 将数据进行向量化。
[0006]进一步的,所述步骤S101具体为:对现有处罚数据进行进行高频词统计,并对高频词进行文本删减,所述文本删减具体为对文本中多余的词句进行删减。
[0007]进一步的,所述步骤S3具体包括以下子步骤:S301. 通过预设的准确率评价指标对模型进行学习率调整;S302. 特征工程修改;S303. 手动介入线性层为其设置概率阈值;S304. 进行分类判断;其中,所述准确率评价指标通过测试集合的数据:正确数量/总数,进行计算。
[0008]进一步的,所述深度学习模型具体为选择gated_cnn+线性层作为隐含层,选择交叉熵作为损失函数,选择adam作为优化函数。
[0009]基于机器学习的企业行政处罚数据分类系统,包括:数据处理模块,用于对现有处罚数据进行人工标注;并将标注后的数据进行向量化;
模型搭建模块,用于搭建深度学习模型;模型调优模块,用于对模型进行调优,手动介入线性层为其设置概率阈值,并进行分类判断;外部交互模块,用于模型保存,部署服务器,通过flask框架为外部提供服务。
[0010]进一步的,所述数据处理模块具体包括:标注单元,用于对已有的处罚数据进行人工标注;特征处理单元,用于管理员对数据进行验证分析,提取特征,进行特征工程;数据向量化单元,将数据进行向量化。
[0011]进一步的,所述深度学习模型具体为选择gated_cnn+线性层作为隐含层,选择交叉熵作为损失函数,选择adam作为优化函数。
[0012]进一步的,所述模型调优模块具体包括:模型调整单元,模型通过预设的准确率评价指标对模型进行学习率调整;并进行特征工程修改;阈值设置单元,用于手动介入线性层为其设置概率阈值;分类判断单元,用于进行分类判断。
[0013]本专利技术的有益效果:本专利技术通过搭建模型,模型调优,通过预设的准确率评价指标对模型进行学习率调整;并进行特征工程修改,为数据进行定性分类,能够体现出数据价值让使用者对数据进行快捷索引。
附图说明
[0014]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为本专利技术实施例提出的基于机器学习的企业行政处罚数据分类方法的方法流程图;图2为本专利技术实施例提基于机器学习的企业行政处罚数据分类的终端设备的结构示意图;图3为本专利技术实施例提出的基于机器学习的企业行政处罚数据分类方法的计算机可读存储介质结构示意图。
具体实施方式
[0016]为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。
[0017]实施例1如图1,本实施例提出基于机器学习的企业行政处罚数据分类方法,包括以下步骤:
S1. 对现有处罚数据进行人工标注;并将标注后的数据进行向量化;S2. 搭建深度学习模型;S3. 进行模型调优,手动介入线性层为其设置概率阈值,并进行分类判断;S4. 模型保存,部署服务器,通过flask框架为外部提供服务。
[0018]进一步的,所述步骤S1具体包括以下子步骤:S101. 对已有的处罚数据进行人工标注;S102. 管理员对数据进行验证分析,提取特征,进行特征工程;S103. 将数据进行向量化。
[0019]进一步的,所述步骤S3具体包括以下子步骤:S301. 通过预设的准确率评价指标对模型进行学习率调整;S302. 特征工程修改;S303. 手动介入线性层为其设置概率阈值;S304. 进行分类判断。
[0020]进一步的,所述步骤S303具体为:从60

90逐步调整,最优值为85。
[0021]进一步的,所述深度学习模型具体为选择gated_cnn+线性层作为隐含层,选择交叉熵作为损失函数,选择adam作为优化函数。
[0022]根据本实施例上述内容,进一步提出一种具体实施方式,其中,围标串标在招标中算是恶劣的行为,通过对数据进行分析分类后使用,就可以快捷了解某公司是否有相应的违法行为。而不用花大金时间去查找。
[0023]上述实施例的成品效果具体为:使用者通过输入惩戒原因(即违法事实),即可输入他的违法类型。
[0024]具体的,本实施例的具体原理流程如下:流程:数据预处理

选定几个待定模型

对比各个模型的准确率选择最优

调优训练保存模型参数

模型部署服务器

开放服务接口。
[0025]调优过程:规则上:数据人为干预加上强特征,数据层面上:各种分类标上少量数据,通过训练模型进分类,然后将模型得到的的数据挑出错误数据,然后加入训练数据,参数上:调整学习率,训练轮数,每个batch的大小,优化函数在adam和sgd中选择了adam。
[0026]预处理:通过大量处罚数据进行高频词统计(会去除一般的中文顿词语(你我他等副词)),相关专家总结的分类强特征词语(用于给数据添加强特征);将数据进行分词处理,(长度超过800依据高频词和特征词进行截取)。
[0027]进一步的,模型使用gated_cnn(嵌套两次cnn)+Linear(线性层)。
[0028]实施例2在实施例1的基础上,本实施例进一步提出基于机器学习的企业行政本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于机器学习的企业行政处罚数据分类方法,其特征在于,包括以下步骤:S1. 对现有处罚数据进行人工标注;并将标注后的处罚数据进行向量化;S2. 搭建深度学习模型;S3. 进行模型调优,手动介入线性层为其设置概率阈值,并进行分类判断;S4. 模型保存,部署服务器,通过flask框架为外部提供服务。2.根据权利要求1所述的基于机器学习的企业行政处罚数据分类方法,其特征在于,所述步骤S1具体包括以下子步骤:S101. 对已有的处罚数据进行人工标注;S102. 管理员对数据进行验证分析,提取特征,进行特征工程;S103. 将数据进行向量化。3.根据权利要求1所述的基于机器学习的企业行政处罚数据分类方法,其特征在于,所述步骤S101具体为:对现有处罚数据进行进行高频词统计,并对高频词进行文本删减,所述文本删减具体为对文本中多余的词句进行删减。4.根据权利要求1所述的基于机器学习的企业行政处罚数据分类方法,其特征在于,所述步骤S3具体包括以下子步骤:S301. 通过预设的准确率评价指标对模型进行学习率调整;S302. 特征工程修改;S303. 手动介入线性层为其设置概率阈值;S304. 进行分类判断;其中,所述准确率评价指标通过测试集合的数据:正确数量/总数,进行计算。5.根据权利要求1所述的基于机器学习的企业行政处罚数据分类方法,其特征在于,所述深度学习...

【专利技术属性】
技术研发人员:陈锋廖泽丽周剑洪赵航翊谭寒月任毅吴林健
申请(专利权)人:重庆大司空信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1