一种质量量化的评测方法技术

技术编号:32855788 阅读:6 留言:0更新日期:2022-03-30 19:26
本发明专利技术公开了一种质量量化的评测方法,根据采集到的原始样本数据,设置训练数据和测试数据;将所述训练数据进行编码与预处理并利用聚类算法得到权值分数,利用回归分类算法训练模型;将所述测试数据进行编码与预处理并利用所述利用回归分类算法训练的模型预测测试数据的标签权重,将所述权值分数与标签权重做内积得到最终分值。结合不同的数据模型与方式方法,对数据信息进行复合,得出质量量化的评测方法;能够对样本的人生观、价值观以及自身素质和思想意识的提高提供科学依据。质和思想意识的提高提供科学依据。质和思想意识的提高提供科学依据。

【技术实现步骤摘要】
一种质量量化的评测方法


[0001]本专利技术涉及一种评测方法,尤其涉及一种质量量化的评测方法。

技术实现思路

[0002]为了解决上述技术所存在的不足之处,本专利技术提供了一种质量量化的评测方法。
[0003]为了解决以上技术问题,本专利技术采用的技术方案是:一种质量量化的评测方法,根据采集到的原始样本数据,设置训练数据和测试数据;
[0004]将训练数据进行编码与预处理并利用聚类算法得到权值分数,利用回归分类算法训练模型;
[0005]将测试数据进行编码与预处理并利用利用回归分类算法训练的模型预测测试数据的标签权重,将权值分数与标签权重做内积得到最终分值。
[0006]进一步地,设置训练数据和测试数据,包括:原始样本数据由多名样本构成,每名样本包含多项指标特征,原始样本数据中一部分拆分为训练数据;
[0007]基于训练数据建设训练模型,训练模型建模步骤,如下:
[0008]读取训练数据;
[0009]数据编码;
[0010]建模特征提取;
[0011]K

means聚类;
[0012]获取权值分数;
[0013]训练Logistic回归模型。
[0014]进一步地,训练模型建模步骤中的读取训练数据,包括:利用Python的 pandas数据结构来读取记载有训练数据的excel表格中的数据;
[0015]训练模型建模步骤中的数据编码,包括:将数据编码对连续型特征进行标签编码、对离散型特征进行独热编码形成编码后的数据;
[0016]训练模型建模步骤中的建模特征提取,包括:将数据编码对连续型特征进行标签编码、对离散型特征进行独热编码形成编码后的数据中相关性强的特征列作为训练建模数据;
[0017]训练模型建模步骤中的K

means聚类,包括:利用K

means聚类算法将训练建模数据分为k类,k为整数,得到样本初步标签向量;
[0018]训练模型建模步骤中的获取权值分数,包括:将100平均分为k份,得到与样本初步标签向量维度相同的k维初始权重分数向量;根据K

means聚类结果,将聚类中心的特征权重按照大小排序,将初始权重分数向量重新排序给出聚类标签的权值分数;
[0019]训练模型建模步骤中的训练Logistic回归模型,包括:基于提取好的训练建模数据和样本初步标签向量训练Logistic回归模型。
[0020]进一步地,权值分数向量为S_vec:
[0021][0022]其中,S_vec为初始权重分数向量,之中前序代表初始最低分值,后序代表分值间隔,100代表初始最高分值。
[0023]进一步地,权值分数的取值范围为0

100。
[0024]进一步地,训练Logistic回归模型通过调用python中sklearn包的 LogisticRegression.fit函数实现训练,函数的输入DataFrame数据为训练建模数据和样本初步标签向量。
[0025]进一步地,设置训练数据和测试数据,包括:原始样本数据由多名样本构成,每名样本包含多项指标特征,原始样本数据中一部分拆分为测试数据;
[0026]基于测试数据建设测试模型,测试模型建模步骤,如下:
[0027]读取测试数据;
[0028]数据编码;
[0029]建模特征提取;
[0030]获取标签权重;
[0031]获取最终分值。
[0032]进一步地,测试模型建模步骤中的读取测试数据,包括:利用Python的 pandas数据结构来读取记载有测试数据的excel表格中的数据;
[0033]测试模型建模步骤中的数据编码,包括:将数据编码对连续型特征进行标签编码、对离散型特征进行独热编码形成编码后的数据;
[0034]测试模型建模步骤中的建模特征提取,包括:将与训练建模数据相同的特征列作为测试建模数据;
[0035]测试模型建模步骤中的获取标签权重,包括:利用训练模型建模步骤中的训练Logistic回归模型所训练好的Logistic回归模型预测测试建模数据的每一样本的标签权重;
[0036]测试模型建模步骤中的获取最终分值,包括:将权值分数与标签权重做内积得到最终分值。
[0037]进一步地,将权值分数与标签权重做内积得到最终分值,公式为:
[0038][0039]其中,w(i)为标签权重的第i个分量,Score(i)为权值分数向量的第i个分量,perf_score为最终所得改造质量得分。
[0040]本专利技术公开了一种质量量化的评测方法,结合不同的数据模型与方式方法,对数据信息进行复合,得出质量量化的评测方法;能够对样本的人生观、价值观以及自身素质和思想意识的提高提供科学依据。
附图说明
[0041]图1为本专利技术的方法流程示意图。
[0042]图2为测试数据所得改造质量分值图。
具体实施方式
[0043]下面结合附图1和具体实施方式对本专利技术作进一步详细的说明。
[0044]本专利技术的目的是提供一种质量量化的评测方法,根据监控样本全数据域的改造质量系数与改造表现分值结合数据模型,建立改造质量量化的评测方法;提出量化的方法与指标项,再得到量化分值,分值再放入区间;模型会针对每个样本在监期间的改造表现生成一个综合改造分数,自动匹配改造质量区间,为提高改造质量、样本加快社会融入提供科学依据。具体方法如下:
[0045]设样本数据为由N名样本构成,每名样本包含M项特征,这M项特征中至少包括:“样本ID”,“原文化程度”,“现文化程度”,“民族”,“性别”,“户口类型”等。开始后,读取数据将样本数据拆分为训练数据和测试数据对和进行编码和预处理,其中n1=1,2,

,N1;n2=1,2,

,N2;N1+N2=N。
[0046]具体建模步骤如下
[0047]训练模型的建模。
[0048]读取训练数据从管理局获取Excel数据,利用python中pandas包的 read_csv函数读取训练数据文件得到pandas.DataFrame类型数据
[0049]数据编码,对连续型特征进行标签编码,将特征的取值替换成连续的数值型变量,不会增加模型复杂度,简单易实现,可解释性强;对离散型特征进行独热编码,独热编码是离散特征有多少取值,就用多少维向量来表示该特征,独热编码能够让特征之间的距离计算更加合理,将编码后的数据记为 coded_data_tr;
[0050]建模特征提取,通过相关专家以及管理样本获取建模过程中与样本改造质量相关性强的特征列,从已编码数据coded_data_tr中提取这些相关性强的特征列作为训练建模数据,记为data_train。其中,相关性强的特征列作为训练建模数据作为训练建模数据为人为选取,由数据本身决本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种质量量化的评测方法,其特征在于:根据采集到的原始样本数据,设置训练数据和测试数据;将所述训练数据进行编码与预处理并利用聚类算法得到权值分数,利用回归分类算法训练模型;将所述测试数据进行编码与预处理并利用所述利用回归分类算法训练的模型预测测试数据的标签权重,将所述权值分数与标签权重做内积得到最终分值。2.根据权利要求1所述的质量量化的评测方法,其特征在于:所述设置训练数据和测试数据,包括:所述原始样本数据由多名样本构成,每名样本包含多项指标特征,原始样本数据中一部分拆分为训练数据;基于训练数据建设训练模型,训练模型建模步骤,如下:读取训练数据;数据编码;建模特征提取;K

means聚类;获取权值分数;训练Logistic回归模型。3.根据权利要求2所述的质量量化的评测方法,其特征在于:所述训练模型建模步骤中的读取训练数据,包括:利用Python的pandas数据结构来读取记载有训练数据的excel表格中的数据;所述训练模型建模步骤中的数据编码,包括:将所述数据编码对连续型特征进行标签编码、对离散型特征进行独热编码形成编码后的数据;所述训练模型建模步骤中的建模特征提取,包括:将所述数据编码对连续型特征进行标签编码、对离散型特征进行独热编码形成编码后的数据中相关性强的特征列作为训练建模数据;所述训练模型建模步骤中的K

means聚类,包括:利用K

means聚类算法将训练建模数据分为k类,k为整数,得到样本初步标签向量;所述训练模型建模步骤中的获取权值分数,包括:将100平均分为k份,得到与所述样本初步标签向量维度相同的k维初始权重分数向量;根据K

means聚类结果,将聚类中心的特征权重按照大小排序,将初始权重分数向量重新排序给出聚类标签的权值分数;所述训练模型建模步骤中的训练Logistic回归模型,包括:基于提取好的训练建模数据和样本初步标签向量训练Logistic回归模型。4.根据权利要求3所述的质量...

【专利技术属性】
技术研发人员:王树良奚军庆崔放王志富李绍俊
申请(专利权)人:北京嘉诚瑞杰信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1