【技术实现步骤摘要】
一种业务评估方法、装置、电子设备及存储介质
[0001]本申请涉及信息
,尤其涉及一种业务评估方法、装置、电子设备及存储介质。
技术介绍
[0002]现有技术中,经常利用训练好的网络模型来实现业务的分类、鉴别及预测等评估目的,以简化相应业务评估时的计算过程,提高评估效率。但是获取到的待评估业务的相应数据集中,其不同样本类别的数量往往存在着严重的不平衡,而训练相应模型的数据集中样本类别数量的极度不平衡会使得利用该不平衡的数据集训练好的模型所输出的评估结果偏向于样本数量多的样本类别,也就会使得相应业务评估结果的准确性受到影响。
[0003]可见训练相应模型时的输入数据集样本类别间数据量的平衡是非常重要的,而目前亟需一种能够使得数据集中样本类别间数据量的实现平衡方法,以提高利用网络模型进行业务评估的准确性。
技术实现思路
[0004]本申请提供一种业务评估方法、装置、电子设备及存储介质,用以解决由于训练数据集中样本类别数量不平衡造成的模型评估准确性较差的技术问题。
[0005]第一方面,本申请 ...
【技术保护点】
【技术特征摘要】
1.一种业务评估方法,其特征在于,包括:获取待评估业务的数据;采用预配置的数学模型,对所述待评估业务的数据进行评估处理,以获取评估结果;其中,所述预配置的数学模型获取的方式为:获取与所述待评估业务相关的第一不平衡数据集;所述第一不平衡数据集包括少数类数据集和多数类数据集;其中,所述少数类数据集中包括少数个数据组,所述多数类数据集中包括多数个数据组,每个所述数据组中包括多维特征各自对应的特征值数据;根据每维特征对应的特征值数据在所述少数类数据集和多数类数据集中的缺失情况,以及每维特征对应的特征值数据的数据类型,对所述第一不平衡数据集进行预处理,以获取第二不平衡数据集;对所述第二不平衡数据集中的少数类数据集中的每维特征对应的特征值数据进行最大最小归一化处理,并对处理后的少数类数据集添加白噪声,以获取第三不平衡数据集;根据所述第三不平衡数据集中的少数类数据集和预设最小误差条件,对预配置的自编码器进行训练,以获取最终的自编码器;根据所述最终的自编码器,对所述第三不平衡数据集进行平衡处理,以获取平衡数据集,并对所述平衡数据集的少数类数据集中每维特征对应的特征值数据进行还原处理,以获取待输入的数据集;根据所述待输入的数据集,对待训练的数学模型进行训练,以获取所述预配置的数学模型。2.根据权利要求1所述的方法,其特征在于,所述根据每维特征对应的特征值数据在所述少数类数据集和多数类数据集中的缺失情况,以及每维特征对应的特征值数据的数据类型,对所述第一不平衡数据集进行预处理,以获取第二不平衡数据集,包括:针对每维特征,分别获取所述特征对应的特征值数据在所述少数类数据集中的第一缺失率,以及所述特征对应的特征值数据在所述多数类数据集中的第二缺失率,并在所述第一缺失率和所述第二缺失率均大于预设缺失阈值时,将所述特征及所述特征对应的特征值数据在所述第一不平衡数据集中删除;在所述第一不平衡数据集中的被保留特征对应的特征值数据类型为字符型时,针对每维所述被保留特征,确定在所述少数类数据集中的所述被保留特征对应的特征值数据是否存在缺失,若存在缺失,则从所述少数类数据集中的所述被保留特征对应的未缺失的特征值数据中确定众数,并将所述众数添加至所述被保留特征存在特征值数据缺失的对应位置;在所述被保留特征对应的特征值数据类型为字符型时,针对每维所述被保留特征,确定在所述多数类数据集中的所述被保留特征对应的特征值数据是否存在缺失,若存在缺失,则从所述多数类数据集中的所述被保留特征对应的未缺失的特征值数据中确定众数,并将所述众数添加至所述被保留特征存在特征值数据缺失的对应位置;在所述被保留特征对应的特征值数据类型为非字符型时,针对每维所述被保留特征,确定在所述少数类数据集中的所述被保留特征对应的特征值数据是否存在缺失,若存在缺失,则从所述少数类数据集中的所述被保留特征对应的未缺失的特征值数据中确定平均值,并将所述平均值添加至所述被保留特征存在特征值数据缺失的对应位置;
在所述被保留特征对应的特征值数据类型为非字符型时,针对每维所述被保留特征,确定在所述多数类数据集中的所述被保留特征对应的特征值数据是否存在缺失,若存在缺失,则从所述多数类数据集中的所述被保留特征对应的未缺失的特征值数据中确定平均值,并将所述平均值添加至所述被保留特征存在特征值数据缺失的对应位置;在所述被保留特征对应的特征值数据类型为字符型时,对所述被保留特征对应的特征值数据进行哑编码处理,以获取第二不平衡数据集。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第三不平衡数据集中的少数类数据集和预设最小误差条件,对预配置的自编码器进行训练,以获取最终的自编码器,包括:分批次从所述第三不平衡数据集中的少数类数据集中提取预设数量的数据组,并将所述数据组输入至预配置的自编码器进行训练,以获取生成的对应少数类数据集,并根据所述生成的对应少数类数据集、所述第二不平衡数据集中少数类数据集经过最大最小归一化处理后的数据集以及所述预设数量,获取最小误差;当所述最小误差满足预设最小误差条件时,停止对所述预配置的自编码器的训练,并将此时的所述预配置的自编码器作为最终的自编码器。4.根据权利要求3所述的方法,其特征在于,所述根据所述生成的对应少数类数据集、所述第二不平衡数据集中少数类数据集经过最大最小归一化处理后的数据集以及所述预设数量,获取最小误差,包括:根据所述生成的对应少数类数据集所述第二不平衡数据集中少数类数据集经过最大最小归一化处理后的数据集x以及所述预设数量n,采用如下公式:获取最小误差5.根据权利要求1所述的方法,其特征在于,在所述根据所述最终的自编码器,对所述第三不平衡数据集进行平衡处理,以获取平衡数据集之后,所述方法还包括:针对每维特征,对所述平衡数据集中的少数类数据集的所述特征,与所述第二不平衡数据集中的少数类数据集经过最大最小归一化处理后的数据集中对应所述特征进行KS检验,获取每维所述特征的检验值;若每维所述特征对应的检验均大于0.01,则对所述平衡数据集中的少数类数据集的每维特征的特征值数据进行还原处理,以获取待输入的数据集;若存在检验值小于或等于0.01的特征,则将所述特征在所述平衡数据集中进行删除,以获取更新后的平衡数据集;对所述更新后的平衡数据集中的少数类数据集的每维特征的特征值数据进行还原处理,以获取待输入的数据集。6.一种业务评估装置,其特征在于,包括:获取模块,用于获取待评估业务的数据;处理模块,用于采用预配置的数学模型,对所...
【专利技术属性】
技术研发人员:王功举,李阳,闫龙,胡博文,李奕萱,黄兴如,王全达,
申请(专利权)人:联通数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。