一种评价数据的特征分布和置信度的方法及装置制造方法及图纸

技术编号：23934133 阅读：42 留言：0更新日期：2020-04-25 02:31

本发明专利技术提供一种评价数据的特征分布和置信度的方法及装置，在获取到特征数据集之后，对特征数据集中属于同一特征数据且从不同数据来源的多个数值进行交叉验证，以将多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中，获得各个具有数值一致性的数值组各自对应的目标数值，计算不具有数值一致性的数值组中各个数值的预测概率、各个目标数值的预测概率以及进行交叉验证后的特征数据集的置信度，并作为模型的输入对模型进行使用或训练测试，以通过同一特征数据的数值的预测概率分布和特征数据集的置信度来代替现有最佳估计值方式得到的单一值，从而体现数值之间的差异并提高模型的准确度。

A method and device for evaluating the characteristic distribution and confidence of data

全部详细技术资料下载

【技术实现步骤摘要】
一种评价数据的特征分布和置信度的方法及装置
本专利技术属于机器学习模型
，尤其涉及一种评价数据的特征分布和置信度的方法及装置。
技术介绍
目前机器学习模型建立过程中需要采集一些有实际意义的特征数据，例如对于情绪分类模型需要采集指示情绪类别的特征数据，对于金融风险预测模型需要采集指示金融风险的特征数据，如客户收入和负债等等。在大数据时代数据呈爆炸性的增长，同一个特征数据可能会具有多个数据来源，针对多个数据来源的同一个特征数据，在机器学习模型建立过程中通过最佳估计值方式对特征数据进行处理得到单一值，然后将单一值作为机器学习模型的输入进行模型训练和测试。但是目前最佳估计值方式会导致特征数据的单一值损失特征数据的意义，如情绪分类模型中指示情绪类型的图像特征数据，从数据来源A获取到的图像特征数据指示的情绪分类得分为0.9，对应的情绪为高兴，从数据来源B获取到的图像特征数据指示的情绪分类得分为0.3，对应的情绪为悲伤，若采用最佳估计值方式得到的情绪分类得分为0.6，对应的情绪可能为高兴或者是除高兴和悲伤之外的情绪，使得情绪分类有偏差。同样对于金融风险预测模型，如果有两个数据来源的利润估算分别为-500万元，+700万元，而风险政策要求必须要盈利的话，这时候如果用“最佳估计值方式”盈利100万元进行估计，就可能对风险估计有所偏差，因此目前的最佳估计值方式无法体现不同数据来源的数值之间的差异也无法体现不同数据来源的数值的可靠性，进而导致模型的准确度降低。
技术实现思路
有鉴于此，本专利技术的...

【技术保护点】
1.一种评价数据的特征分布和置信度的方法，其特征在于，所述方法包括：/n获取特征数据集，所述特征数据集包括属于同一特征数据的多个数值，且所述多个数值分别从不同数据来源采集到；/n对所述多个数值进行交叉验证，以将所述多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中；/n基于所述各个具有数值一致性的数值组中的各个数值，获得所述各个具有数值一致性的数值组各自对应的目标数值；/n计算所述不具有数值一致性的数值组中各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度；/n将所述各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度作为模型的输入，对所述模型进行使用或训练测试。/n

【技术特征摘要】
1.一种评价数据的特征分布和置信度的方法，其特征在于，所述方法包括：
获取特征数据集，所述特征数据集包括属于同一特征数据的多个数值，且所述多个数值分别从不同数据来源采集到；
对所述多个数值进行交叉验证，以将所述多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中；
基于所述各个具有数值一致性的数值组中的各个数值，获得所述各个具有数值一致性的数值组各自对应的目标数值；
计算所述不具有数值一致性的数值组中各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度；
将所述各个数值的预测概率、各个所述目标数值的预测概率以及进行交叉验证后的特征数据集的置信度作为模型的输入，对所述模型进行使用或训练测试。

2.根据权利要求1所述的方法，其特征在于，所述对所述多个数值进行交叉验证，以将所述多个数值划分至不具有数值一致性的数值组和各个具有数值一致性的数值组中，包括：
分别计算所述多个数值中任意数值对的差异度，所述数值对由所述多个数值中的两个数值组成，所述数值对的差异度表示该数值对中两个数据之间的差异；
将所述差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中。

3.根据权利要求2所述的方法，其特征在于，所述分别计算所述多个数值中任意数值对的差异度，包括：
确定与所述特征数据对应的预设距离函数；
基于所述预设距离函数，计算所述数值对中两个数值之间的距离，所述两个数值之间的距离表示所述数值对的差异度。

4.根据权利要求2所述的方法，其特征在于，所述将所述差异度满足预设一致性条件且存在相同数值的数值对中的各个数值划分至具有数值一致性的数值组中，以及将差异度不满足预设一致性条件的数值对中的各个数值划分至不具有数值一致性的数值组中，包括：
从所有数值对中选取差异度最小的数值对；
判断所述差异度最小的数值对的差异度是否小于或等于预设差异度，所述预设一致性条件包括所述差异度最小的数值对的差异度小于或等于预设差异度；
若差异度最小的数值对的差异度小于或等于预设差异度，计算所述差异度最小的数值对的目标数值，以所述目标数值替换所述差异度最小的数值对中的两个数值，且若该数值对中的一个数值与之前计算出的数值对的目标数值不同，将该数值对中的数值划分至具有数值一致性的数值组中，若该数值对中的一个数值与之前计算出的数值对的目标数值相同，将该数值对中的数值划分至之前计算出目标数值的数值对中的数值所在的数值组中；
将所述特征数据集中的剩余数值重新组成数值对，并计算重新组成的各个数值对的差异度；
从重新组成的数值对中选取差异度最小的数值对，并返回执行所述判断所述差异度最小的数值对的差异度是否小于或等于预设差异度的步骤；
若差异度最小的数值对的差异度大于所述预设差异度，将差异度大于所述预设差异度的数值对中的数值划分至不具有数值一致性的数值组。

5.根据权利要求1所述的方法，其特征在于，所述基于所述各个具有数值一致性的数值组中的各个数值，获得所述各个具有数值一致性的数值组各自对应的目标数值，包括：
基于所述具有数值一致性的数值组中的各个数值以及该具有数值一致性的数值组中各个数值对应数据来源的置信度，计算该具有数值一致性的数值组对应的目标数值。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：获得所述各个具有数值一致性的...

【专利技术属性】
技术研发人员：史岩，张君，强晓雯，菅鹏，李卓，夏珣，殷朋朋，武哲，吕春明，谭世鹏，仲崇龙，
申请(专利权)人：北京国腾联信科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人