一种表征及修正两组数据间条件分布偏差的方法技术

技术编号:28376319 阅读:31 留言:0更新日期:2021-05-08 00:03
一种表征及修正两组数据间条件分布偏差的方法,针对两组数据间存在复杂的条件分布偏差的情况,将原始特征空间中的复杂分布偏差难以求解的问题转化为多个子空间中的简单分布偏差衡量指标的求解。该方法首先将两组数据共同所在的特征空间划分为多个子空间,再利用特征空间中的数据点对每个子空间的隶属度函数,以及每个子空间的条件分布偏差衡量指标,计算两组数据间的条件分布偏差函数。本发明专利技术的主要用途为表征两组数据间的分布偏差,表征结果可用于修正分布偏差、指导数据采样、指导迁移学习等。

【技术实现步骤摘要】
一种表征及修正两组数据间条件分布偏差的方法
本专利技术涉及一种大数据技术,尤其是一种机器学习技术,具体地说是一种表征及修正两组数据间条件分布偏差的方法。
技术介绍
近年来,机器学习广泛应用于各个领域,如计算机视觉、自然语言处理、故障诊断、系统状态预测等。然而,机器学习方法有效运行的基本假设为,即训练数据和测试数据需具有相同的数据分布。但在实际应用场景下,许多数据并不满足分布相同的假设,尤其是许多回归问题的数据中存在条件分布偏差,如不同区域的房屋价格分布,不同工况下加工设备的剩余寿命分布,不同季节的机场人流量分布等。当数据间存在条件分布偏差时,传统的机器学习算法无法有效运行,需对两组数据间的偏差进行修正,而修正的前提是对偏差进行有效表征。专利CN111626351A专利技术了一种用于获取数据分布的概念漂移量的方法和系统,该方法能够给出描述两组数据间的分布偏差的单个数值指标,根据该指标与给定阈值的大小关系,用于判断已训练的机器学习模型是否适用于新的场景,该方法能够综合表达两组数据间分布偏差,对机器学习模型的实际应用有指导意义。然而,两组数据本文档来自技高网...

【技术保护点】
1.一种表征两组数据间条件分布偏差的方法,其特征在于,它包括以下步骤:/n首先,获取第一组样本数据和第二组样本数据,两组数据中每个样本由特征x和标签y构成;/n其次,将第一组样本数据的特征和第二组样本数据的特征所在的共同特征空间划分为多个子空间,并获取特征空间中的数据点对每个子空间的隶属度函数;/n第三,计算两组数据在每个子空间上的条件分布偏差衡量指标;/n最后,利用特征空间中的数据点对每个子空间的隶属度函数,以及两组数据在每个子空间上的条件分布偏差衡量指标,计算两组数据间的条件分布偏差函数。/n

【技术特征摘要】
1.一种表征两组数据间条件分布偏差的方法,其特征在于,它包括以下步骤:
首先,获取第一组样本数据和第二组样本数据,两组数据中每个样本由特征x和标签y构成;
其次,将第一组样本数据的特征和第二组样本数据的特征所在的共同特征空间划分为多个子空间,并获取特征空间中的数据点对每个子空间的隶属度函数;
第三,计算两组数据在每个子空间上的条件分布偏差衡量指标;
最后,利用特征空间中的数据点对每个子空间的隶属度函数,以及两组数据在每个子空间上的条件分布偏差衡量指标,计算两组数据间的条件分布偏差函数。


2.根据权利要求1所述的方法,其特征在于,所述的特征x为描述样本数据的特征信息,信息类型是标量数据、向量数据、张量数据、图像数据、文本数据或者其他用户指定数据;所述的标签y为描述样本数据的标签信息,信息类型是标量数据、向量数据、张量数据、图像数据、文本数据或者其他用户指定数据。


3.根据权利要求1所述的方法,其特征在于,所述的共同特征空间获取方法为以下之一:
根据两组样本数据的特征的分布范围确定共同特征空间;
根据样本数据所面临的任务特点确定共同特征空间;
同时根据样本数据特征的分布范围以及样本数据所面临的任务特点确定共同特征空间。


4.根据权利要求1所述的方法,其特征在于,所述的特征空间划分包括硬划分或软划分两种类型,硬划分方法包括决策树或者K-means聚类,软划分方法包括高斯混合模型或者模糊C均值。


5.根据权利要求1所述的方法,其特征在于,所述的隶属度函数用于表示特征空间中的数据点对于每个子空间的隶属程度,所述隶属度函数计算方法为:
当所述特征空间硬划分为多个子空间时,特征点唯一隶属于某个子空间,特征空间中数据点xi隶属于第k个子空间的隶属度函数表示为:



当所述特征空间软划分为多个子空间时,特征点对每个子空间具有不同的隶属程度,隶属度函数为高斯隶属度函数,或者三角隶属度函数,或者Gamma隶属度函数。


6.根据权利要求1所述的方法,其特征在于,所述的子空间条件分布偏差衡量指标用于近似表示每个子空间中的第一样本数据和第二样本数据之间的条件分布偏差,所述的子空间条件分布偏差衡量指标的具体形式包括单一数值形式或概率密度函数形式;
所述的子空间条件分布偏差衡量指标的计算方法包括:采用核均值差异求解;或采用KL散度求解;或采用欧式距离求解。


7.根据权利要求1所述的方法,其特征在于,所述的计算两组数据在每...

【专利技术属性】
技术研发人员:李迎光刘旭陈耿祥
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1