一种异构数据集特征质量可视化方法技术

技术编号:13326790 阅读:77 留言:0更新日期:2016-07-11 16:11
一种异构数据集特征质量可视化方法,通过对异构的训练集和验证集特征分布进行统计,引入特征离散值的发生率,采用异构方法在极坐标系中对特征集合以及特征类别值集合进行可视化,通过计算类别值的正样本发生率、规范化发生率、漂移比、综合发生率,以漂移比为半径、综合发生率为偏角,在极坐标中绘制特征质量图。根据特征可视化方法帮助解决有监督学习中典型的四个特征工程问题:特征评估、特征归因、特征选择、特征改进。本发明专利技术使有监督机器学习模型面对领域迁移学习问题或者同领域但数据分布有趋势性漂移时,能够克服训练集和测试集分布差异问题,进而可以进行有效的特征评估、特征归因、特征选择,甚至通过改善特征以提升模型效果。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,尤其涉及一种异构数据集特征质量可视化方法
技术介绍
近年来,随着大数据行业的发展,很多行业都产生了海量数据,数据种类、数据规模和数据维度都在不断膨胀。为了从大量数据中发现知识和价值,机器学习算法在工业界的应用越来越广泛。除了数据样本不断膨胀,数据特征种类和维度也在迅猛增长,特征维度可以达到千万甚至更大。海量的特征会给后续机器学习算法在可扩展性和效果方面带来一些问题,影响效果的主要原因有两个方面:1)大量特征与预测目标无关或相关程度较低,即特征相关度(FRS,FeatureRelevanceScore)较差;2)部分特征与预测目标相关程度较高,但其在训练集和测试集(或训练阶段和应用阶段)的分布差异显著,即特征稳定程度(FSL,FeatureStabilityLevel)较差。在有监督学习领域,特征工程是非常重要的环节,而特征工程要解决的问题可以分为:特征评估、特征归因、特征选择和特征改进。传统的特征选择方法,对特征质量的评估往往只考了到特征相关度,例如特征与标签的互信息,而没有将特征稳定性和特征相关性作为一个二元指标进行量化研究或可视化分析。因此本专利技术既考虑特征相关度、同时兼顾特征稳定度,通过极坐标系将两者构成的指标二元组进行可视化。本专利技术的特征质量(FQ,FeatureQuality),具体指特征相关度和特征稳定度构成的二元组或者其所表达的特征对于特定预测模型的重要程度。r>本专利技术适的领域包括:1)迁移学习,训练集和测试集是跨行业或跨领域的情况;2)非迁移学习,训练集和测试集,不同时间的数据集分布差异较大的情况。在传统的机器学习框架下,学习的任务是在给定充分训练数据的基础上学习一个分类模型或回归模型,然后利用学习到的模型来对测试集样本进行分类或预测。然而实际应用中,经常会看到新的领域涌现,比如从传统的新闻,到网页、图片、博客、播客等,这新的领域或数据集往往缺乏标注;另一方面,传统的机器学习假设训练数据和测试数据服从相同的分布,而实际情况下,这种同分布假设并不满足。因此,如何利用现有的大量有标注、但不通分布的训练数据,迁移知识,用来帮助学习,是迁移学习需要解决的问题。迁移学习(TransferLearning)的目标是将从一个环境中学习的知识用来帮助新环境的学习任务。迁移学习的重要特点是不对训练集和测试集做同分布假设,即两个数据集是异构的。通常迁移学习中的训练集数据和特征会非常多,因此仅从特征的角度要让从训练集的学习到的模型能够有效预测测试集,就需要对大量特征进行评估、选择,以选出哪些分布变化较小、且与预测目标相关的特征集合。例如在广告转化率模型中,往往从行业数据学习模型,来预测行业内的某个客户的广告是否会转化;或者从一个行业训练模型,来预测类似行业的广告是否会转化。类似这样的迁移学习问题,很有必要通过特征可视化方法来进行特征评估、特征归隐、特征选择和特征改进。另外,在非迁移学习领域也有类似的训练集和测试集异构的情况,比如广告转化率模型中某客户的平时数据集和节日数据集,如果用平时数据集预测节日数据集可能就导致预测不准问题,因此也是本专利提到的“异构数据集”问题。
技术实现思路
本专利技术的目的是为了解决现有技术的不足,提供一种异构数据集的极坐标可视化的特征评估与特征选择方法,不仅可以增加对预测问题的直观理解、产生解释性强的特征评估报告,还可以根据特征评估报告进行特征选择和特征改进,以使后续的监督式机器学习模型面对异构数据集时仍可以克服特征不稳定性带来的不利影响,进行更有效的学习。本专利技术适用于下列情况:1)异构数据集假设下,训练集和测试集产生机理不同、产生领域不同或者有着层级关系,包括典型的迁移学习;2)同构数据集假设下,数据本身随时间产生周期性或非周期性漂移的情况;3)同构数据集假设下,数据本身具有内生性波动,即本质随机性,表现在部分特征分布的方差较大的情况;4)同构数据集假设下,数据分布不变化,即训练集和测试集同分布的情况。本专利技术的目的是通过以下技术方案实现的:一种异构数据集特征质量可视化方法(HeterogeneousDatasetFeatureQualityVisualization,以下简称HeDFQV),至少包括以下步骤:步骤1,给定二分类有标签异构数据集D(A)和D(B),给定某特征f,构建特征的类别值集合V={v1,v2,。。。vN本文档来自技高网...

【技术保护点】
一种异构数据集特征质量可视化方法,其特征在于,至少包括以下步骤:步骤1,给定二分类有标签异构数据集D(A)和D(B),给定某特征f,构建特征的类别值集合V={v1,v2,。。。vN};步骤2,在异构数据集D(d)中,d为A、B,分别计算整体正样本发生率r(A)和r(B),计算公式为r(d)=pos(d)/ins(d),pos(d)为异构数据集D(d)中的正样本总数、ins(d)为异构数据集D(d)的样本总数;步骤3,在异构数据集D(d)中,d为A、B,对V中的每个类别值v,计算其的正样本发生率r(v,d),计算公式为r(v,d)=pos(v,d)/ins(v,d),其中pos(v,d)、ins(v,d)分别为D(d)中包含v的正样本数量和样本总数;步骤4,在异构数据集D(d)中,d为A、B,对V中的每个类别值v,计算其的规范化发生率sr(v,d),计算公式为:sr(v,d)=r(v,d)/r(d);步骤5,对类别值集合V中的每个类别值v,计算其综合发生率t(v)、漂移比s(v),计算公式为:t(v)=sr(v,A)+sr(v,B),即类别值v在D(A)和D(B)上的规范化发生率求和;s(v)=sr(v,B)/sr(v,A),即v在D(A)和D(B)上的规范化发生率求比率;步骤6,对V中的每个类别值v,以综合发生率t(v)为偏角、以漂移比s(v)为半径,将特征类别值绘制于极坐标系中,极坐标p(v)=(t(v),s(v));步骤7,在极坐标系中构造辅助圆,辅助圆半径为1,圆心为原点,构成特征f在同构数据集D上的特征质量图。...

【技术特征摘要】
1.一种异构数据集特征质量可视化方法,其特征在于,至少包括以下步骤:
步骤1,给定二分类有标签...

【专利技术属性】
技术研发人员:汤奇峰薛守辉
申请(专利权)人:上海晶赞科技发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1