一种有标签训练集的有效性评估方法技术

技术编号：11756432 阅读：226 留言：0更新日期：2015-07-22 04:27

本发明专利技术公开了一种有标签训练集的有效性评估方法，是评价机器学习中训练集内部存在规律大小的一种方法。其步骤为A：针对训练集中的每一种类别，计算该类别中所有样本点的均值点；B：计算所述该类别的半径；C：计算所述该类别的所有样本点的均值点到其余类别均值点的距离；D：计算该类别相对于其余类别的间隔；E：训练集Ψ的LW指标计算为：该方法可以帮助我们识别有噪声的数据，指导我们有针对性地选择有价值的数据进行学习。同时，该方法也可以作为特征选择算法性能以及特征降维算法性能的评价方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据领域，涉及机器学习训练集评估方法，具体地说是一种衡量有标签训练集内在规律大小的评估方法，该方法可取代交叉验证方法，用在机器学习的训练集选择中，也可以作为特征选择算法性能以及特征降维算法性能的评价方法。
技术介绍
随着计算机技术全面融入社会生活，我们拥有的数据越来越多，种类也包括图片、文本、视频等非结构化数据，信息的爆炸式增长已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息，而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化，量变引发了质变。最先经历信息爆炸的学科，如天文学和基因学，创造出了"大数据"这个概念。大数据的核心是利用数据的价值，机器学习是利用数据价值的关键技术，对于大数据而言，机器学习是不可或缺的。相反，对于机器学习而言，越多的数据会越可能提升模型的精确性，同时，复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术。因此，机器学习的兴盛也离不开大数据的帮助。大数据与机器学习两者是互相促进，相依相存的关系。机器学习是目前业界最为火热的一项技术，从网上的每一次淘宝的购买东西，到自动驾驶汽车技术，以及网络攻击抵御系统等等，都有机器学习的因子在内，同时机器学习也是最有可能使人类完成Aldream的一项技术，各种人工智能目前的应用，如微软小冰聊天机器人，到计算机视觉技术的进步，都有机器学习努力的成分。统计学习是个与机器学习高度重叠的学科。因为机器学习中的大多数方法来自统计学，甚至可以认为，统计学的发展促进机器学习的繁荣昌盛。例如著名的支持向...

【技术保护点】
一种有标签训练集的有效性评估方法，其特征在于步骤如下：A：针对训练集中的每一种类别ci,i∈[1,nc]，计算所述ci类别中所有样本点的均值点oi,i∈[1,nc]，其中nc为类别数；B：针对训练集中的每一种类别ci,i∈[1,nc]，计算所述ci类别的半径其中m∈[1,M]为类别ci中离其均值点oi最远的M个样本点，M为经验参数；C：针对训练集中的每一种类别ci,i∈[1,nc]，计算所述ci类别的所有样本点的均值点oi到其余类别均值点oj,j≠i&j∈[1,nc]的距离d(oi,oj)；D：针对训练集中的每一种类别ci,i∈[1,nc]，计算ci类别相对于其余类别的间隔Φi|j,j≠i&j∈[1,nc]，计算步骤为：若d(oi,oj)<Max(ri,rj)成立，转至D01步；若d(oi,oj)≥Max(ri,rj)成立，转至D02步，其中Max(ri,rj)代表取ri,rj之中最大的一个；D01：类别ci相对于其余类别的间隔Φi|j＝d(oi,oj)‑(ri+rj)；D02：类别ci相对于其余类别的间隔Φi|j=DoFi|j=1KΣk=1K...

【技术特征摘要】

【专利技术属性】
技术研发人员：刘川，汪文勇，黄鹂声，唐勇，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人