【技术实现步骤摘要】
一种基于智能分析的海量数据样本增量分析方法
本专利技术涉及大数据的机器学习领域,特别是一种基于智能分析的海量数据样本增量分析方法。
技术介绍
随着互联网的普及程度越来越高,网民的人数呈现爆炸性的增长,网络数据呈现出它的复杂性和多样性。机器学习的主要目的是通过智能分析方式,充分利用经验数据提高自身解决某类问题的能力。而高质量的数据是机器学习能够有效学习的基础和关键。传统的分类学习算法要求所有的训练数据预先给定,并通过最小化定义在所有训练数据上的分类误差得到分类器。这种学习方法在小规模数据上取得了巨大成功,但应用到大数据学习问题时,则会表现出计算复杂度高、响应慢,无法用于实时性要求高的应用领域等缺陷。增量学习是一种在线学习假设训练数据持续到来,通过小断地利用新增训练样本的信息更新当前的模型,大大降低了学习算法的空问复杂度和时问复杂度,从而可以有效地解决大数据学习中的问题。近年来,一些学者将深度学习与增量学习结合起来,以应对现阶段一些深层次学习所面临的挑战。但深度学习的性能主要依赖于监督样本的质量,一旦错误标记的样 ...
【技术保护点】
1.一种基于智能分析的海量数据样本增量分析方法,其特征在于,包括如下步骤:/n步骤1、利用原始训练数据集D学习出当前分类器C;/n步骤2、用当前分类器对未标注类别标签的新增训P练集T进行分类,针对每一个未标记的新增训练样例,利用Q一学习算法计算其Q值,从T中选择有利于提高当前分类器精度的新增训练实例,并赋予其标签CP,添加到训练集D中;/n步骤3、利用新增样本修正分类器参数,直到新增训练集T中的全部实例加入训练集D中。/n
【技术特征摘要】
1.一种基于智能分析的海量数据样本增量分析方法,其特征在于,包括如下步骤:
步骤1、利用原始训练数据集D学习出当前分类器C;
步骤2、用当前分类器对未标注类别标签的新增训P练集T进行分类,针对每一个未标记的新增训练样例,利用Q一学习算法计算其Q值,从T中选择有利于提高当前分类器精度的新增训练实例,并赋予其标签CP,添加到训练集D中;
步骤3、利用新增样本修正分类器参数,直到新增训练集T中的全部实例加入训练集D中。
2.根据权利要求1所述的海量数据样本增量分析方法,其特征在于,衡量分类器精度的标准是分类器在测试集S上的分类精度。
3.根据权利要求1所述的海量数据样本增量分析方法,其特征在于,步骤2中,构建基于Q-学习的增量分类模型的马尔科夫决策过程(MDP),进行相关元祖的计算。
4.根据权利要求3所述的海量数据样本增量分析方法,其特征在于,所述增量分类模型,其对应一个五元组E=<X,A,P,R,γ>,X为状态空间,表示智能分析代理所感知的状态,A为动作空间,说明机器学习过程中当前状态可以采用的动作,P则是状态转移概率,R是奖励函数,用于限制机器学习的走向,γ是折扣因子,用...
【专利技术属性】
技术研发人员:陈霖,陈昊,杨祎巍,孙强强,匡晓云,许爱东,丘惠军,徐培明,连耿雄,
申请(专利权)人:南方电网科学研究院有限责任公司,深圳供电局有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。