当前位置: 首页 > 专利查询>扬州大学专利>正文

一种用于文本多分类任务的在线主动机器学习方法技术

技术编号:26376469 阅读:34 留言:0更新日期:2020-11-19 23:45
本发明专利技术公开了一种用于文本多分类任务的在线主动机器学习方法,包括以下步骤:1)在第t轮,接收到本轮的文档经特征提取后得到的特征向量x

【技术实现步骤摘要】
一种用于文本多分类任务的在线主动机器学习方法
本专利技术涉及一种机器学习方法,特别涉及一种在线主动机器学习方法,属于机器学习和文本分类

技术介绍
随着信息技术的飞速发展,人们创作和接触到的信息数据也在急剧增长,这些数据很多都是用自然语言表示的,为了有效地管理和利用这些海量信息,自然语言处理逐渐成为备受关注的领域。文本分类技术作为机器学习在自然语言处理中的基础性应用,其重要程度不言而喻。文本分类技术是在给定的分类体系下,根据文本内容自动确定文本所属类别的过程。目前广泛应用的文本分类方法有传统机器学习的文本分类方法和基于深度学习的文本分类方法。传统机器学习的文本分类方法是将文本分类问题拆分成了人工特征工程和分类器训练两部分,而基于深度学习的文本分类方法运用深度神经网络自动获取特征表示,去掉了人工特征工程的任务。上述的两种文本分类方法都需要依赖大量带标记的数据构造一个训练数据集,属于全监督的离线分类方法,其缺点是可拓展性差,难以处理海量的文本分类任务,并且人工标记文本的代价巨大。为解决上述问题,研究人员探索了如何使用少量带标本文档来自技高网...

【技术保护点】
1.一种用于文本多分类任务的在线主动机器学习方法,其特征在于,包括以下步骤:/n1)在第t轮,接收到本轮的文档经特征提取后得到的特征向量

【技术特征摘要】
1.一种用于文本多分类任务的在线主动机器学习方法,其特征在于,包括以下步骤:
1)在第t轮,接收到本轮的文档经特征提取后得到的特征向量
2)使用最新的多分类器对xt进行预测,得到多分类预测结果:其中,表示第t轮针对第i类的分类器,C≥2为文本分类的总类数;
3)在线预测结束后,进入采样决策程序:判断是否获取xt的真实类标签yt∈{1,2,…,C};记Zt为采样决策变量,如果Zt=1,则获取yt,得到完整的数据信息(xt,yt);如果Zt=0,则不获取yt,也不更新当前的多分类器,直接进入步骤5);
4)得到完整的数据信息(xt,yt)后,进入在线更新程序,更新当前的多分类器Wt,得到下一轮的多分类器Wt+1;
5)回到步骤1),进行第t+1轮的文本特征向量的提取。


2.根据权利要求1所述的一种用于文本多分类任务的在线主动机器学习方法,其特征在于,步骤4)中多分类器Wt的更新方法具体为:
4-1)在第t轮,本程序接收到完整的文本数据信息(xt,yt);
4-2)分别计算gt(1),gt(2),…,gt(C),其中,对于任意的i∈{1,2,…,C},gt(i)是多分类合页损失函数ft(W)关于w(i)在Wt处的偏导数,即且损失函数的表达式为:



4-3)分别计算矩阵其中,对于任意的i∈{1,2,…,C},矩阵是将第1时刻到当前时刻所获得的所有针对第i类分类器的偏导数都存储起来;
4-4)根据这些矩阵,分别计算特征频度向量其中,对于任意的i∈{1,2,…,C},任意的j∈{1,2,…,d},d维向量的第j个元素为其保存了在更新第i类的分类器时第j个特征出现的频度信息,计算公式为而表示矩阵的第j行的行向量,||·||2为向量的二范数;
4-5)根据特征...

【专利技术属性】
技术研发人员:翟婷婷龚楷伦
申请(专利权)人:扬州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1