当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于直接优化PAUC算法的新闻信息分类方法技术

技术编号:16101989 阅读:25 留言:0更新日期:2017-08-29 22:36
本发明专利技术公开了一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:1、采集新闻信息的数据集,并将数据集S按照样本的类别划分为相关新闻信息集合S+与非相关新闻信息集合S‑;2、从所述相关信息集合S+和不相关信息集合S‑选取新闻信息特征xT;3、通过新闻信息特征xT得到第T次迭代的自适应梯度

【技术实现步骤摘要】
一种基于直接优化PAUC算法的新闻信息分类方法
本专利技术涉及统计学习分类
,更具体地说是一种基于随机梯度下降法的直接优化PAUC的新闻主题分类方法。
技术介绍
当今社会急速发展,科技日新月异,人们每时每刻的生活都被大量的数据所环绕,毫无疑问,这是社会进步的象征。网上浏览新闻作为一种喜闻乐见的放松方式,不仅能够增长人们的见识,同时能够加深人们对事物的认知。但若无法在海量的新闻信息中甄别出对用户关注的信息,那么数量如此庞大的信息必定会严重影响我们的工作以及学习效率。在海量的新闻信息中,用户感兴趣的信息少之又少,因此如何提取其中用户关注的信息显得极为重要。对于此类在众多的数据中提取少量有效信息的案例,正是使用了机器学习中对于不平衡数据集的分类算法。而PAUC(partialareaundercurve)评估标准,能很好的度量不平衡二分类算法的整体性能,因此在机器学习中受到广泛关注。基于此,本专利技术提出了基于直接优化PAUC算法的新闻信息分类方法PAUC的概念最早在医疗领域提出,并迅速被众多学者所认可,此后在生物信息方面得到了广泛使用。PAUC在科学研究中具有十分深刻的意义,值得人们在学习生活中不断地使用和推广。目前针对PAUC的分类问题,主要有两种经典的处理方案:批学习求解和随机学习求解。其中,批学习求解中最为高效的案例是:2013年,HarikrishnaNarasimhan将PAUC从生物信息领域拓展到更广泛的应用空间,提出一种“通用”的直接优化PAUC的算法。在此基础上,2014年,PurushottamKar首次提出了基于Mini-batch的随机PAUC优化算法,为保证较快的运行时间,训练过程中只使用了部分正样本。但此前的算法效果在处理大规模数据集时,都存在“耗时长”的弊端,不能满足当前“数据爆炸”的趋势。
技术实现思路
本专利技术为克服现有技术存在的不足之处,提出一种基于直接优化PAUC算法的新闻信息分类方法,以期能在大规模新闻信息数据中迅速筛选出用户感兴趣的新闻信息,从而提高分类精度。为了达到上述目的,本专利技术所采用的技术方案为:本专利技术一种基于直接优化PAUC算法的新闻信息分类方法特点是按如下步骤进行:步骤1、采集新闻信息,记为xi表示第i个新闻信息,xi∈Rd;Rd表示实数的d维空间,d表示新闻信息包含的主题词个数;yi表示新闻信息的相关性,且yi∈{+1,-1};当yi=+1时,表示第i个新闻信息xi为用户感兴趣信息,当yi=-1时,表示第i个新闻信息xi非用户感兴趣信息;1≤i≤n;将所有用户感兴趣信息作为相关信息集合S+={(x+,+1)};且表示第i个相关信息,1≤i≤n+,其余信息作为不相关信息集合S-={(x-,-1)},且表示第j个不相关信息;1≤j≤n-,n++n-=n;步骤2、从所述相关信息集合S+和不相关信息集合S-选取新闻信息特征xT;步骤2.1、定义迭代次数为T,初始化T=1;定义最大迭代次数为Tmax,定义迭代过程中的排序间隔数为k,并有t=Tmodk;初始化第T次迭代的预测模型w为一个d维的零向量,记为wT;步骤2.2、判断t=0是否成立,若成立,则执行步骤2.3;否则,将赋值给再执行步骤2.5;步骤2.3、利用式(1)计算第T次迭代时第j个不相关信息的决策函数值从而得到第T次迭代不相关信息对应的决策函数集合步骤2.4、对所述决策函数集合降序排序,并取出前个决策函数值对应的不相关信息组成第T次迭代的不相关信息集合β表示所设定的阈值;步骤2.5、从所述相关信息集合S+中随机选择第T次迭代的相关信息从所述第T次迭代的不相关信息集合中随机选择第T次迭代的不相关信息并进行求差计算,得到第T次迭代的新闻信息特征步骤3、通过新闻信息特征xT得到第T次迭代的自适应梯度步骤3.1、利用式(2)定义损失函数为:步骤3.2、对所述损失函数求偏导,利用随机梯度下降法得到第T次迭代的梯度gT;步骤3.3、对前T次迭代的梯度求二范数的平方MT,得到第T次迭代的自适应步长其中θ为常数;步骤3.4、利用式(3)更新第T次迭代的梯度gT以及第T次迭代的自适应步长得到更新后的第T次迭代的自适应梯度步骤4、利用式(4)更新第T次迭代的预测模型wT:式(4)中,η为全局步长;步骤5、将T+1赋值给T,并返回步骤2.2,直到T>Tmax为止,从而得到全局预测模型步骤6、使用全局预测模型对其他新闻信息集合进行分类,从而得到用户感兴趣信息。与已有技术相比,本专利技术的有益效果体现在:1.本专利技术提出一种基于直接优化PAUC算法的分类方法,并应用于互联网新闻信息筛选过程中,利用随机梯度下降法能够高效的根据用户关注的主题对海量的新闻信息进行有效的筛选,保证了海量新闻信息筛选过程的高效性;从而提高了搜索的效率,并提升了用户体验;同时在信息的筛选过程中,选择的迭代样本具有较强的针对性,从而有效的避免了随机样本选择出单个不相关信息对预测模型的负面干扰;在梯度更新过程中,使用了自适应的梯度,使梯度更加科学合理,更有利于在较短的时间内得到令人满意的新闻信息的预测模型,从而提高了新闻信息的分类精度。2.本专利技术在迭代训练过程中,使用相关与不相关信息特征向量的差值得到的新的迭代训练特征向量参与迭代,避免了单个不相关信息对预测模型的干扰,从而保证了每一次的迭代过程对于预测模型的优化都有意义。3.本专利技术在不相关信息特征向量的选择过程中,引入参数k,对不相关信息特征向量采取间隔k次迭代过程排序一次的方式,避免了此前研究每次迭代过程都对所有不相关信息都进行排序的过程,进而大幅度的节省了迭代训练时间,保证对海量新闻信息的检索更加高效。4.本专利技术在梯度的更新过程中使用了自适应更新的梯度,该梯度能够尽可能提取出历史梯度的相关信息,分析历史梯度间的关联,保证了构建出的梯度更加科学合理。同时该梯度包含了当前特征的每一维自适应得到的“相对较好”的步长,避免了手动调试步长的过程,使预测模型的构建过程更加迅速。附图说明图1是本专利技术方法流程图。具体实施方式本实施例中,一种基于直接优化PAUC算法的新闻信息分类方法,该方法是应用到互联网新闻信息的筛选以及推荐过程中,该方法能够根据用户对新闻的查看情况,筛选出用户关注新闻的“主题特征”,进而以此特征对此后所有的新闻进行筛选,从而将筛选过后符合用户喜好的新闻提供给用户,具体的说,如图1所示,是按如下过程进行:步骤1、用户每天都会浏览新闻,但新闻的内容覆盖生活的方方面面,比如:“NBA”、“CBA”、“中超”、“NCAA”、“世界杯预选赛”等等。但用户在浏览的过程中,只会浏览自己感兴趣的新闻信息,例如“NBA”的相关信息。由此,利用网络爬虫软件采集网络上的新闻信息,具体的讲,首先获取网页的统一资源定位符URL,然后对URL进行解析从而得到新闻信息的数据,记为xi表示第i个新闻信息,xi∈Rd;Rd表示实数的d维空间,d表示新闻信息包含的主题词个数,各个主题词分别对应:时间、地点、人物、事件的起因、经过、结果等等,从而对新闻信息的内容进行具体阐述;yi表示新闻信息的相关性,且yi∈{+1,-1};当yi=+1时,表示第i个新闻信息xi为用户感兴趣信息,当yi=-1时,表示第i个新闻信息xi非用户感兴趣信息;1≤i本文档来自技高网
...
一种基于直接优化PAUC算法的新闻信息分类方法

【技术保护点】
一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:步骤1、采集新闻信息,记为

【技术特征摘要】
1.一种基于直接优化PAUC算法的新闻信息分类方法,其特征是按如下步骤进行:步骤1、采集新闻信息,记为xi表示第i个新闻信息,xi∈Rd;Rd表示实数的d维空间,d表示新闻信息包含的主题词个数;yi表示新闻信息的相关性,且yi∈{+1,-1};当yi=+1时,表示第i个新闻信息xi为用户感兴趣信息,当yi=-1时,表示第i个新闻信息xi非用户感兴趣信息;1≤i≤n;将所有用户感兴趣信息作为相关信息集合S+={(x+,+1)};且表示第i个相关信息,1≤i≤n+,其余信息作为不相关信息集合S-={(x-,-1)},且表示第j个不相关信息;1≤j≤n-,n++n-=n;步骤2、从所述相关信息集合S+和不相关信息集合S-选取新闻信息特征xT;步骤2.1、定义迭代次数为T,初始化T=1;定义最大迭代次数为Tmax,定义迭代过程中的排序间隔数为k,并有t=Tmodk;初始化第T次迭代的预测模型w为一个d维的零向量,记为wT;步骤2.2、判断t=0是否成立,若成立,则执行步骤2.3;否则,将赋值给再执行步骤2.5;步骤2.3、利用式(1)计算第T次迭代时第j个不相关信息的决策函数值从而得到第T次迭代不相关信息对应的决策函数集合步骤2.4、对所述决策函数集合降序排序,...

【专利技术属性】
技术研发人员:程凡宋栋栋张闯张兴义岳千里章霞
申请(专利权)人:安徽大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1