当前位置: 首页 > 专利查询>华侨大学专利>正文

基于自适应提升算法的中文微博观点句识别特征的提取方法技术

技术编号:10141269 阅读:219 留言:1更新日期:2014-06-30 12:16
本发明专利技术公开了一种基于自适应提升算法的中文微博观点句识别特征的提取方法,首先设定与识别微博观点句相关的特征,将具有单个特征的弱分类器构建成具有多个特征的强分类器,并且在强分类器的构建过程中进行关键识别特征的选择,最后输出有效的主观句识别特征集合以及由该识别特征集合构成的强分类器,通过该主观句识别特征集合及能够为中文微博观点句的识别提供有效的识别依据。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种,首先设定与识别微博观点句相关的特征,将具有单个特征的弱分类器构建成具有多个特征的强分类器,并且在强分类器的构建过程中进行关键识别特征的选择,最后输出有效的主观句识别特征集合以及由该识别特征集合构成的强分类器,通过该主观句识别特征集合及能够为中文微博观点句的识别提供有效的识别依据。【专利说明】
本专利技术涉及一种。
技术介绍
在中文微博中有效地判别是否包含人们对事物的观点,意见或倾向等信息,是自动收集和分析网络中文舆论数据的重要基础。从文本挖掘的角度看,识别主观语句能够提高观点分类的准确性,减小非主观语句对观点摘要、倾向统计和情感分析等后续自然语言处理相关任务的干扰。随着互联网的迅速发展和Web2.0的普及,信息的发布不再是报刊、杂志社、电视台和新闻网站的专利,微博网站已成为公众信息的发布媒体。相比于传统博客,微博最大的特点在于其“微”,即单篇博客长短一般限制在140字之内。微博中不仅可以包含新闻,还可能包含微博用户个人对事物的观点或意见等信息。观点句是基于断言或评论并且带有个人情感和意向的抒发。关于观点句的分类可以追溯到意见挖掘中的主客观句子的分类,其大多是在商品评论的媒体数据上进行的分类,而在微博上进行观点句判别的最大特点在于其字数的限制和语言结构的自由。因为字数的限制,其词语及其词性、依存关系的频率相对于普通文本大大减少;因为语言结构的自由,句法结构上的分析进行得就相对困难。对于中文微博这种短文本的主观成分特征识别,目前还缺乏系 统有效的分类方法与特征提取的组合优化方法。自适应提升算法是一种组合多个弱分类器成为一个强分类器的方法。弱分类器是误差概率小于0.5的两类分类器,使用它判别两类问题比误差概率为0.5的随机猜测要好,而强分类器H的误差概率可以任意小。参照自适应提升算法的组合多分类器的思想,我们针对中文微博中主观句识别提出了一种有效的特征选择方法。
技术实现思路
本专利技术提供了一种,其克服了
技术介绍
中所述的不足。本专利技术解决其技术问题的所采用的技术方案是:,它包括:步骤1,具有带是否为观点句标记的微博训练样本,输入该微博训练样本集合S=Kxi, Yi), 1=1,…,η},其中Xi e X,yj e Y, Y= {-1, +1} ,X是该η个微博训练样本的m个特征,Y是每一个微博训练样本对应的分类结果,若该微博训练样本Xi是观点句,则该微博训练样本标记为ye+l,否则为Yi=-1 ;设定特征选择的迭代终止条件为:分类误差ε j与0.5的差距小于阈值β,其中,β可根据情况自行设定; 设定微博训练样本集的初始权重分布D1为平均分布,即【权利要求】1.,其特征在于:包括:步骤1,具有带是否为观点句标记的微博训练样本,输入该微博训练样本集合S=Kxi, Yi), 1=1,…,η},其中Xi e X,yj e Y, Y= {-1, +1} ,X是该η个微博训练样本的m个特征,Y是每一个微博训练样本对应的分类结果,若该微博训练样本Xi是观点句,则该微博训练样本标记为ye+l,否则为Yi=-1 ; 设定特征选择的迭代终止条件为:分类误差ε j与0.5的差距小于阈值β,其中,β可根据情况自行设定; 设定微博训练样本集的初始权重分布D1为平均分布,即D1 = 1/N 设定被选择的初始特征集合为空集; 设定迭代变量初始值j=l,最大迭代次数为m ; 步骤2,按以下步骤21-27进行循环迭代,包括:步骤21,在权重分布为Dj的微博训练样本集中,找到以特征&为单一特征的弱分类器tV该弱分类器比对该微博训练样本集的分类误差^与0.5的差距最大 2.根据权利要求1所述的,其特征在于:该分类误差ε ^与0.5的差距β能够被设定。3.根据权利要求1所述的,其特征在于:中文微博观点句的识别特征包括中文微博语句中的词性。4.根据权利要求1所述的,其特征在于:中文微博观点句的识别特征包括情感词典中的情感词语集合。5.根据权利要求1所述的,其特征在于:中文微博观点句的识别特征包括词与词之间的依存特征。6.根据权利要求1所述的,其特征在于:中文微博观 点句的识别特征包括词与词之间的位置特征。【文档编号】G06F17/30GK103886097SQ201410135746【公开日】2014年6月25日 申请日期:2014年4月4日 优先权日:2014年4月4日 【专利技术者】陈锻生, 吴扬扬, 方圆 申请人:华侨大学本文档来自技高网
...

【技术保护点】
基于自适应提升算法的中文微博观点句识别特征的提取方法,其特征在于:包括:步骤1,具有带是否为观点句标记的微博训练样本,输入该微博训练样本集合S={(xi,yi),i=1,…,n},其中xi∈X,yi∈Y,Y={‑1,+1},X是该n个微博训练样本的m个特征,Y是每一个微博训练样本对应的分类结果,若该微博训练样本xi是观点句,则该微博训练样本标记为yi=+1,否则为yi=‑1;设定特征选择的迭代终止条件为:分类误差εj与0.5的差距小于阈值β,其中,β可根据情况自行设定;设定微博训练样本集的初始权重分布D1为平均分布,即设定被选择的初始特征集合为空集;设定迭代变量初始值j=1,最大迭代次数为m;步骤2,按以下步骤21‑27进行循环迭代,包括:步骤21,在权重分布为Dj的微博训练样本集中,找到以特征fj为单一特征的弱分类器hj,该弱分类器hj对该微博训练样本集的分类误差εj与0.5的差距最大,其中:该弱分类器对该微博训练样本集的分类误差h为所有输出为Y的单一特征弱分类器;步骤22,记下该弱分类器hj的参数:特征fj、二分该权重分布微博训练样本集的阈值和二元关系运算符;步骤23,更新被选择特征集合F=F∪{fj},本次迭代所选的特征fj在以后的迭代中不再使用;步骤24,计算该弱分类器hj在强分类器H中的权重步骤25,如果分类误差|εj‑0.5|≤β,则最大迭代次数T=j,退出迭代,结束特征选择,否则,继续进行步骤26;步骤26,迭代变量j值加1,如果j大于m,则已经选择全部特征,退出迭代,否则,继续进行步骤27;步骤27,更新该微博训练样本集的权重分布:i=1,…,n,其中,返回步骤21;步骤3,输出被选择特征集合F={fj|j=1,…,T}和强分类器H(x)=sign[Σj=1Tαjhj(x)].]]>...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈锻生吴扬扬方圆
申请(专利权)人:华侨大学
类型:发明
国别省市:福建;35

网友询问留言 已有1条评论
  • 来自[浙江省杭州市阿里云服务器] 2014年12月08日 10:56
    1.Viewpoint;Standpoint;Pointofview∶观察事物时所处的立场或出发点2.Opinion∶从一定的阶级利益出发所形成的对事物或问题的看法
    0
1