基于自适应提升算法的中文微博观点句识别特征的提取方法技术

技术编号：10141269 阅读：219 留言：1更新日期：2014-06-30 12:16

本发明专利技术公开了一种基于自适应提升算法的中文微博观点句识别特征的提取方法，首先设定与识别微博观点句相关的特征，将具有单个特征的弱分类器构建成具有多个特征的强分类器，并且在强分类器的构建过程中进行关键识别特征的选择，最后输出有效的主观句识别特征集合以及由该识别特征集合构成的强分类器，通过该主观句识别特征集合及能够为中文微博观点句的识别提供有效的识别依据。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种，首先设定与识别微博观点句相关的特征，将具有单个特征的弱分类器构建成具有多个特征的强分类器，并且在强分类器的构建过程中进行关键识别特征的选择，最后输出有效的主观句识别特征集合以及由该识别特征集合构成的强分类器，通过该主观句识别特征集合及能够为中文微博观点句的识别提供有效的识别依据。【专利说明】
本专利技术涉及一种。
技术介绍
在中文微博中有效地判别是否包含人们对事物的观点，意见或倾向等信息，是自动收集和分析网络中文舆论数据的重要基础。从文本挖掘的角度看，识别主观语句能够提高观点分类的准确性，减小非主观语句对观点摘要、倾向统计和情感分析等后续自然语言处理相关任务的干扰。随着互联网的迅速发展和Web2.0的普及，信息的发布不再是报刊、杂志社、电视台和新闻网站的专利，微博网站已成为公众信息的发布媒体。相比于传统博客，微博最大的特点在于其“微”，即单篇博客长短一般限制在140字之内。微博中不仅可以包含新闻，还可能包含微博用户个人对事物的观点或意见等信息。观点句是基于断言或评论并且带有个人情感和意向的抒发。关于观点句的分类可以追溯到意见挖掘中的主客观句子的分类，其大多是在商品评论的媒体数据上进行的分类，而在微博上进行观点句判别的最大特点在于其字数的限制和语言结构的自由。因为字数的限制，其词语及其词性、依存关系的频率相对于普通文本大大减少；因为语言结构的自由，句法结构上的分析进行得就相对困难。对于中文微博这种短文本的主观成分特征识别，目前还缺乏系统有效的分类方法与特征提取的组合优化方法。自适应提升算法是一种组合多个弱分类器成为...

【技术保护点】
基于自适应提升算法的中文微博观点句识别特征的提取方法，其特征在于：包括：步骤1，具有带是否为观点句标记的微博训练样本，输入该微博训练样本集合S={(xi,yi),i=1,…,n}，其中xi∈X，yi∈Y，Y={‑1,+1}，X是该n个微博训练样本的m个特征，Y是每一个微博训练样本对应的分类结果，若该微博训练样本xi是观点句，则该微博训练样本标记为yi=+1，否则为yi=‑1；设定特征选择的迭代终止条件为：分类误差εj与0.5的差距小于阈值β，其中，β可根据情况自行设定；设定微博训练样本集的初始权重分布D1为平均分布，即设定被选择的初始特征集合为空集；设定迭代变量初始值j=1，最大迭代次数为m；步骤2，按以下步骤21‑27进行循环迭代，包括：步骤21，在权重分布为Dj的微博训练样本集中，找到以特征fj为单一特征的弱分类器hj，该弱分类器hj对该微博训练样本集的分类误差εj与0.5的差距最大，其中：该弱分类器对该微博训练样本集的分类误差h为所有输出为Y的单一特征弱分类器；步骤22，记下该弱分类器hj的参数：特征fj、二分该权重分布微博训练样本集的阈值和二元关系运算符；步骤23，更新被选择特...

【技术特征摘要】

【专利技术属性】
技术研发人员：陈锻生，吴扬扬，方圆，
申请(专利权)人：华侨大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人