基于集成分类器动态选择策略的文本情感分类方法技术

技术编号:28212465 阅读:19 留言:0更新日期:2021-04-24 14:50
本发明专利技术属于机器学习技术领域,具体涉及基于集成分类器动态选择策略的文本情感分类方法。包括如下步骤:S1,采集电影评论信息,根据评论内容进行情感标签,不同程度的情感态度分属多个类别;S2,对已经标签的评论内容的文本集合中,所有的文本进行预处理;S3,利用集成分类器动态选择策略建立文本情感分类模型;S4,根据测试集评论的k个近邻验证集评论在对应候选池中的分类器上的准确率,选择分类器形成分类器集合;S5,采用聚合方法将选择完成的分类器集合组合成多分类器,得出最终输出。本发明专利技术具有能够有效地处理文本情感分类中多分类问题且预测精度高的特点。题且预测精度高的特点。题且预测精度高的特点。

【技术实现步骤摘要】
基于集成分类器动态选择策略的文本情感分类方法


[0001]本专利技术属于机器学习
,具体涉及基于集成分类器动态选择策略的文本情感分类方法。

技术介绍

[0002]随着互联网的飞速发展,Web文本成为交流情感、发表观点的主要载体和热点话题的信息源。用户通过社会化媒体(论坛、博客、微博)分享对所购商品的使用感受、新上映电影的评论、当前热点新闻的个人看法等,这些言论往往包含有喜、怒、哀、乐、肯定、否定、中立等个人丰富的情感和观点。正是这些包含丰富情感的Web评论文本的涌现,一方面可帮助生产厂商通过网络口碑(Electronic Word

of

mouth)了解产品优势和不足,以改进产品设计和服务,调整广告投放策略,获得市场竞争优势;另一方面可帮助消费者了解产品性能,缩短购买决策时间。如果仅靠手工对这些日益增长的海量信息进行归纳、分类,显然是不现实的。因此结合信息检索、自然语言处理、机器学习等领域知识对非结构化的文本进行提取和分类的情感分析技术(Sentiment Analysis)便应运而生。这种研究不仅帮助消费者全面、综合地了解其他消费者对产品的评价,也帮助生产厂商来获悉产品的优势以及产品性能在消费者心目中的地位和受欢迎程度,具有广阔的市场应用价值,而且有助于推动自然语言处理技术在短文文本情感分析方面的进一步发展,有一定的研究价值。
[0003]然而,文本情感具有多个类别,涉及多分类问题,而现有的分类器在处理多分类问题时往往不能获得预期的效果。将多分类问题分解成一对一的两分类问题是机器学习领域针对解决多分类问题的有效途径。因此,设计一种具有更好的预测精度,能够有效地处理文本情感分类中多分类问题的文本情感分类方法,就显得十分必要。
[0004]例如,申请号为CN202010045736.6的中国专利技术专利所述的一种基于混合分类器的短文本情感细分类方法,采用支持向量机分类器、长短记忆网络分类器和基于词典的分类方法组合而成的混合分类器,使用少量的训练样本对各分类器进行训练,然后利用各分类器对未标注样本进行情感类别的预测,使用加权公式计算出文本的置信度,将置信度较高的文本加入到训练集中,再用新的训练集对分类器进行训练,如此迭代形成效果最佳的分类器进行分类。虽然具有分类效果好、标注训练集需求小的优点,但是其缺点在于由于采用的是混合分类器,其预测精度较低,难以为生产商通过产品评论做出产品改进以及辅助生产商进行消费者评论情感分类。

技术实现思路

[0005]本专利技术是为了克服现有技术中,文本情感具有多个类别且涉及多分类问题,而现有的分类器在处理多分类问题时往往不能获得预期的效果,预测精度较差的问题,提供了一种能够有效地处理文本情感分类中多分类问题且预测精度高的基于集成分类器动态选择策略的文本情感分类方法。
[0006]为了达到上述专利技术目的,本专利技术采用以下技术方案:
[0007]基于集成分类器动态选择策略的文本情感分类方法,包括如下步骤:
[0008]S1,采集电影评论信息,根据评论内容进行情感标签,不同程度的情感态度分属多个类别;
[0009]S2,对已经标签的评论内容的文本集合中,所有的文本进行预处理;
[0010]S3,利用集成分类器动态选择策略建立文本情感分类模型;
[0011]S4,根据测试集评论的k个近邻验证集评论在对应候选池中的分类器上的准确率,选择分类器形成分类器集合;
[0012]S5,采用聚合方法将选择完成的分类器集合组合成多分类器,得出最终输出。
[0013]作为优选,步骤S2包括如下步骤:
[0014]使用词袋语言模型,对文本分别进行unigram分词和bigram分词,并去除停用词后,形成无重复的多维特征向量空间;
[0015]对每条评论文本得到的特征向量进行TF

IDF处理,计算词典对应位置的词频TF,对于任一位置的词语t
i
来说,
[0016][0017]n
i,j
是该词t
i
在评论d
j
中的出现次数,而分母则是在评论d
j
中所有字词的出现次数之和;
[0018]计算词语的反文档频率IDF,
[0019][0020]其中,|D|表示文本集合的评论总数;|{j:t
i
∈d
j
}|表示包含词语t
i
的评论数目;
[0021]TF

IDF
i,j
=TF
i,j
×
IDF
i
[0022]文本评论完成向量化。
[0023]作为优选,步骤S3中所述文本情感分类模型的建立过程如下:
[0024]根据步骤S2中划分的评论文本集,根据文本情感类别获得多个成对的两分类问题,再针对每个分类问题的子问题,利用机器学习技术建立分类器集合候选池。
[0025]作为优选,步骤S3包括如下步骤:
[0026]S31,根据TF

IDF预处理完成后的评论集,分为训练集和测试集;
[0027]S32,将多分类问题分解为两分类问题,即每两分类组合,共产生个组合;对于每个两分类问题,利用机器学习技术建立分类器集合,集合中的分类器为同参数同类别,每个分类器的训练数据通过在两分类训练集中有放回随机采样得到。
[0028]作为优选,步骤S3中采用的分类算法,包括决策树CART和支持向量机SVM。
[0029]作为优选,步骤S4还包括如下步骤:
[0030]针对未知评论样本,选出所述评论样本分别在每个二分类训练样本集上的k个近邻评论,并验证选出的k个样本在对应候选池中的分类器上的准确率,选择准确率大于0.5的分类器构建分类器集合;其中,所述验证集为每个二分类问题的训练集,k近邻方法采用欧式距离度量。
[0031]作为优选,步骤S5中所述采用的聚合方法包括加权投票法WV和基于距离加权法
DRCW。
[0032]本专利技术与现有技术相比,有益效果是:(1)本专利技术能够实现文本情感的快速预测,政府能够通过分析公民关于社会问题的在线文本做出更合理的公共决策,公司能够通过分析在线产品评论来发现产品弱点和预测市场需求,消费者也能够根据大量的产品评论做出购买合理的购买决策;(2)本专利技术中所提的集成分类器动态选择策略能够有效地处理文本情感分类中多分类问题。与基本的分类器相比,所述集成分类器动态选择策略能够取得更好的预测精度,能够帮助政府、企业、个人在文本情感分类中提高工作效率,提高决策合理性。
附图说明
[0033]图1为本专利技术基于集成分类器动态选择策略的文本情感分类方法具体实施方式的一种分解策略示意图。
具体实施方式
[0034]为了更清楚地说明本专利技术实施例,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于集成分类器动态选择策略的文本情感分类方法,其特征在于,包括如下步骤:S1,采集电影评论信息,根据评论内容进行情感标签,不同程度的情感态度分属多个类别;S2,对已经标签的评论内容的文本集合中,所有的文本进行预处理;S3,利用集成分类器动态选择策略建立文本情感分类模型;S4,根据测试集评论的k个近邻验证集评论在对应候选池中的分类器上的准确率,选择分类器形成分类器集合;S5,采用聚合方法将选择完成的分类器集合组合成多分类器,得出最终输出。2.根据权利要求1所述的基于集成分类器动态选择策略的文本情感分类方法,其特征在于,步骤S2包括如下步骤:使用词袋语言模型,对文本分别进行unigram分词和bigram分词,并去除停用词后,形成无重复的多维特征向量空间;对每条评论文本得到的特征向量进行TF

IDF处理,计算词典对应位置的词频TF,对于任一位置的词语t
i
来说,n
i,j
是该词t
i
在评论d
j
中的出现次数,而分母则是在评论d
j
中所有字词的出现次数之和;计算词语的反文档频率IDF,其中,|D|表示文本集合的评论总数;|{j:t
i
∈d
j
}|表示包含词语t
i
的评论数目;TF

IDF
i,j
=TF
i,j
×
IDF
i
文本评论完成...

【专利技术属性】
技术研发人员:张忠良费秦君雒兴刚蔡灵莎茹建明
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1