基于集成分类器动态选择策略的文本情感分类方法技术

技术编号：28212465 阅读：19 留言：0更新日期：2021-04-24 14:50

本发明专利技术属于机器学习技术领域，具体涉及基于集成分类器动态选择策略的文本情感分类方法。包括如下步骤：S1，采集电影评论信息，根据评论内容进行情感标签，不同程度的情感态度分属多个类别；S2，对已经标签的评论内容的文本集合中，所有的文本进行预处理；S3，利用集成分类器动态选择策略建立文本情感分类模型；S4，根据测试集评论的k个近邻验证集评论在对应候选池中的分类器上的准确率，选择分类器形成分类器集合；S5，采用聚合方法将选择完成的分类器集合组合成多分类器，得出最终输出。本发明专利技术具有能够有效地处理文本情感分类中多分类问题且预测精度高的特点。题且预测精度高的特点。题且预测精度高的特点。

全部详细技术资料下载

【技术实现步骤摘要】
基于集成分类器动态选择策略的文本情感分类方法

[0001]本专利技术属于机器学习
，具体涉及基于集成分类器动态选择策略的文本情感分类方法。

技术介绍

[0002]随着互联网的飞速发展，Web文本成为交流情感、发表观点的主要载体和热点话题的信息源。用户通过社会化媒体(论坛、博客、微博)分享对所购商品的使用感受、新上映电影的评论、当前热点新闻的个人看法等，这些言论往往包含有喜、怒、哀、乐、肯定、否定、中立等个人丰富的情感和观点。正是这些包含丰富情感的Web评论文本的涌现，一方面可帮助生产厂商通过网络口碑(Electronic Word
‑
of
‑
mouth)了解产品优势和不足，以改进产品设计和服务，调整广告投放策略，获得市场竞争优势；另一方面可帮助消费者了解产品性能，缩短购买决策时间。如果仅靠手工对这些日益增长的海量信息进行归纳、分类，显然是不现实的。因此结合信息检索、自然语言处理、机器学习等领域知识对非结构化的文本进行提取和分类的情感分析技术(Sentiment Analysis)便应运而生。这种研究不仅帮助消费者全面、综合地了解其他消费者对产品的评价，也帮助生产厂商来获悉产品的优势以及产品性能在消费者心目中的地位和受欢迎程度，具有广阔的市场应用价值，而且有助于推动自然语言处理技术在短文文本情感分析方面的进一步发展，有一定的研究价值。
[0003]然而，文本情感具有多个类别，涉及多分类问题，而现有的分类器在处理多分类问题时往往不能获得预期的效果。将多分类问题分解成一对一...

【技术保护点】

【技术特征摘要】
1.基于集成分类器动态选择策略的文本情感分类方法，其特征在于，包括如下步骤：S1，采集电影评论信息，根据评论内容进行情感标签，不同程度的情感态度分属多个类别；S2，对已经标签的评论内容的文本集合中，所有的文本进行预处理；S3，利用集成分类器动态选择策略建立文本情感分类模型；S4，根据测试集评论的k个近邻验证集评论在对应候选池中的分类器上的准确率，选择分类器形成分类器集合；S5，采用聚合方法将选择完成的分类器集合组合成多分类器，得出最终输出。2.根据权利要求1所述的基于集成分类器动态选择策略的文本情感分类方法，其特征在于，步骤S2包括如下步骤：使用词袋语言模型，对文本分别进行unigram分词和bigram分词，并去除停用词后，形成无重复的多维特征向量空间；对每条评论文本得到的特征向量进行TF
‑
IDF处理，计算词典对应位置的词频TF，对于任一位置的词语t
i
来说，n
i,j
是该词t
i
在评论d
j
中的出现次数，而分母则是在评论d
j
中所有字词的出现次数之和；计算词语的反文档频率IDF，其中，|D|表示文本集合的评论总数；|{j:t
i
∈d
j
}|表示包含词语t
i
的评论数目；TF
‑
IDF
i,j
＝TF
i,j
×
IDF
i
文本评论完成...

【专利技术属性】
技术研发人员：张忠良，费秦君，雒兴刚，蔡灵莎，茹建明，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人