一种基于文本聚类和情感词典的情感分析方法技术

技术编号：38603105 阅读：19 留言：0更新日期：2023-08-26 23:36

本发明专利技术公开了一种基于文本聚类和情感词典的情感分析方法，该方法包括：Python爬取热门事件评论话题数据，预处理为TF

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本聚类和情感词典的情感分析方法

[0001]本专利技术涉及情感分析
，具体涉及到一种基于文本聚类和情感词典的情感分析方法。

技术介绍

[0002]近年来随着微博使用人数越来越多，人们可以随时随地地在微博、Twitter等社交平台上发表自己的想法、日常生活和评论，由此产生了大量带有情感倾向的主观性文本数据。通过对这些数据进行情感分析，可以更好地了解用户的对热点事件的关注和情感倾向，由此，情感分析技术应运而生。当前，文本情感分析的常用方法主要有基于情感词典方法和机器学习方法。基于情感词典的情感分析需要构建问题域的情感词典、计算情感得分从而判定情感极性，其算法的准确性取决于词典的丰富性。而如今网络中新兴词汇数量大且更新频繁，在很大程度上影响了此类方法的准确率。基于机器学习的方法是将情感分析当作文本聚类或分类任务，根据样本数据的不同，选择合适的分类算法或聚类算法训练模型。然而，基于分类算法训练分类器，需要人工标注的数据集，这既费时又费力，易形成标注瓶颈，且可能存在类别不平衡问题，从而限制了文本情感分类的准确性。而对于无监督学习的聚类算法，可以处理未标注样本数据集，有效避免有监督学习中算法模型对大量标注数据的依赖。在文本聚类领域，K
‑
Means因其算法思想简单、收敛速度快等特点应用最为广泛，但K
‑
Means算法在聚类过程中需要初始化类别数目K值，而文本聚类中数据通常会采取网络爬虫的方式获取，无法提前预知类别数量K值，人为设置的K值如果不合理，则会导致聚类结果误差大。/>
技术实现思路

[0003]技术问题：为解决上述技术问题，本专利技术提供一种基于文本聚类和情感词典的情感分析方法，有效避免了算法模型对大量标注数据的依赖，改进了K
‑
Means算法K值的选择问题，在文本聚类归堆方面进行改进并融合情感词典，情感分析更具健壮性和丰富性。
[0004]技术方案：本专利技术的一种基于文本聚类和情感词典的情感分析方法包括以下步骤：
[0005]S1：采用计算机爬虫技术抓取热门事件热门话题评论作为样本数据，生成样本评论数据csv文件；
[0006]S2：将样本评论数据csv文件作为输入，经数据预处理操作后生成TF
‑
IDF_matrix词向量数据；
[0007]S3：运用文本情感分析模型对所述TF
‑
IDF_matrix词向量数据进行情感分析，输出最优簇数、话题关键词、情感得分和情感极性；
[0008]S4：可视化展示热门事件话题关键词、用户情感倾向判断、情感随时间发展趋势。
[0009]其中，
[0010]所述的S1中计算机爬虫技术具体为基于Python爬虫技术设计的两种数据抓取方
案，第一种是复制电脑访问时的User
‑
Agent值，第二种是运用Python的UserAgent包，伪装成用户爬取评论数据。
[0011]所述的S2中数据预处理操作指的是正则表达式数据清洗、Jieba中文分词、textRank关键词提取、TF
‑
IDF特征提取、主成分分析PCA降维和TSNE降维。
[0012]所述的S3中的文本情感分析模型为基于层次聚类、K
‑
Means算法、聚类评估指标轮廓系数、Bosonnlp情感词典和多维情感词典技术的融合改进模型。
[0013]所述的S4中的话题关键词指的是热门事件话题的高频词；用户情感倾向判断具体为针对热门事件的情感分析结果，可以是积极、消极或乐、哀、好、恶、惧；情感随时间发展趋势具体为热门事件的情感发展态势随时间的变化情况。
[0014]步骤S3中运用文本情感分析模型对所述TF
‑
IDF_matrix词向量数据进行情感分析具体包括以下步骤：
[0015]S3
‑
1：基于层次聚类，生成层次聚类可视化树状图，输出最优层次簇数值区间；
[0016]S3
‑
2：K
‑
Means算法进行TF
‑
IDF_matrix文本聚类分析，K值基于S3
‑
1的最优层次簇数值区间，结合评价指标轮廓系数度量最佳分类簇数K的取值；
[0017]S3
‑
3：提取热门事件评论话题关键词，输出聚类分析结果；
[0018]S3
‑
4：TF
‑
IDF_matrix词向量数据送入融合改进的Bosonnlp情感词典和多维情感词典模型，输出情感得分和情感极性。
[0019]所述的步骤S3
‑
1的具体如下：
[0020]输入TF
‑
IDF_matrix词向量数据和最大迭代次数N，将TF
‑
IDF_matrix词向量中的每条样本数据看作单个集群，重复计算任意两条样本数据之间的间距，运用距离公式求出两类群中最短距离的样本点，另其为c
i
、c
j
，将c
i
和c
j
归堆至一个簇集群，重复以上工作，直到样本数据都合并到一个集群或者达到迭代次数N，可视化层次聚类树，输出最优层次簇数值区间。
[0021]所述的步骤S3
‑
2具体如下：
[0022]从TF
‑
IDF_matrix词向量矩阵中选择K个样本作为初始簇中心{a1,a2,
…
,a
k
}，K取值为S3
‑
1最优层次簇数值区间。循环如下操作：对于n＝1,
…
,N，样本集中任何数据，计算每个样本x
i
到各簇中心a
j
的距离x
i
标记为最小的d
ij
所对应的类别λ
i
，此时更新C
λi
＝C
λi
∪{x
i
}，对于j＝1,2,
…
,k，对C
j
重新计算新的簇中心如果k个簇中心没有改变，循环停止，轮廓系数评估K
‑
Means文本聚类结果的好坏，输出最佳分类簇数K的取值。
[0023]根据权利要求6所述的一种基于文本聚类和情感词典的情感分析方法，其特征在于，所述的步骤S3
‑
1和步骤S3
‑
2是一种文本聚类参数K评优方法，解决K
‑
Means算法初始K值的选择问题，最佳分类簇数K的值由层次聚类、K
‑
Means算法、聚类评估指标轮廓系数经所述的文本情感分析模型计算得出并可视化输出。
[0024]根据权利要求6所述的一种基于文本聚类和情感词典的情感分析方法，其特征在于，所述的步骤S3
‑
4中融合改进的Bosonnlp情感词典和多维情感词典模型具体为：以Bos本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于文本聚类和情感词典的情感分析方法，其特征在于，该方法包括以下步骤：S1：采用计算机爬虫技术抓取热门事件热门话题评论作为样本数据，生成样本评论数据csv文件；S2：将样本评论数据csv文件作为输入，经数据预处理操作后生成TF
‑
IDF_matrix词向量数据；S3：运用文本情感分析模型对所述TF
‑
IDF_matrix词向量数据进行情感分析，输出最优簇数、话题关键词、情感得分和情感极性；S4：可视化展示热门事件话题关键词、用户情感倾向判断、情感随时间发展趋势。2.根据权利要求1所述的一种基于文本聚类和情感词典的情感分析方法，其特征在于，所述的S1中计算机爬虫技术具体为基于Python爬虫技术设计的两种数据抓取方案，第一种是复制电脑访问时的User
‑
Agent值，第二种是运用Python的UserAgent包，伪装成用户爬取评论数据。3.根据权利要求1所述的一种基于文本聚类和情感词典的情感分析方法，其特征在于，所述的S2中数据预处理操作指的是正则表达式数据清洗、Jieba中文分词、textRank关键词提取、TF
‑
IDF特征提取、主成分分析PCA降维和TSNE降维。4.根据权利要求1所述的一种基于文本聚类和情感词典的情感分析方法，其特征在于，所述的S3中的文本情感分析模型为基于层次聚类、K
‑
Means算法、聚类评估指标轮廓系数、Bosonnlp情感词典和多维情感词典技术的融合改进模型。5.根据权利要求1所述的一种基于文本聚类和情感词典的情感分析方法，其特征在于，所述的S4中的话题关键词指的是热门事件话题的高频词；用户情感倾向判断具体为针对热门事件的情感分析结果，可以是积极、消极或乐、哀、好、恶、惧；情感随时间发展趋势具体为热门事件的情感发展态势随时间的变化情况。6.根据权利要求1所述的一种基于文本聚类和情感词典的情感分析方法，其特征在于，步骤S3中运用文本情感分析模型对所述TF
‑
IDF_matrix词向量数据进行情感分析具体包括以下步骤：S3
‑
1：基于层次聚类，生成层次聚类可视化树状图，输出最优层次簇数值区间；S3
‑
2：K
‑
Means算法进行TF
‑
IDF_matrix文本聚类分析，K值基于S3
‑
1的最优层次簇数值区间，结合评价指标轮廓系数度量最佳分类簇数K的取值；S3
‑
3：提取热门事件评论话题关键词，输出聚类分析结果；S3
‑
4：TF
‑
IDF_matrix词向量数据送入融合改进的Bosonnlp情感词典和多维情感词典模型，输出情感得分和情感极性。7.根据权利要求6所述的一种基于文本聚类和情感词典的情...

【专利技术属性】
技术研发人员：朱艳，舒益新，李香菊，
申请(专利权)人：东南大学成贤学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人