The present invention relates to a semi-supervised text sentiment analysis method based on dynamic threshold and multi-classifier, which includes: according to the difference of emotion, emotional annotation of small and medium parts of the data is labeled as L, and non-sentimental data is labeled as U; word segmentation is performed on the data; word is transformed into numerical vector by Word2vec tool; L is sampled by the method of sampling with playback, and the process repeats T times to get T sampling sample sequence Lt and T non-sampled sample sequence OOBt. A sampling sample sequence Lt is selected, and the data without emotional labeling is recorded as Ut. Support Vector Machine (SVM) classifier Ct is trained with Lt, and Ut is pre-processed with CT. Test, add the sample l whose reliability reaches the threshold into the Lt and delete it from Ut; update the threshold; use OOBt to calculate the reliability Pt of the classifier CT; get the T-base classifier BC and its corresponding reliability P; use T-BC to predict the prediction text s.
【技术实现步骤摘要】
基于动态阈值和多分类器的文本情感分析方法
本专利技术属于基于半监督学习的文本分类
,具体涉及一种基于动态阈值和多分类器的文本情感分析方法。
技术介绍
随着社交网络的迅速发展,越来越多的人倾向于在线上平台发表自己的意见和看法,比如目前流行的微博、微信朋友圈、豆瓣网、知乎等等。为了更好地理解和利用这些评论,针对社交媒体用户评论的情感分析已经成为当下的研究热点。这类情感分析可以应用到不同的场景,有助于各部门进行网络决策、金融预测、政策制定和舆情分析等等。比如,豆瓣用户可以根据其他用户对某一电影的影评,分析其所蕴含的情感极性,来判断是否选择观看该影片,为人们的日常生活带来便利。目前,文本情感分析的主要方法是基于机器(深度)学习的有监督学习。这类方法需要有大量带情感标签的数据的支持,但在实际中这类数据的获取往往受到挑战。一方面,因为情感的标注需要制定相应的专家规则,并手动人工标注,在时间和人力财力上受到局限。另一方面,网络变化日新月异,网络信息爆炸式增长,有情感标注的数据很难直接获取,而一些没有情感标注的数据却很容易更新和获取。为了解决情感标签不足的问题,相继提出了半监督学习和无监督学习。典型的无监督学习是基于情感词典的方法,但网络文化日新月异,词语更新速度极快,很难获取到合适的、实时更新的情感词库。另一类无监督学习是基于聚类思想的方法,但这种方法往往只能将不同情感的文本加以分类,但无法获取具体的情感类型。因此,基于半监督学习的文本情感分析方法是目前最值得研究的一类方法,本文据此提出了一种基于动态阈值和多分类器的情感分析方法,进一步提高情感分析的准确率。专利技 ...
【技术保护点】
1.一种基于动态阈值和多分类器的半监督文本情感分析方法,包括下列步骤:步骤1:采社交媒体用户线上评论数据;步骤2:根据情感的不同,对其中部分数据进行情感标注并记为L,未标注情感的数据记为U;步骤3:对数据进行分词预处理;步骤4:用Word2vec工具将词转化为数值型向量,将每条数据用一个n*k的矩阵表示,其中n表示该数据由n个词组成,k表示每个词的维度;步骤5:采用有放回的抽样方法对L进行抽样,该过程重复T次,相应得到T个抽样样本序列Lt和T个未抽中样本序列OOBt;步骤6:选取一个抽样样本序列Lt,和无情感标注的数据,这里记为Ut;步骤7:用Lt训练SVM分类器Ct,用Ct对Ut进行预测,将可靠度达到阈值的样本l加入Lt中,并从Ut中将其删去;步骤8:更新阈值,重复步骤7),直到达到截至条件,得到最终的SVM分类器Ct;阈值更新方法为:动态变化且随迭代次数的增加,阈值逐渐减小;步骤9:用OOBt计算分类器Ct的可靠度Pt;步骤10:重复步骤6)‑9),可得到T个基分类器BC和其相应的可靠度P;步骤11:用T个BC对预测文本s进行预测,将T个BC的P基于预测类别进行累加,s的情感属于可 ...
【技术特征摘要】
1.一种基于动态阈值和多分类器的半监督文本情感分析方法,包括下列步骤:步骤1:采社交媒体用户线上评论数据;步骤2:根据情感的不同,对其中部分数据进行情感标注并记为L,未标注情感的数据记为U;步骤3:对数据进行分词预处理;步骤4:用Word2vec工具将词转化为数值型向量,将每条数据用一个n*k的矩阵表示,其中n表示该数据由n个词组成,k表示每个词的维度;步骤5:采用有放回的抽样方法对L进行抽样,该过程重复T次,相应得到T个抽样样本序列Lt和T个未抽中样本序列OOBt;步骤6:选取一个抽样样本序列Lt,和无...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。