基于动态阈值和多分类器的文本情感分析方法技术

技术编号：19634972 阅读：38 留言：0更新日期：2018-12-01 15:43

本发明专利技术涉及一种基于动态阈值和多分类器的半监督文本情感分析方法，包括：根据情感的不同，对其中小部分数据进行情感标注并记为L，未标注情感的数据记为U；对数据进行分词预处理；用Word2vec工具将词转化为数值型向量；采用有放回的抽样方法对L进行抽样，该过程重复T次，相应得到T个抽样样本序列Lt和T个未抽中样本序列OOBt；选取一个抽样样本序列Lt，和无情感标注的数据，这里记为Ut；用Lt训练Support Vector Machine(SVM)分类器Ct，用Ct对Ut进行预测，将可靠度达到阈值的样本l加入Lt中，并从Ut中将其删去；更新阈值；用OOBt计算分类器Ct的可靠度Pt；得到T个基分类器BC和其相应的可靠度P；用T个BC对预测文本s进行预测。

Text Emotion Analysis Method Based on Dynamic Threshold and Multi-classifier

The present invention relates to a semi-supervised text sentiment analysis method based on dynamic threshold and multi-classifier, which includes: according to the difference of emotion, emotional annotation of small and medium parts of the data is labeled as L, and non-sentimental data is labeled as U; word segmentation is performed on the data; word is transformed into numerical vector by Word2vec tool; L is sampled by the method of sampling with playback, and the process repeats T times to get T sampling sample sequence Lt and T non-sampled sample sequence OOBt. A sampling sample sequence Lt is selected, and the data without emotional labeling is recorded as Ut. Support Vector Machine (SVM) classifier Ct is trained with Lt, and Ut is pre-processed with CT. Test, add the sample l whose reliability reaches the threshold into the Lt and delete it from Ut; update the threshold; use OOBt to calculate the reliability Pt of the classifier CT; get the T-base classifier BC and its corresponding reliability P; use T-BC to predict the prediction text s.

全部详细技术资料下载

【技术实现步骤摘要】
基于动态阈值和多分类器的文本情感分析方法
本专利技术属于基于半监督学习的文本分类
，具体涉及一种基于动态阈值和多分类器的文本情感分析方法。
技术介绍
随着社交网络的迅速发展，越来越多的人倾向于在线上平台发表自己的意见和看法，比如目前流行的微博、微信朋友圈、豆瓣网、知乎等等。为了更好地理解和利用这些评论，针对社交媒体用户评论的情感分析已经成为当下的研究热点。这类情感分析可以应用到不同的场景，有助于各部门进行网络决策、金融预测、政策制定和舆情分析等等。比如，豆瓣用户可以根据其他用户对某一电影的影评，分析其所蕴含的情感极性，来判断是否选择观看该影片，为人们的日常生活带来便利。目前，文本情感分析的主要方法是基于机器(深度)学习的有监督学习。这类方法需要有大量带情感标签的数据的支持，但在实际中这类数据的获取往往受到挑战。一方面，因为情感的标注需要制定相应的专家规则，并手动人工标注，在时间和人力财力上受到局限。另一方面，网络变化日新月异，网络信息爆炸式增长，有情感标注的数据很难直接获取，而一些没有情感标注的数据却很容易更新和获取。为了解决情感标签不足的问题，相继提出了半监督学习和无监督学习。典型的无监督学习是基于情感词典的方法，但网络文化日新月异，词语更新速度极快，很难获取到合适的、实时更新的情感词库。另一类无监督学习是基于聚类思想的方法，但这种方法往往只能将不同情感的文本加以分类，但无法获取具体的情感类型。因此，基于半监督学习的文本情感分析方法是目前最值得研究的一类方法，本文据此提出了一种基于动态阈值和多分类器的情感分析方法，进一步提高情感分析的准确率。专利技...

【技术保护点】
1.一种基于动态阈值和多分类器的半监督文本情感分析方法，包括下列步骤：步骤1：采社交媒体用户线上评论数据；步骤2：根据情感的不同，对其中部分数据进行情感标注并记为L，未标注情感的数据记为U；步骤3：对数据进行分词预处理；步骤4：用Word2vec工具将词转化为数值型向量，将每条数据用一个n*k的矩阵表示，其中n表示该数据由n个词组成，k表示每个词的维度；步骤5：采用有放回的抽样方法对L进行抽样，该过程重复T次，相应得到T个抽样样本序列Lt和T个未抽中样本序列OOBt；步骤6：选取一个抽样样本序列Lt，和无情感标注的数据，这里记为Ut；步骤7：用Lt训练SVM分类器Ct，用Ct对Ut进行预测，将可靠度达到阈值的样本l加入Lt中，并从Ut中将其删去；步骤8：更新阈值，重复步骤7)，直到达到截至条件，得到最终的SVM分类器Ct；阈值更新方法为：动态变化且随迭代次数的增加，阈值逐渐减小；步骤9：用OOBt计算分类器Ct的可靠度Pt；步骤10：重复步骤6)‑9)，可得到T个基分类器BC和其相应的可靠度P；步骤11：用T个BC对预测文本s进行预测，将T个BC的P基于预测类别进行累加，s的情感属于可靠度累加和最高的一类。...

【技术特征摘要】
1.一种基于动态阈值和多分类器的半监督文本情感分析方法，包括下列步骤：步骤1：采社交媒体用户线上评论数据；步骤2：根据情感的不同，对其中部分数据进行情感标注并记为L，未标注情感的数据记为U；步骤3：对数据进行分词预处理；步骤4：用Word2vec工具将词转化为数值型向量，将每条数据用一个n*k的矩阵表示，其中n表示该数据由n个词组成，k表示每个词的维度；步骤5：采用有放回的抽样方法对L进行抽样，该过程重复T次，相应得到T个抽样样本序列Lt和T个未抽中样本序列OOBt；步骤6：选取一个抽样样本序列Lt，和无...

【专利技术属性】
技术研发人员：韩玥，王颖，金志刚，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人