基于微博文本的公众情感分布建模方法及装置制造方法及图纸

技术编号:17656310 阅读:41 留言:0更新日期:2018-04-08 09:11
本发明专利技术提供了一种基于微博文本的公众情感分布建模方法及装置。该方法包括:获取预设时间段内第一预设数量条微博文本数据;利用支持向量机对第一预设数量条微博文本数据进行情感识别,得到第二预设数量种情感;对不同情感分类的微博文本进行统计,得到每个用户分类对应的多维数据;多维数据的维数等于所述第二预设数量;基于多维数据,利用K‑S检测算法对基于多维数据建立模型;根据模型的P‑value值判断多维数据是否服从多元高斯分布;若不服从,利用残差和的方法对微博数据进行幂律分布检验。可见,本发明专利技术将微博文本处理为多维数据,结合多元高斯分布和幂律分布检验对情感的建模和分析,定性或者定量地分析微博用户的情感并检测异常用户。

【技术实现步骤摘要】
基于微博文本的公众情感分布建模方法及装置
本专利技术涉及数据处理
,尤其涉及一种基于微博文本的公众情感分布建模方法及装置。
技术介绍
目前,公众情感分布的研究方法主要有两种:一种是对文本进行情感极性识别(正面,负面,中性),从而建立一种极性分布,可以用于判断公众用户对热门事件的情感倾向;另一种方法是自定义文本词语的情感分数,对文本情感的分布进行量化,该方法可以比较直观地看出公众的情感波动,实时性较好。然而,在实现本专利技术实施例方案的过程中,专利技术人发现:第一种方法可以从整体上看出哪些用户或者某一段时间时用户负面情绪较多,但是忽略了用户的情感具有多元性和复杂性,导致检测的结果不够具体和准确。第二种方法,文本中的词语情感会随着语境而发生变化,导致直接定义情感分数并不能很好地拟合公众情感的分布。
技术实现思路
针对现有技术中的缺陷,本专利技术提供了一种基于微博文本的公众情感分布建模方法及装置,用于解决现有技术中情感研究方法由于忽略用户的情感或语境而导致分析结果无法准确拟合公众情感分布的问题。第一方面,本专利技术实施例提供了一种基于微博文本的公众情感分布建模方法,所述方法包括:获取预设本文档来自技高网...
基于微博文本的公众情感分布建模方法及装置

【技术保护点】
一种基于微博文本的公众情感分布建模方法,其特征在于,所述方法:获取预设时间段内第一预设数量条微博文本数据;利用支持向量机对所述第一预设数量条微博文本数据进行情感识别,得到第二预设数量种情感;对不同情感分类的微博文本进行统计,得到每个用户分类对应的多维数据;所述多维数据的维数等于所述第二预设数量;基于所述多维数据,利用K‑S检测算法对所述第一预设数量条微博文本的情感建立模型;根据所述模型的P‑value值判断所述多维数据是否服从多元高斯分布;若不服从,则基于用户发布微博的数目和用户的数目,利用残差和的方法对微博数据进行幂律分布检验。

【技术特征摘要】
1.一种基于微博文本的公众情感分布建模方法,其特征在于,所述方法:获取预设时间段内第一预设数量条微博文本数据;利用支持向量机对所述第一预设数量条微博文本数据进行情感识别,得到第二预设数量种情感;对不同情感分类的微博文本进行统计,得到每个用户分类对应的多维数据;所述多维数据的维数等于所述第二预设数量;基于所述多维数据,利用K-S检测算法对所述第一预设数量条微博文本的情感建立模型;根据所述模型的P-value值判断所述多维数据是否服从多元高斯分布;若不服从,则基于用户发布微博的数目和用户的数目,利用残差和的方法对微博数据进行幂律分布检验。2.根据权利要求1所述的公众情感分布建模方法,其特征在于,利用支持向量机对所述第一预设数量条微博文本数据进行情感识别,得到第二预设数量种情感包括:根据支持向量机对微博文本进行情感识别,得到第二预设数量种情感分类;根据标签和情感的关系,利用不同标签标注所述第二预设数量种情感对应的所述第一预设数量条微博文本数据。3.根据权利要求2所述的公众情感分布建模方法,其特征在于,所述第二预设数量种情感为5种,分别为中性、开心、惊讶、伤心和生气。4.根据权利要求1所述的公众情感分布建模方法,其特征在于,根据所述模型的P-value值判断所述多维数据是否服从多元高斯分布之后还包括:若所述多维数据服从所述多元高斯分布,则获取用户发布微博文本的情感整体分布;利用联合概率密度函数确定异常的用户。5.一种基于微博文本的公众情感分布建模装置,其特征在于,...

【专利技术属性】
技术研发人员:孙晓张陈丁帅杨善林
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1