【技术实现步骤摘要】
一种基于评论文本的情感分析方法、系统、介质及设备
[0001]本专利技术属于互联网服务
,具体涉及一种基于评论文本的情感分析方法、系统、介质及设备。
技术介绍
[0002]评论监测市场已经发展多年,传统的人工监测模式或者评论监测软件模式已经不能满足日益膨胀的数据时代,无法解决海量数据的及时监测、全面预警、高效运行、深入分析等互联网时代的评论洞察需求。
[0003]目前评论监测仍存在以下待改进的地方:
[0004](1)数据量小,抽样的方法严重影响分析的客观性;
[0005](2)无法持续观测数据的态势和异常,并且存在大量重复劳动,效率低下。
技术实现思路
[0006]为解决现有技术中存在的上述问题,本专利技术提供了一种基于评论文本的情感分析方法、系统、介质及设备,本专利技术的目的可以通过以下技术方案实现:
[0007]S1:获取电商销售平台的用户评论数据;
[0008]S2:对采集的所述用户评论数据进行文本预处理,所述文本预处理包括:分词和过滤停用词,得到文本特征 ...
【技术保护点】
【技术特征摘要】
1.一种基于评论文本的情感分析方法,其特征在于,包括如下步骤:S1:获取电商销售平台的用户评论数据;S2:对所述用户评论数据进行文本预处理,所述文本预处理包括:文本解码、分词和过滤停用词,得到文本特征结果;S3:预设语料训练模型D,所述语料训练模型D中包含M个样本字符串S,所述样本字符串中包含N个词W,所述语料训练模型D和所述样本字符串用集合可表示为:D={S1,S2,...,S
M
},S={W1,W2,...,W
N
},对所述样本字符串中的第n个词Wn预设情感类型z
n
~Multionmal(θ),所述情感类型z
n
的分布函数为θ~Dir(W),对所述情感类型计算边际分布得到所述语料训练模型;S4:将所述文本特征结果转化为词向量,将所述词向量输入所述语料训练模型,计算所述语料训练模型的最大似然估计得到所述词向量属于的所述文本情感类型。2.根据权利要求1所述的基于评论文本的情感分析方法,其特征在于,所述文本预处理的具体实现方法为:调用decode函数对所述用户评论数据进行解码,得到json字符串;将所述json字符串输入jieba分词模型,得到文本分词结果,所述jieba分词模型调用无效词库,对所述文本分词结果过滤无效词,得到所述文本特征结果。3.根据权利要求1所述的基于评论文本的情感分析方法,其特征在于,所述计算边际分布的具体实现方法为:统计每一个所述情感类型z
n
的词频β,得到所述情感类型的后验分布为:;计算所述情感类型z
n
的所述情感类型分布函数θ和所述词W的联合概率分布,计算公式为:;对所述联合概率分布中的所述情感类型分布函数θ进行积分,对所述情感类型z
n
进行求和,得到所述样本字符串S的情感类型边际分布,所述情感类型边际分布公式为:;在所述情感类型边际分布中对所述分布函数θ和所述词频β进行解耦。4.根据权利要求3所述的基于评论文本的情感分析方法,其特征在于,所述解耦方法为:计算所述分布函数θ趋于所述情感类型z
n
、所述情感类型z
n
趋于所述词W的极限,得到语料训练模型的公式为:;其中,为词向量。
5.根据权利要求2所述的基于评论文本的情感分析方法,其特征在于,所述...
【专利技术属性】
技术研发人员:陈国平,吴肖峻,
申请(专利权)人:广东赛博威信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。