【技术实现步骤摘要】
一种文本细粒度情感分析方法、系统、介质和计算设备
[0001]本专利技术属于自然语言处理
,涉及一种文本细粒度情感分析方法,具体涉及一种基于BERT+BiLSTM+LDA的文本细粒度情感分析方法、系统、介质和计算设备。
技术介绍
[0002]随着互联网的快速发展和普及,社交网络渗透到了人们生活的方方面面,越来越多的用户在社交网络上发表自己的评论和观点;电商网站的发展,也使得越来越多的人在网上购买商品,同时发表自己对商品的评价和观点。人们在互联网上留下了海量的对商品、电影、图书等的文本评论,这些文本评论中蕴含着人们的情感倾向信息。文本评论中一般包含着多个方面上的情感倾向,以图书为例,就可能包含有对剧情和文笔等多个方面的评价,评论者可能对剧情的情感倾向为积极,对文笔为消极,分析文本评论对各个方面的情感倾向,就是文本细粒度情感分析,细粒度情感分析是自然语言处理领域的一个难点。
[0003]情感分析是自然语言处理领域的一个比较热门的方向,主要是分析文本中表达的观点、态度和喜好。按照分析的粒度划分,可划分为篇章级情感分析 ...
【技术保护点】
【技术特征摘要】
1.一种文本细粒度情感分析方法,其特征在于,包括:获取评论文本数据集;对所述评论文本数据集进行预处理,所述预处理包括数据清洗和数据标注;采用BERT模型对预处理后的数据集中的评论文本进行词向量化,得到评论文本词向量;将评论文本词向量输入至BiLSTM+Attention模型中进行粗粒度情感分析,训练得到用于情感分析的神经网络模型;采用LDA主题模型对预处理后的数据集进行主题提取,得到主题
‑
属性词;筛选数据集中包含属性词的短句,并标注对应的主题;将标注有主题的短句集输入到训练好的神经网络模型中进行细粒度情感分析,得到各个主题的情感倾向。2.如权利要求1所述的文本细粒度情感分析方法,其特征在于,采用网络爬虫技术获取评论文本数据集。3.如权利要求1所述的文本细粒度情感分析方法,其特征在于,所述数据清洗包括去除无关性文本和重复评论文本,所述无关性文本包括但不限于缩略词、表情符号、重复出现的标点符号和意义不明的语句;所述数据标注的方法包括但不限于用评论的评分信息对评论进行标注,0
‑
2分标注为消极,3分标注为中立,4
‑
5分标注为积极。4.如权利要求1所述的文本细粒度情感分析方法,其特征在于,所述将评论文本词向量输入至BiLSTM+Attention模型中进行粗粒度情感分析,训练得到用于情感分析的神经网络模型;包括:采用BiLSTM提取评论文本句子中每个词的隐含信息;采用注意力机制将每个词的隐含信息进行加权融合,得到整个句子的隐含信息;整个句子的隐含信息经过全连接层和softmax激活函数得到输出,预测整个句子的情感倾向,最终经过训练得到用于情感分析的神经网络模型。5.如权利要求1所述的文本细粒度情感分析方法,其特征在于,所述采用LDA主题模型对预处理后的数据集进行主题提取,得到主题
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。