【技术实现步骤摘要】
一种评论信息的文本分析方法及存储介质
[0001]本专利技术涉及自然语言处理
,具体的,涉及一种评论信息的文本分析方法及存储介质。
技术介绍
[0002]随着互联网技术的发展,社交媒体平台成为公众发表观点和交流信息的重要途径。从互联网上采集大量社交媒体评论数据,挖掘其中有价值的信息,能够获取民众对某种产品的喜好程度或某一社会现象的关注程度与情感变化等。
[0003]由于社交媒体网站种类繁多,评论信息数量过大,仅靠人力去整理和分析将会是一项艰巨的任务,因此需要对文本评论信息分析进一步探索,采用更加自动化、智能化的方法从大量的文本数据中自动学习到复杂的语言特征并进行文本分析,节省大量的人力物力,提高文本评论分析效率和准确率。
技术实现思路
[0004]本专利技术的目的在于针对人工文本评论分析工作方式中存在的效率不高、工作量大、准确率低等问题,提出一种文本评论分析方法,以解决上述问题。
[0005]为达此目的,本专利技术采用以下技术方案:一种评论信息的文本分析方法,包括如下步骤:文本评论数据预 ...
【技术保护点】
【技术特征摘要】
1.一种评论信息的文本分析方法,其特征在于,包括如下步骤:文本评论数据预处理步骤S110:对文本评论数据进行预处理,过滤掉无关信息,并对所述文本评论数据进行分词处理;文本评论向量提取与处理步骤S120:对预处理后的文本评论数据,采用文本向量化获得文本特征向量并利用自编码器模型进行数据降噪,然后通过LSTM模型提取文本评论信息的高级特征向量,以表征文本评论数据;计算文本评论的情感预测结果S130:接收在步骤S120中所提取的文本评论信息的高级特征向量,计算文本评论的情感预测结果。2.根据权利要求1所述的文本分析方法,其特征在于:在步骤S110中,所述文本评论数据预处理具体包括:采用正则表达式删除标点符号和删除空格,在文本数据中引入领域词典,对数据作分词处理。3.根据权利要求1所述的文本分析方法,其特征在于:在步骤S120中,所述自编码器模型为无监督式学习模型,所述自编码器模型的输出向量计算公式为:其中,为ReLU函数,为输入的文本特征向量,表示的权重矩阵,为的偏置项。4.根据权利要求3所述的文本分析方法,其特征在于:在步骤S120中,所述LSTM模型为一种双向的改进的循环神经网络,采用表义能力更强的双向编码结构来对语料进行训练,实现语料训练的深度双向表示。5.根据权利要求4所述的文本分析方法,其特征在于:在步骤S120中,所述LSTM模型由3个门结构和1个状态单元组成,所述3个门结构包括输入门、遗忘门、输出门;其中,所述输入门接收两个输入,即上一时刻LSTM模型的输出结果和当前时刻的输入,t时刻的输入门的输出...
【专利技术属性】
技术研发人员:赵习枝,王苑,张福浩,欧尔格力,仇阿根,张朝坤,李彬,索菲,朱鹏,陶坤旺,陆文,
申请(专利权)人:青海省地理空间和自然资源大数据中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。