【技术实现步骤摘要】
一种基于多模型融合的社交媒体语料情感分析方法
本专利技术属于情感分析领域,涉及一种基于多模型融合的社交媒体语料情感分析方法。
技术介绍
近年来,大量的社交平台和软件涌现出来,如微博、微信、QQ等,这些社交平台极大地丰富了人们的生活。越来越多的人积极地与他人分享信息,在社交平台上表达他们的观点和感受,所以每个社交平台慢慢地就会出现大量的语料信息如:图像、文本、视频等。人们分析隐藏在这些信息中的情感可以有益于在线营销、危机公关、监控公众意见、违法行为和发现潜在抑郁症等轻生迹象等。情感分析是平台社交信息的一个趋势,即根据对用户的语料信息进行分类,可分为积极、消极和中性,三种情感倾向。在此之前,有各种方法对于图像或者文本的单一识别分析已经取得了很多成果。但是,单一特征的情感分析有很多局限性,例如用户量比较大的微博,Facebook,Twitter等社交平台,都支持图文同时发布的方法,而现今大部分方法不能全面分析用户在社交平台上发布多种语料而造成判断失误。对于社交平台的多种语料信息,提高情感分析的准确性和全面性,有待于提高。本 ...
【技术保护点】
1.一种基于多模型融合的社交媒体语料情感分析方法,其特征在于:该方法共包含以下步骤,/n步骤1数据预处理:/n使用的数据是从社交平台通过爬虫获取,并过滤广告无关数据,只保留用带有用户主观性的博文数据,对过滤后的文本数据使用jieba分词器进行分词,分词后的数据存在很多无意义的数据,使用停用词表,将其过滤,采用哈工大的停用词表,得到经过数据预处理后的文本;为方便对图片数据的处理,将图片数据采用归一化的方式处理为256像素*256像素的图片;/n步骤2对文本语料进行SO-PMI模型训练:/n对步骤(1)中得到的文本进行词语的情感标记,同样分为积极、消极、中性三类;用于模型训练的 ...
【技术特征摘要】
1.一种基于多模型融合的社交媒体语料情感分析方法,其特征在于:该方法共包含以下步骤,
步骤1数据预处理:
使用的数据是从社交平台通过爬虫获取,并过滤广告无关数据,只保留用带有用户主观性的博文数据,对过滤后的文本数据使用jieba分词器进行分词,分词后的数据存在很多无意义的数据,使用停用词表,将其过滤,采用哈工大的停用词表,得到经过数据预处理后的文本;为方便对图片数据的处理,将图片数据采用归一化的方式处理为256像素*256像素的图片;
步骤2对文本语料进行SO-PMI模型训练:
对步骤(1)中得到的文本进行词语的情感标记,同样分为积极、消极、中性三类;用于模型训练的文本数据占总数据的70%,测试验证数据占30%;首先,对已经分词且过滤停用词的数据,使用70%的处理过的情感词汇用于Word2vec工具,得到一个扩展的情感词典;基于语义定位的点互信息算法SO-PMI,利用词与词之间的距离以及情感词典来判断它们属于哪一类;之后考虑否定词,程度副词,感叹词,修辞句和情感图表的影响,权衡所有因素,计算出文本内容的情感倾向得到分类结果;
步骤3对图片数据进行CNN+LSTM模型训练:
在图片数据集的基础上,增加对图片的情感描述文本,利用这两个模态的数据提供更高精度的细粒度分类卷积做图像分类,CNN+LSTM做文本分类,两个分类结果合起来得到组后图像的情感含义解释;图像文本方面分类使用的是CNN模型,CNN模型由卷积层和全连接层构成;对于文本方面,采用深度结构化的联合嵌入方法,联合嵌入图像和细粒度的视觉描述;该方法学习了图像与文本的兼容函数,看作是多模态结构拼接嵌入的扩展;不使用双线性相容函数,而是使用深层神经编码器生成的有限元内积,最大限度地提高描述与匹配图像之间的相容性,同时最小化与其他类图像的相容性;
步骤4多模型融合:
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。