【技术实现步骤摘要】
一种基于主题下的情感分析方法
本专利技术涉及人工智能领域,尤其涉及一种基于主题下的情感分析方法。
技术介绍
随着互联网的普及,人们的生活也发生了很大的变化。网络逐渐成为社会中各种信息的载体,特别是随着中国经济的不断发展,股票、国债等金融产品逐渐成为人们讨论的热点话题,越来越多的人通过网络获取金融、财经、其它经济新闻及相关信息。Web文本也已成为我们获取信息、发表观点和交流情感的重要来源。越来越多的人喜欢在网上交流他们的意见,因而网络上存在大量包含倾向性的文本信息。网络文本情感挖掘的算法大致可归纳为三类:有监督的情感挖掘、无监督的情感挖掘与半监督的情感挖掘。有(半)监督的情感挖掘方法一般具有较高的分类准确率,但是它们都需要人工标注的训练语料来训练生成文本情感分类器,而获得人工标注的训练语料是十分耗时耗力的。传统的无监督情感挖掘方法是利用情感词典对文本进行情感分类,这种方法对情感词典具有极强的依赖性,而好的情感词典却很难获得。因此,以JST、S-LDA与DPLDA等为代表的无监督情感分类方法近年来备受青睐,此类方法不仅能 ...
【技术保护点】
1.一种基于主题下的情感分析方法,其特征在于,所述方法包括如下步骤:/n步骤1:确定分析的主题,根据现有的互联网主题语料生成基于相应主题下的同义词表;/n步骤2:生成相应主题下语义拓展数据;/n步骤3:语义拓展数据和同义词表进行以词分解得到分词库,标注分词库中每个词语的意思表示;/n步骤4:根据意思表示组合生成语义二类分词,收集得到二类分词库,把二类分词库与语义拓展数据融合得到语义增广数据;/n步骤5:把语义增广数据输入神经网络模型进行训练得到词向量模型;/n步骤6:给语义增广数据中的词赋予情感数值,并对每个词以字为单位分解,并被赋予每个字的多向感情数值,并汇集词的情感数值 ...
【技术特征摘要】
1.一种基于主题下的情感分析方法,其特征在于,所述方法包括如下步骤:
步骤1:确定分析的主题,根据现有的互联网主题语料生成基于相应主题下的同义词表;
步骤2:生成相应主题下语义拓展数据;
步骤3:语义拓展数据和同义词表进行以词分解得到分词库,标注分词库中每个词语的意思表示;
步骤4:根据意思表示组合生成语义二类分词,收集得到二类分词库,把二类分词库与语义拓展数据融合得到语义增广数据;
步骤5:把语义增广数据输入神经网络模型进行训练得到词向量模型;
步骤6:给语义增广数据中的词赋予情感数值,并对每个词以字为单位分解,并被赋予每个字的多向感情数值,并汇集词的情感数值与字的单字的情感值得到情感判别库;
步骤7:把需要分析的语句文本输入到词向量模型得到词向量;
步骤8:把词向量输入到情感判别库得到以词向量为基础的第一情感值;
步骤9:把词向量进行以词分解得到单字集合,并输入情感判别库得到以字为基础的第二情感值;
步骤10:把第一情感值和第二情感值计算输入文本的情感值。
2.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤1中的具体过程为:
人工输入确定需要分析的文本多对应的主题领域,通过互联网获取公开的该主题领域下的基本文本语料集D;
使用分词工具对语料集D进行分词,全用尺寸为5,步长为2窗口获得二元语言学训练数据;
将二元语言学训练数据进行Word2Vec模型训练得到词向量表示;
计算每两个词向量vi,vj间的夹角余值作为两个词的相似度,获得相似度量矩阵;具体的计算公式是:
通过度量获取与词vi最邻近的3个词即vi的3个同义词得到警情领域的同义词表。
3.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤2的具体过程为:
随机选择一条语料输入,判断该类语料数量n是否大于等于1000条;
如果n小于1000,直接采样输出该语料,如果n大于等于1000执行下一步;
对输入的语料进行分词,获得该语料词的分词表;
等概率生成[A,B,C,D,E]中的一个随机变量N,如N=A采用同义词替换法该语料情的分词表中的3个单词生成新语料;如N=B在句子中找到一个随机词的随机同义词,将该同义词插入句子中的随机位置生成新语料;如N=C随机选择分词表里的两个单词交换位置生成新语料;如N=D随机删除分词表中的E个单词生成新语料;如N=4直接输出该语料。
4.根据权利要求1所述的一种基...
【专利技术属性】
技术研发人员:林希,陈增和,温志刚,
申请(专利权)人:深圳市豪斯莱科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。