基于大数据和深度学习的情感分析方法、装置和存储介质制造方法及图纸

技术编号:17597257 阅读:131 留言:0更新日期:2018-03-31 10:22
本申请公开了一种基于大数据和深度学习的情感分析方法、装置和存储介质,其中情感分析方法包括:对具有初步标注信息的情感数据进行预处理;采用启发式扩展方式对情感数据进行标注;启发式扩展方式包括:对情感数据进行分词,提取情感词,为其分配情感强度值;提取修饰词,为修饰词分配修饰强度值;计算短语的情感强度;如果短语的情感强度所对应的情感极性与情感数据的情感极性一致,则将短语和情感强度值加入情感标注数据集。通过对收集到的情感数据进行启发式扩展,可以为后续的数据处理提供良好的原始数据,提高后续数据分析的针对性和准确性,使情感词库更加准确和完善。

Emotional analysis methods, devices, and storage media based on large data and depth learning

【技术实现步骤摘要】
基于大数据和深度学习的情感分析方法、装置和存储介质
本专利技术涉及计算机情感分析领域,具体而言,特别涉及一种情感分析方法、情感分析装置、存储介质、计算机设备和程序产品。
技术介绍
随着互联网、特别是移动互联网的迅速发展,各种新应用不断产生,例如新闻门户网站、电子商务网站、社交网络等。在这些应用上,普通大众可以表达对事物的主观倾向性观点,例如对新闻事件的评论,以及对所购买商品的喜好。目前,由用户生成的带有情感倾向性的文本数据以指数增长。通过挖掘这些海量数据,获取用户情感信息,对电子商务、商业智能、民意调查、舆情分析、情报分析、企业管理等至关重要,也为管理者提供强有力的决策支持。例如,商家可以通过这些信息获取消费者意见,更好地理解消费者的喜好与消费习惯,设计生产出更有针对性的产品;政府机构可以通过分析热点事件的舆情,为指定方针政策提供依据;而普通消费者则可以依据其他人的观点汇总作为其购买行为以及消费决策的重要参考。由于训练情感分析模型需要大量的标注了情感倾向性(或者情感极性)的文本数据。现有方法试图通过收集少量的情感词典并且赋予不同的情感强度,然后基于这些情感词的情感强度,计算整个文本的情感倾向性,即正面、负面、或者中立。这种方法严重依赖情感词库,并且情感词的情感强度依赖于所处自然语言的语境。现有的情感词库中并没有考虑修饰词对情感词语的修饰作用,例如,副词、否定词等。但是一般情况下动态情感词语会对形容词等情感词产生很大程度限定作用,甚至影响情感词的词性,如果不加以考虑,容易造成情感强度偏差,从而影响情感数据集的数据标注的准确性,进而影响对文本评论的结果。因此,现有的情感分析模型的准确率往往比较低。
技术实现思路
本专利技术旨在至少在一定程度上解决现有技术中的上述技术问题之一。鉴于此,本专利技术提供了一种情感分析方法,包括以下步骤:S1对具有初步标注信息的情感数据进行预处理;S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集;其中,S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集的步骤包括:S21对所述情感数据进行分词,提取所述情感数据中的情感词,为所述情感词分配情感强度值;S22提取所述情感数据中的修饰词,为所述修饰词分配修饰强度值;S23根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值;S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符,则将所述短语和所述短语的情感强度加入情感标注数据集。优选地,其中,所述对具有初步标注信息的情感数据进行预处理的步骤包括:S11收集具有初步标注信息的情感数据;S12对所述情感数据进行去重处理;S13将去重后的情感数据的初步标注信息映射成情感极性;S14根据所述情感数据的情感极性和所述情感数据之间的匹配程度对所述情感数据进行过滤。优选地,在S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性一致,则将所述短语和所述短语的情感强度加入情感标注数据集的步骤后还包括:S25如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性不一致,则对所述短语的情感强度值进行校正后,再将所述短语和所述短语的情感强度值加入情感标注数据集。优选地,在S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集的步骤后还包括:S3利用所述情感标注数据集对所述情感数据的文本信息进行分析,学习词语义;S4利用深度学习模型分析情感数据的文本信息的语言结构,学习语法关系;S5利用不同粒度的情感数据对情感分析模型进行训练,得到统一的情感分析模型。优选地,其中,所述S3利用情感标注数据集对所述情感数据的文本信息进行分析,学习词语义包括:S31根据句子中前面的词语的情感强度估计下个词语出现的概率,从而计算所述下个词语的浮点向量;S32利用词语的浮点向量计算不同词语之间的相似度或者词语距离,从而对不同词语进行区分。优选地,所述S5利用不同粒度的情感数据对情感分析模型进行训练,得到统一的情感分析模型的步骤包括:S51将不同粒度的情感数据作为训练数据交替输入所述情感分析模型,优化所述情感分析模型的参数;S52如果所述情感分析模型对某种粒度的情感数据的情感极性预测准确率低,则动态增加该粒度的情感数据作为训练数据输入所述情感分析模型;S53如果所述情感分析模型对各种粒度的情感数据的预测准确率高于阈值,训练终止,得到统一的情感分析模型。本专利技术还提供了一种情感分析装置,其特征在于,包括以下模块:预处理模块,被配置为对具有初步标注信息的情感数据进行预处理;标注模块,被配置为对于预处理模块的采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集;其中,标注模块包括:情感词标注模块,被配置为对所述情感数据进行分词,提取所述情感数据中的情感词,为所述情感词分配情感强度值;修饰词标注模块,被配置为提取所述情感数据中的修饰词,为所述修饰词分配修饰强度值;短语情感强度计算模块,被配置为根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值;短语标注模块,被配置为如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性一致,则将所述短语和所述短语的情感强度加入情感标注数据集。本专利技术还提供了一种计算机设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述的情感分析方法。本专利技术还提供了一种计算机可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现上述的情感分析方法。本专利技术还提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的情感分析方法。本专利技术通过收集大规模标注数据,并且利用启发式方法扩展收集到情感标注数据,以提高情感分析模型的准确率。进一步地,本专利技术基于词向量化模型(WordEmbedding),学习每个词的向量表示,以表示词的隐含语义,方便计算词语之间的关系。另外,本专利技术基于深度学习情感分析模型,学习自然语言丰富多样的复杂结构,以准确理解文本的真实含义。进一步地,本专利技术通过采集和启发式生成不同粒度情感标注数据,平衡不同粒度的数据分布,训练统一的情感分析模型,以准确预测不同粒度文本的情感极性,从而增强情感分析模型对自然语言理解力和提升情感极性预测的准确率,进而增强了情感分析模型的可用性。附图说明后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:图1示出了本专利技术的情感分析方法的一个实施例的流程图;图2示出了本专利技术的情感分析方法的深度学习情感分析模型的一个实施例的原理框图;图3示出了本专利技术的情感分析方法的另一个实施例的流程图;图4示出了本专利技术的情感分析装置的一个实施例的框图;图5示出了本专利技术的情感分析装置的另一个实施例的框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类本文档来自技高网
...
基于大数据和深度学习的情感分析方法、装置和存储介质

【技术保护点】
一种情感分析方法,其特征在于,包括以下步骤:S1对具有初步标注信息的情感数据进行预处理;S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集;其中,S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集的步骤包括:S21对所述情感数据进行分词,提取所述情感数据中的情感词,为所述情感词分配情感强度值;S22提取所述情感数据中的修饰词,为所述修饰词分配修饰强度值;S23根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值;S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符,则将所述短语和所述短语的情感强度加入情感标注数据集。

【技术特征摘要】
1.一种情感分析方法,其特征在于,包括以下步骤:S1对具有初步标注信息的情感数据进行预处理;S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集;其中,S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集的步骤包括:S21对所述情感数据进行分词,提取所述情感数据中的情感词,为所述情感词分配情感强度值;S22提取所述情感数据中的修饰词,为所述修饰词分配修饰强度值;S23根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值;S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符,则将所述短语和所述短语的情感强度加入情感标注数据集。2.根据权利要求1所述的一种情感分析方法,其中,所述对具有初步标注信息的情感数据进行预处理的步骤包括:S11收集具有初步标注信息的情感数据;S12对所述情感数据进行去重处理;S13将去重后的情感数据的初步标注信息映射成情感极性;S14根据所述情感数据的情感极性和所述情感数据之间的匹配程度对所述情感数据进行过滤。3.根据权利要求1所述的一种情感分析方法,在S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性一致,则将所述短语和所述短语的情感强度加入情感标注数据集的步骤后还包括:S25如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性不一致,则对所述短语的情感强度值进行校正后,再将所述短语和所述短语的情感强度值加入情感标注数据集。4.根据权利要求1至3的任一项所述的一种情感分析方法,在S2采用启发式扩展方式对所述情感数据进行不同粒度地标注,构建情感标注数据集的步骤后还包括:S3利用所述情感标注数据集对所述情感数据的文本信息进行分析,学习词语义;S4利用深度学习模型分析情感数据的文本信息的语言结构,学习语法关系;S5利用不同粒度的情感数据对情感分析模型进行训练,得到统一的情感分析模型。5.根据权利要求4所述的一种情感分析方法,其中,所述S3利用情感标注数据集对所述情感数据的文本信息进行分析,学习词语义...

【专利技术属性】
技术研发人员:张家栋杨学平宁伟
申请(专利权)人:广州简亦迅信息科技有限公司
类型:发明
国别省市:广东,44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1