基于大数据和深度学习的情感分析方法、装置和存储介质制造方法及图纸

技术编号：17597257 阅读：131 留言：0更新日期：2018-03-31 10:22

本申请公开了一种基于大数据和深度学习的情感分析方法、装置和存储介质，其中情感分析方法包括：对具有初步标注信息的情感数据进行预处理；采用启发式扩展方式对情感数据进行标注；启发式扩展方式包括：对情感数据进行分词，提取情感词，为其分配情感强度值；提取修饰词，为修饰词分配修饰强度值；计算短语的情感强度；如果短语的情感强度所对应的情感极性与情感数据的情感极性一致，则将短语和情感强度值加入情感标注数据集。通过对收集到的情感数据进行启发式扩展，可以为后续的数据处理提供良好的原始数据，提高后续数据分析的针对性和准确性，使情感词库更加准确和完善。

Emotional analysis methods, devices, and storage media based on large data and depth learning

全部详细技术资料下载

【技术实现步骤摘要】
基于大数据和深度学习的情感分析方法、装置和存储介质
本专利技术涉及计算机情感分析领域，具体而言，特别涉及一种情感分析方法、情感分析装置、存储介质、计算机设备和程序产品。
技术介绍
随着互联网、特别是移动互联网的迅速发展，各种新应用不断产生，例如新闻门户网站、电子商务网站、社交网络等。在这些应用上，普通大众可以表达对事物的主观倾向性观点，例如对新闻事件的评论，以及对所购买商品的喜好。目前，由用户生成的带有情感倾向性的文本数据以指数增长。通过挖掘这些海量数据，获取用户情感信息，对电子商务、商业智能、民意调查、舆情分析、情报分析、企业管理等至关重要，也为管理者提供强有力的决策支持。例如，商家可以通过这些信息获取消费者意见，更好地理解消费者的喜好与消费习惯，设计生产出更有针对性的产品；政府机构可以通过分析热点事件的舆情，为指定方针政策提供依据；而普通消费者则可以依据其他人的观点汇总作为其购买行为以及消费决策的重要参考。由于训练情感分析模型需要大量的标注了情感倾向性(或者情感极性)的文本数据。现有方法试图通过收集少量的情感词典并且赋予不同的情感强度，然后基于这些情感词的情感强度，计算整个文本的情感倾向性，即正面、负面、或者中立。这种方法严重依赖情感词库，并且情感词的情感强度依赖于所处自然语言的语境。现有的情感词库中并没有考虑修饰词对情感词语的修饰作用，例如，副词、否定词等。但是一般情况下动态情感词语会对形容词等情感词产生很大程度限定作用，甚至影响情感词的词性，如果不加以考虑，容易造成情感强度偏差，从而影响情感数据集的数据标注的准确性，进而影响对文本评论的结果。因此，...
基于大数据和深度学习的情感分析方法、装置和存储介质

【技术保护点】
一种情感分析方法，其特征在于，包括以下步骤：S1对具有初步标注信息的情感数据进行预处理；S2采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集；其中，S2采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集的步骤包括：S21对所述情感数据进行分词，提取所述情感数据中的情感词，为所述情感词分配情感强度值；S22提取所述情感数据中的修饰词，为所述修饰词分配修饰强度值；S23根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值；S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符，则将所述短语和所述短语的情感强度加入情感标注数据集。

【技术特征摘要】
1.一种情感分析方法，其特征在于，包括以下步骤：S1对具有初步标注信息的情感数据进行预处理；S2采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集；其中，S2采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集的步骤包括：S21对所述情感数据进行分词，提取所述情感数据中的情感词，为所述情感词分配情感强度值；S22提取所述情感数据中的修饰词，为所述修饰词分配修饰强度值；S23根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值；S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符，则将所述短语和所述短语的情感强度加入情感标注数据集。2.根据权利要求1所述的一种情感分析方法，其中，所述对具有初步标注信息的情感数据进行预处理的步骤包括：S11收集具有初步标注信息的情感数据；S12对所述情感数据进行去重处理；S13将去重后的情感数据的初步标注信息映射成情感极性；S14根据所述情感数据的情感极性和所述情感数据之间的匹配程度对所述情感数据进行过滤。3.根据权利要求1所述的一种情感分析方法，在S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性一致，则将所述短语和所述短语的情感强度加入情感标注数据集的步骤后还包括：S25如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性不一致，则对所述短语的情感强度值进行校正后，再将所述短语和所述短语的情感强度值加入情感标注数据集。4.根据权利要求1至3的任一项所述的一种情感分析方法，在S2采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集的步骤后还包括：S3利用所述情感标注数据集对所述情感数据的文本信息进行分析，学习词语义；S4利用深度学习模型分析情感数据的文本信息的语言结构，学习语法关系；S5利用不同粒度的情感数据对情感分析模型进行训练，得到统一的情感分析模型。5.根据权利要求4所述的一种情感分析方法，其中，所述S3利用情感标注数据集对所述情感数据的文本信息进行分析，学习词语义...

【专利技术属性】
技术研发人员：张家栋，杨学平，宁伟，
申请(专利权)人：广州简亦迅信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人