正负面情感分析方法、装置、设备及存储介质制造方法及图纸

技术编号：38616582 阅读：15 留言：0更新日期：2023-08-26 23:44

本发明专利技术涉及一种正负面情感分析方法、装置、设备及存储介质，属于舆情分析技术领域。该方法、装置、设备及存储介质通过预先构建实体识别词库和领域主题词库，从而实现自动对待分析数据中的主题词和实体词的提取，将先验知识与主题词和实体词进行对应，将待分析数据转换为模型输入格式待分析数据，并输入到预先构建的正负面情感分析模型中，得到待分析数据的正负面情感概率值，其中，对实体词和领域内的主题词的自动提取，避免了人工需要逐一词汇进行标注的技术问题，解放了大部分人工标注的工作，节约了人力和时间，而引入了专业领域的主题词的先验知识，进一步提升了模型的语义理解能力。能力。能力。

全部详细技术资料下载

【技术实现步骤摘要】
正负面情感分析方法、装置、设备及存储介质

[0001]本专利技术涉及舆情分析
，具体涉及一种正负面情感分析方法、装置、设备及存储介质。

技术介绍

[0002]识别舆情的正负面倾向，是舆情分析平台对舆情进行整理分析的重要一环。针对不同领域，不同主体、不同行业对应的立场不同，因此进行的正负面计算也不相同，这就使得单一的模型一般无法解决所有行业问题。
[0003]相关技术中，通常在bert预训练模型的基础上进行微调，做文本分类训练，以进行不同舆情文本的正负面倾向分类。但是，对于不同的领域，需要不同的技术人员进行人工标注，耗费人力；且，当标注人员专业技能欠缺时，还会存在标注错误的现象，从而导致最终分类模型的准确度较差。
[0004]因此，相关技术中存在专有领域情感正负面计算准确度较差、耗费人力的技术问题。

技术实现思路

[0005]有鉴于此，本专利技术的目的在于提供一种正负面情感分析方法、装置、设备及存储介质，以克服目前专有领域情感正负面计算准确度较差、耗费人力的技术问题。
[0006]为实现以上目的，本专利技术采用如下技术方案：
[0007]一方面，一种正负面情感分析方法，包括：
[0008]获取待分析数据，基于预先设置的实体识别词库、每个领域的主题词库，提取所述待分析数据中的实体词和主题词；
[0009]根据预先设置的先验知识、所述待分析数据中的实体词和主题词，得到领域主题特征，将所述待分析数据转换为模型输入格式待分析数据；
[0010]将所述...

【技术保护点】

【技术特征摘要】
1.一种正负面情感分析方法，其特征在于，包括：获取待分析数据，基于预先设置的实体识别词库、每个领域的主题词库，提取所述待分析数据中的实体词和主题词；根据预先设置的先验知识、所述待分析数据中的实体词和主题词，得到领域主题特征，将所述待分析数据转换为模型输入格式待分析数据；将所述模型输入格式待分析数据输入预先构建的正负面情感分析模型中，得到所述待分析数据的正负面情感概率值；其中，所述预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到，所述正负面情感标签是根据样本数据预先确定的，并与所述样本数据一一对应。2.根据权利要求1所述的方法，其特征在于，所述实体识别词库包括实体词和每个实体词的概念分类；其中所述概念分类根据先验知识进行分类；所述实体识别词库的构建方法，包括：识别实体词数据集中的实体词，构建初级实体词库；其中，所述实体词数据集为根据海量数据集进行构建；对所述初级实体词库中的实体词进行去重处理，得到去重后初级实体词库；根据先验知识，对所述去重后初级实体词库中的实体词进行概念分类；将去重后初级实体词库中的实体词和对应的概念分类，作为实体识别词库。3.根据权利要求1所述的方法，其特征在于，所述每个领域的主题词库的构建方法，包括：对领域数据集中的数据根据结巴分词法进行分词，得到不同分词；其中，所述领域数据集为根据领域收集的海量数据进行构建；所述分词包括主题词；通过逆文档频率计算每个分词的重要度权重；基于每个分词的重要度权重，根据逐点互信息方法，计算主题词和主题词之间的牢固度；根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重，计算得到不同主题词和主题词组成的新重要度权重，作为不同主题词串的新重要度权重；其中，所述主题词串为根据具备不同牢固度的主题词和主题词构成；通过不同的主题词串及对应的新重要度权重，构建所述领域的主题词库；其中，主题词库中的每个主题词均为主题词串。4.根据权利要求3所述的方法，其特征在于，所述通过不同的主题词串及对应的新重要度权重，构建所述领域的主题词库，包括：根据新重要度权重的高低顺序对对应的主题词串进行排序；确定新重要度权重在排序的前预设范围的主题词串或新重要度权重大于预设阈值的主题词串为该领域的主题词串，构建该领域的主题词库。5.根据权利要求3所述的方法，其特征在于，所述根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重，计算得到不同主题词和主题词组成的新重要度权重，作为不同主题词串的新重要度权重，包括：计算具备牢固度的对应...

【专利技术属性】
技术研发人员：韩勇，李青龙，骆飞，赵冲，
申请(专利权)人：北京智慧星光信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人