正负面情感分析方法、装置、设备及存储介质制造方法及图纸

技术编号:38616582 阅读:15 留言:0更新日期:2023-08-26 23:44
本发明专利技术涉及一种正负面情感分析方法、装置、设备及存储介质,属于舆情分析技术领域。该方法、装置、设备及存储介质通过预先构建实体识别词库和领域主题词库,从而实现自动对待分析数据中的主题词和实体词的提取,将先验知识与主题词和实体词进行对应,将待分析数据转换为模型输入格式待分析数据,并输入到预先构建的正负面情感分析模型中,得到待分析数据的正负面情感概率值,其中,对实体词和领域内的主题词的自动提取,避免了人工需要逐一词汇进行标注的技术问题,解放了大部分人工标注的工作,节约了人力和时间,而引入了专业领域的主题词的先验知识,进一步提升了模型的语义理解能力。能力。能力。

【技术实现步骤摘要】
正负面情感分析方法、装置、设备及存储介质


[0001]本专利技术涉及舆情分析
,具体涉及一种正负面情感分析方法、装置、设备及存储介质。

技术介绍

[0002]识别舆情的正负面倾向,是舆情分析平台对舆情进行整理分析的重要一环。针对不同领域,不同主体、不同行业对应的立场不同,因此进行的正负面计算也不相同,这就使得单一的模型一般无法解决所有行业问题。
[0003]相关技术中,通常在bert预训练模型的基础上进行微调,做文本分类训练,以进行不同舆情文本的正负面倾向分类。但是,对于不同的领域,需要不同的技术人员进行人工标注,耗费人力;且,当标注人员专业技能欠缺时,还会存在标注错误的现象,从而导致最终分类模型的准确度较差。
[0004]因此,相关技术中存在专有领域情感正负面计算准确度较差、耗费人力的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种正负面情感分析方法、装置、设备及存储介质,以克服目前专有领域情感正负面计算准确度较差、耗费人力的技术问题。
[0006]为实现以上目的,本专利技术采用如下技术方案:
[0007]一方面,一种正负面情感分析方法,包括:
[0008]获取待分析数据,基于预先设置的实体识别词库、每个领域的主题词库,提取所述待分析数据中的实体词和主题词;
[0009]根据预先设置的先验知识、所述待分析数据中的实体词和主题词,得到领域主题特征,将所述待分析数据转换为模型输入格式待分析数据;
[0010]将所述模型输入格式待分析数据输入预先构建的正负面情感分析模型中,得到所述待分析数据的正负面情感概率值;其中,所述预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到,所述正负面情感标签是根据样本数据预先确定的,并与所述样本数据一一对应。
[0011]可选的,所述实体识别词库包括实体词和每个实体词的概念分类;其中所述概念分类根据先验知识进行分类;所述实体识别词库的构建方法,包括:
[0012]识别实体词数据集中的实体词,构建初级实体词库;其中,所述实体词数据集为根据海量数据集进行构建;
[0013]对所述初级实体词库中的实体词进行去重处理,得到去重后初级实体词库;
[0014]根据先验知识,对所述去重后初级实体词库中的实体词进行概念分类;
[0015]将去重后初级实体词库中的实体词和对应的概念分类,作为实体识别词库。
[0016]可选的,所述每个领域的主题词库的构建方法,包括:
[0017]对领域数据集中的数据根据结巴分词法进行分词,得到不同分词;其中,所述领域数据集为根据领域收集的海量数据进行构建;所述分词包括主题词;
[0018]通过逆文档频率计算每个分词的重要度权重;
[0019]基于每个分词的重要度权重,根据逐点互信息方法,计算主题词和主题词之间的牢固度;
[0020]根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重;其中,所述主题词串为根据具备不同牢固度的主题词和主题词构成;
[0021]通过不同的主题词串及对应的新重要度权重,构建所述领域的主题词库;其中,主题词库中的每个主题词均为主题词串。
[0022]可选的,所述通过不同的主题词串及对应的新重要度权重,构建所述领域的主题词库,包括:
[0023]根据新重要度权重的高低顺序对对应的主题词串进行排序;
[0024]确定新重要度权重在排序的前预设范围的主题词串或新重要度权重大于预设阈值的主题词串为该领域的主题词串,构建该领域的主题词库。
[0025]可选的,所述根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重,包括:
[0026]计算具备牢固度的对应的所有主题词的重要度权重的和;
[0027]计算所述和与对应的所述主题词和主题词之间的牢固度的乘积,将所述乘积作为所述新重要度权重。
[0028]可选的,所述正负面情感分析模型的构建方法,包括:
[0029]在样本集中获取样本数据,所述样本集中的样本均设置情感正负面标签;其中,样本集中的样本数据为通过领域关键词,收集获取;
[0030]基于预先设置的实体识别词库、每个领域的主题词库,提取所述样本数据中的实体词和主题词;
[0031]根据预先设置的先验知识、所述样本数据中的实体词和主题词,得到领域主题特征,将所述样本数据转换为模型输入格式样本数据;
[0032]将模型输入格式的样本数据输入至bert模型中,得到句向量和字级别向量序列;其中,所述子级别向量序列中包括多个字级别向量;
[0033]仅保留领域主题特征,计算平均池化,得到第一特征向量;
[0034]仅保留除所述领域主题特征之外的特征,计算池化,得到第二特征向量;
[0035]计算所述第一特征向量和第二特征向量的差值;
[0036]拼接所述句向量、第一特征向量、第二特征向量、差值,得到最终特征,将所述最终特征输入到全连接层,所述全连接层与输出层相连;
[0037]计算损失函数,对模型进行训练,得到正负面情感分析模型。
[0038]可选的,还包括:
[0039]在所述输出层,利用softmax分类器对全连接层输出的特征分类的结果进行情感分析得到情感分析结果。
[0040]又一方面,一种正负面情感分析装置,包括:
[0041]获取模块,用于获取待分析数据,基于预先设置的实体识别词库、每个领域的主题词库,提取所述待分析数据中的实体词和主题词;
[0042]转换模块,用于根据预先设置的先验知识、所述待分析数据中的实体词和主题词,得到领域主题特征,将所述待分析数据转换为模型输入格式待分析数据;
[0043]分析模块,用于将所述模型输入格式待分析数据输入预先构建的正负面情感分析模型中,得到所述待分析数据的正负面情感概率值;其中,所述预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到,所述正负面情感标签是根据样本数据预先确定的,并与所述样本数据一一对应。
[0044]又一方面,一种正负面情感分析设备,包括:处理器和存储器,所述处理器与存储器相连:
[0045]其中,所述处理器,用于调用并执行所述存储器中存储的程序;
[0046]所述存储器,用于存储所述程序,所述程序至少用于执行上述任一项所述的正负面情感分析方法。
[0047]又一方面,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述中任一项所述的正负面情感分析方法。
[0048]本专利技术提供的技术方案至少具备如下有益效果:
[0049]通过预先构建实体识别词库和领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种正负面情感分析方法,其特征在于,包括:获取待分析数据,基于预先设置的实体识别词库、每个领域的主题词库,提取所述待分析数据中的实体词和主题词;根据预先设置的先验知识、所述待分析数据中的实体词和主题词,得到领域主题特征,将所述待分析数据转换为模型输入格式待分析数据;将所述模型输入格式待分析数据输入预先构建的正负面情感分析模型中,得到所述待分析数据的正负面情感概率值;其中,所述预先构建的正负面情感分析模型是基于模型输入格式样本数据及对应的正负面情感标签进行训练后得到,所述正负面情感标签是根据样本数据预先确定的,并与所述样本数据一一对应。2.根据权利要求1所述的方法,其特征在于,所述实体识别词库包括实体词和每个实体词的概念分类;其中所述概念分类根据先验知识进行分类;所述实体识别词库的构建方法,包括:识别实体词数据集中的实体词,构建初级实体词库;其中,所述实体词数据集为根据海量数据集进行构建;对所述初级实体词库中的实体词进行去重处理,得到去重后初级实体词库;根据先验知识,对所述去重后初级实体词库中的实体词进行概念分类;将去重后初级实体词库中的实体词和对应的概念分类,作为实体识别词库。3.根据权利要求1所述的方法,其特征在于,所述每个领域的主题词库的构建方法,包括:对领域数据集中的数据根据结巴分词法进行分词,得到不同分词;其中,所述领域数据集为根据领域收集的海量数据进行构建;所述分词包括主题词;通过逆文档频率计算每个分词的重要度权重;基于每个分词的重要度权重,根据逐点互信息方法,计算主题词和主题词之间的牢固度;根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重;其中,所述主题词串为根据具备不同牢固度的主题词和主题词构成;通过不同的主题词串及对应的新重要度权重,构建所述领域的主题词库;其中,主题词库中的每个主题词均为主题词串。4.根据权利要求3所述的方法,其特征在于,所述通过不同的主题词串及对应的新重要度权重,构建所述领域的主题词库,包括:根据新重要度权重的高低顺序对对应的主题词串进行排序;确定新重要度权重在排序的前预设范围的主题词串或新重要度权重大于预设阈值的主题词串为该领域的主题词串,构建该领域的主题词库。5.根据权利要求3所述的方法,其特征在于,所述根据所述主题词和主题词之间的牢固度、对应主题词的重要度权重,计算得到不同主题词和主题词组成的新重要度权重,作为不同主题词串的新重要度权重,包括:计算具备牢固度的对应...

【专利技术属性】
技术研发人员:韩勇李青龙骆飞赵冲
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1