情感分析模型训练方法、情感分析方法及电子设备技术

技术编号:38812387 阅读:16 留言:0更新日期:2023-09-15 19:51
本发明专利技术提供一种情感分析模型训练方法、情感分析方法及电子设备,涉及文物艺术品技术领域,方法包括:获取艺术品交易舆情训练集;基于各第一样本艺术品交易舆情文本和标签数据,确定多个艺术品交易舆情文本句子对;构建艺术品领域情感分词器;基于艺术品领域情感分词器、各第一样本艺术品交易舆情文本和各艺术品交易舆情文本句子对,确定第一标识和第二标识;基于各第一标识和各第二标识,确定各第一样本艺术品交易舆情文本对应的第一分类向量和各第二样本艺术品交易舆情文本对应的第二分类向量;基于各第一分类向量和各第二分类向量,调整初始情感分析模型的模型参数,得到情感分析模型,提升情感分析结果的准确性及情感分析模型的分析效率。模型的分析效率。模型的分析效率。

【技术实现步骤摘要】
情感分析模型训练方法、情感分析方法及电子设备


[0001]本专利技术涉及文物艺术品
,尤其涉及一种情感分析模型训练方法、情感分析方法及电子设备。

技术介绍

[0002]全球文物艺术品交易舆情信息来源广泛、语言多样以及涉及的话题众多,这些信息具有不完整性、奇异性、海量性和动态性的特点,因此,针对文物艺术品交易舆情交易信息进行情感倾向性分析十分困难。
[0003]相关技术中,情感倾向分析在早年是通过情感词典进行匹配实现,近些年使用深度学习进行自然语义分析。在通用领域的舆情情感分析均使用多头注意力机制加神经网络,即直接在来自转换器的双向编码器表示(Bidirectional Encoder Representation from Transformers,BERT)模型上输入人工标注过的情感数据进行训练。在垂直领域的舆情情感分析是在通用领域的基础上,通过训练某一领域内数据获得词向量,对BERT模型的词嵌入(embedding)层进行了替换,再使用人工标注过的该领域内的情感数据进行训练得到该领域的情感分析模型。
[0004]然而,由于文物艺术品领域受行业的影响,存在大量行业“黑话”且不断在动态更新,且文物艺术品舆情数据中正向、中性文本比例远远高于负向文本,导致样本集类别文本分布极度不均衡,导致检测错误率均极高。

技术实现思路

[0005]本专利技术提供一种情感分析模型训练方法、情感分析方法及电子设备,用以解决现有技术中检测错误率均极高的问题。
[0006]本专利技术提供一种情感分析模型训练方法,包括:
[0007]获取艺术品交易舆情训练集;所述艺术品交易舆情训练集包括多个第一样本艺术品交易舆情文本和各所述第一样本艺术品交易舆情文本的标签数据;
[0008]基于各所述第一样本艺术品交易舆情文本和所述标签数据,确定多个艺术品交易舆情文本句子对;所述艺术品交易舆情文本句子对包括两个第二样本艺术品交易舆情文本;
[0009]构建艺术品领域情感分词器;
[0010]基于所述艺术品领域情感分词器、各所述第一样本艺术品交易舆情文本和各所述艺术品交易舆情文本句子对,确定各所述第一样本艺术品交易舆情文本中每个字对应的第一标识和各所述第二样本艺术品交易舆情文本中每个字对应的第二标识;
[0011]基于各所述第一标识和各所述第二标识,确定各所述第一样本艺术品交易舆情文本对应的第一分类向量和各所述第二样本艺术品交易舆情文本对应的第二分类向量;
[0012]基于各所述第一分类向量和各所述第二分类向量,调整初始情感分析模型的模型参数,得到情感分析模型。
[0013]根据本专利技术提供的一种情感分析模型训练方法,所述构建艺术品领域情感分词器,包括:
[0014]获取第一词表和目标信息;所述目标信息包括艺术品领域负面词及以下至少一项:表情符号;颜文字;网络情感用语;第一词表包括多个第一情感词和各所述第一情感词的标识;
[0015]基于所述目标信息,对所述第一词表进行替换,得到第二词表;所述第二词表包括多个第二情感词和各所述第二情感词的标识;
[0016]基于所述第二词表,确定艺术品领域情感分词器。
[0017]根据本专利技术提供的一种情感分析模型训练方法,所述基于所述艺术品领域情感分词器、各所述第一样本艺术品交易舆情文本和各所述艺术品交易舆情文本句子对,确定各所述第一样本艺术品交易舆情文本中每个字对应的第一标识和各所述第二样本艺术品交易舆情文本中每个字对应的第二标识,包括:
[0018]基于所述艺术品情感分词器,对各所述第一样本艺术品交易舆情文本中的每个字进行转换,得到各所述第一样本艺术品交易舆情文本中每个字对应的第一标识;
[0019]基于所述艺术品情感分词器,对各所述艺术品交易舆情文本句子对中每个第二样本艺术品交易舆情文本中的每个字进行转换,得到各所述第二样本艺术品交易舆情文本中每个字对应的第二标识。
[0020]根据本专利技术提供的一种情感分析模型训练方法,所述基于各所述第一标识和各所述第二标识,确定各所述第一样本艺术品交易舆情文本对应的第一分类向量和各所述第二样本艺术品交易舆情文本对应的第二分类向量,包括:
[0021]分别对各所述第一标识和各所述第二标识进行编码,得到各所述第一标识对应的第一词嵌入向量和各所述第二标识对应的第二词嵌入向量;
[0022]基于各所述第一词嵌入向量和各所述第二词嵌入向量,分别确定各所述第一样本艺术品交易舆情文本对应的第一分类向量和各所述第二样本艺术品交易舆情文本对应的第二分类向量。
[0023]根据本专利技术提供的一种情感分析模型训练方法,所述基于各所述第一分类向量和各所述第二分类向量,调整初始情感分析模型的模型参数,得到情感分析模型,包括:
[0024]基于各所述第二分类向量,对各所述第二分类向量进行转换,得到目标向量;
[0025]基于各所述目标向量和聚类算法,计算第一对比损失函数值;
[0026]基于各所述第一分类向量,确定聚类损失函数值;
[0027]基于所述第一对比损失函数值和所述聚类损失函数值,确定目标损失函数值;
[0028]基于所述目标损失函数值,调整所述初始情感分析模型的模型参数,得到情感分析模型。
[0029]根据本专利技术提供的一种情感分析模型训练方法,所述基于各所述目标向量,计算第一对比损失函数值,包括:
[0030]基于各所述目标向量,计算第二对比损失函数值;所述第二对比损失函数值用于将第三艺术品交易舆情文本从一批艺术品交易舆情文本句子对中分离;第三艺术品交易舆情文本表示艺术品交易舆情文本句子对中包括的两个第二样本艺术品交易舆情文本中的任一项;
[0031]基于所述第二对比损失函数值,计算第一对比损失函数值。
[0032]根据本专利技术提供的一种情感分析模型训练方法,所述基于各所述第一分类向量和聚类算法,确定聚类损失函数值,包括:
[0033]基于各所述第一分类向量和聚类算法,分别计算类别分布概率;所述类别分布概率表示将各所述第一样本艺术品交易舆情文本分配至第k个聚类簇的概率;k为正整数;
[0034]基于各所述类别分布概率和各所述第一分类向量在每一批第一艺术品交易舆情文本中对应的软分类概率,计算目标分布概率;
[0035]基于所述类别分布概率和所述目标分布概率,计算散度值;
[0036]基于所述散度值,确定聚类损失函数值。
[0037]根据本专利技术提供的一种情感分析模型训练方法,所述基于所述目标损失函数值,调整所述初始情感分析模型的模型参数,得到情感分析模型,包括:
[0038]在所述目标损失函数值不满足预设条件的情况下,调整所述初始情感分析模型的模型参数,并重复执行上述确定目标损失函数值的步骤;
[0039]在所述目标损失函数值满足预设条件的情况下,基于最终更新后的初始情感分析模型的模型参数,确定情感分析模型。
[0040]本专利技术还提供一种情感分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感分析模型训练方法,其特征在于,包括:获取艺术品交易舆情训练集;所述艺术品交易舆情训练集包括多个第一样本艺术品交易舆情文本和各所述第一样本艺术品交易舆情文本的标签数据;基于各所述第一样本艺术品交易舆情文本和所述标签数据,确定多个艺术品交易舆情文本句子对;所述艺术品交易舆情文本句子对包括两个第二样本艺术品交易舆情文本;构建艺术品领域情感分词器;基于所述艺术品领域情感分词器、各所述第一样本艺术品交易舆情文本和各所述艺术品交易舆情文本句子对,确定各所述第一样本艺术品交易舆情文本中每个字对应的第一标识和各所述第二样本艺术品交易舆情文本中每个字对应的第二标识;基于各所述第一标识和各所述第二标识,确定各所述第一样本艺术品交易舆情文本对应的第一分类向量和各所述第二样本艺术品交易舆情文本对应的第二分类向量;基于各所述第一分类向量和各所述第二分类向量,调整初始情感分析模型的模型参数,得到情感分析模型。2.根据权利要求1所述的情感分析模型训练方法,其特征在于,所述构建艺术品领域情感分词器,包括:获取第一词表和目标信息;所述目标信息包括艺术品领域负面词及以下至少一项:表情符号;颜文字;网络情感用语;第一词表包括多个第一情感词和各所述第一情感词的标识;基于所述目标信息,对所述第一词表进行替换,得到第二词表;所述第二词表包括多个第二情感词和各所述第二情感词的标识;基于所述第二词表,确定艺术品领域情感分词器。3.根据权利要求1所述的情感分析模型训练方法,其特征在于,所述基于所述艺术品领域情感分词器、各所述第一样本艺术品交易舆情文本和各所述艺术品交易舆情文本句子对,确定各所述第一样本艺术品交易舆情文本中每个字对应的第一标识和各所述第二样本艺术品交易舆情文本中每个字对应的第二标识,包括:基于所述艺术品情感分词器,对各所述第一样本艺术品交易舆情文本中的每个字进行转换,得到各所述第一样本艺术品交易舆情文本中每个字对应的第一标识;基于所述艺术品情感分词器,对各所述艺术品交易舆情文本句子对中每个第二样本艺术品交易舆情文本中的每个字进行转换,得到各所述第二样本艺术品交易舆情文本中每个字对应的第二标识。4.根据权利要求1所述的情感分析模型训练方法,其特征在于,所述基于各所述第一标识和各所述第二标识,确定各所述第一样本艺术品交易舆情文本对应的第一分类向量和各所述第二样本艺术品交易舆情文本对应的第二分类向量,包括:分别对各所述第一标识和各所述第二标识进行编码,得到各所述第一标识对应的第一词嵌入向量和各所述第二标识对应的第二词嵌入向量;基于各所述第一词嵌入向量和各所述第二词嵌入向量,分别确定各所述第一样本艺术品交易舆情文本对应的第一分类向量和各所述第...

【专利技术属性】
技术研发人员:蒋齐琛贺宜衡卫薇祁煜琨金东伟周以重张荣浩
申请(专利权)人:易元数字北京科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1