情感分类方法及装置制造方法及图纸

技术编号:35426143 阅读:26 留言:0更新日期:2022-11-03 11:28
本公开是关于一种情感分类方法及装置,涉及自然语言处理技术领域,该方法包括:提取包含字符文本以及表情文本的评论文本数据;将评论文本数据输入预设语言模型,得到字符文本的第一特征向量和表情文本的第二特征向量,预设语言模型为利用未标注的第一样本评论文本数据进行预训练,利用标注标签的第二样本评论文本数据进行微调得到的语言表征模型;根据预设情感词典对第一特征向量进行情感增强处理,得到字符文本的第三特征向量;将第三特征向量和第二特征向量的拼接特征向量,输入预设语言模型中的全连接层,得到评论文本数据对应的情感分类结果。能够在情感分类过程中,减少对标注数据的依赖,并从多个特征维度进行情感预测,提升预测的准确率。提升预测的准确率。提升预测的准确率。

【技术实现步骤摘要】
情感分类方法及装置


[0001]本公开涉及自然语言处理
,尤其涉及一种情感分类方法及装置。

技术介绍

[0002]随着终端移动设备的智能化和交互技术的高速发展,使得人们的在线交流沟通更加高效与频繁,人们越来越习惯通过互联网来表达自己的所思所想,发表自己的观点,例如在短视频平台下发表自己的看法及态度,表达自己的心情,如何从互联网中的文本信息中分析出信息发布者的情感倾向,是自然语言处理
的重要内容之一。
[0003]当前,文本情感分析方法主要有基于情感词典的情感分析方法、基于传统机器学习的情感分析方法。基于情感词典的情感分析方法,主要依赖情感词典的构建,在信息爆炸的今天,各种网络流行语、谐音语、双关语等新词语层出不穷,这就要求情感词典不断扩充才能保证分析的正确率;而基于传统机器学习的情感分析方法,往往过度依赖文本情感特征的提取以及分类器的设计。在此种技术实现下,仅从文本特征角度分析,导致情感分析的特征维度较为单一,不能准确定位语境信息,进而造成情感分类预测的准确率不高。

技术实现思路

[0004]本公开提供一种情感分类方法及装置,能够在情感分类过程中,从多个特征维度进行情感预测分析,并对文本特征进行情感增强处理,从而可准确定位语境信息,提升情感分类的预测准确率。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种情感分类方法,包括:
[0006]提取包含字符文本以及表情文本的评论文本数据;
[0007]将所述评论文本数据输入预设语言模型,得到所述字符文本的第一特征向量和所述表情文本的第二特征向量,其中,所述预设语言模型为利用未标注任务标签的第一样本评论文本数据进行预训练,以及利用标注任务标签的第二样本评论文本数据进行微调得到的语言表征模型;
[0008]根据预设情感词典对所述第一特征向量进行情感增强处理,得到所述字符文本的第三特征向量;
[0009]将所述第三特征向量和所述第二特征向量的拼接特征向量,输入所述预设语言模型中的全连接层,得到所述评论文本数据对应的情感分类结果。
[0010]在本公开的一些实施例中,所述提取包含字符文本以及表情文本的评论文本数据,包括:
[0011]获取包含初始字符文本以及至少一个初始表情文本的初始评论文本数据;
[0012]对所述初始评论文本数据进行预处理,得到所述包含字符文本以及表情文本的评论文本数据;
[0013]其中,所述预处理包括:在所述初始字符文本中滤除无意义文本,以及保留所述至少一个初始表情文本中符合预设条件的初始表情文本。
[0014]在本公开的一些实施例中,所述保留所述至少一个初始表情文本中符合预设条件的初始表情文本之前,还包括:
[0015]统计所述至少一个初始表情文本中每个初始表情文本在所述初始评论文本数据中的累计出现次数,以及获取所述每个初始表情文本的情感属性值;
[0016]基于所述累计出现次数和所述情感属性值中的至少一个指标,从所述至少一个初始表情文本中确定出符合所述预设条件的初始表情文本。
[0017]在本公开的一些实施例中,所述将所述评论文本数据输入预设语言模型,得到所述字符文本的第一特征向量和所述表情文本的第二特征向量,包括:
[0018]对所述评论文本数据中的所述字符文本和所述表情文本分别单独进行遮盖处理;
[0019]将遮盖所述字符文本后的评论文本数据输入预设语言模型,得到所述字符文本的第一特征向量;
[0020]将遮盖所述表情文本后的评论文本数据输入预设语言模型,得到所述表情文本的第二特征向量。
[0021]在本公开的一些实施例中,所述第一特征向量包含所述字符文本中各个字符对应的字符向量;
[0022]所述根据预设情感词典对所述第一特征向量进行情感增强处理,得到所述字符文本的第三特征向量,包括:
[0023]对所述第一特征向量中的各个字符向量进行线性组合处理,得到多个文本片段的空间向量;
[0024]根据所述预设情感词典确定各个文本片段的最终权重值,根据所述各个文本片段的最终权重值,对所述多个文本片段的空间向量进行加权处理,得到所述字符文本的第三特征向量。
[0025]在本公开的一些实施例中,所述根据所述预设情感词典确定各个文本片段的最终权重值,包括:
[0026]确定各个文本片段的初始权重值;
[0027]针对每个文本片段,获取所述文本片段与所述预设情感词典的匹配结果,并根据所述匹配结果对所述初始权重值进行增权处理,得到所述各个文本片段的最终权重值。
[0028]在本公开的一些实施例中,所述预设语言模型中的全连接层包含有预设数量个层级节点,每个层级节点表示一种情感极性;
[0029]所述将所述第三特征向量和所述第二特征向量的拼接特征向量,输入所述预设语言模型中的全连接层,得到所述评论文本数据对应的情感分类结果,包括:
[0030]将所述第三特征向量和所述第二特征向量的拼接特征向量,输入所述预设语言模型中的全连接层,获取各个层级节点对应的预测分值;
[0031]从各个层级节点表示的情感极性中,确定出对应的预测分值最高的情感极性;
[0032]将所述对应的预测分值最高的情感极性,确定为所述评论文本数据的情感分类结果。
[0033]在本公开的一些实施例中,所述在将所述评论文本数据输入预设语言模型,得到所述字符文本的第一特征向量和所述表情文本的第二特征向量之前,所述方法还包括:
[0034]获取未标注任务标签的第一样本评论文本数据以及标注任务标签的第二样本评
论文本数据;
[0035]利用预处理后的第一样本评论文本数据预训练初始语言表征模型;
[0036]当所述初始语言表征模型预训练完成时,利用预处理后的第二样本评论文本数据对所述初始语言表征模型进行微调处理,得到所述预设语言模型。
[0037]在本公开的一些实施例中,所述利用预处理后的第一样本评论文本数据预训练初始语言表征模型,包括:
[0038]对预处理后的第一样本评论文本数据进行分词处理,得到样本文本序列;
[0039]通过对所述样本文本序列进行随机遮盖训练,更新初始语言表征模型的模型参数,并计算损失值;
[0040]当所述损失值达到模型收敛要求时,判定所述初始语言表征模型预训练完成。
[0041]在本公开的一些实施例中,所述第二样本评论文本数据中配置有遮盖区域,所述任务标签用于标注所述遮盖区域对应的字符文本特征或表情文本特征;
[0042]当所述初始语言表征模型预训练完成时,利用预处理后的第二样本评论文本数据对所述初始语言表征模型进行微调处理,得到预设语言模型,包括:
[0043]将所述第二样本评论文本数据输入预训练完成的初始语言表征模型,获取所述遮盖区域的特征预测结果;
[0044]若基于所述任务标签判断所述特征预测结果的正确率大于预设阈值,则将所述初始语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感分类方法,其特征在于,包括:提取包含字符文本以及表情文本的评论文本数据;将所述评论文本数据输入预设语言模型,得到所述字符文本的第一特征向量和所述表情文本的第二特征向量,其中,所述预设语言模型为利用未标注任务标签的第一样本评论文本数据进行预训练,以及利用标注任务标签的第二样本评论文本数据进行微调得到的语言表征模型;根据预设情感词典对所述第一特征向量进行情感增强处理,得到所述字符文本的第三特征向量;将所述第三特征向量和所述第二特征向量的拼接特征向量,输入所述预设语言模型中的全连接层,得到所述评论文本数据对应的情感分类结果。2.根据权利要求1所述的方法,其特征在于,所述提取包含字符文本以及表情文本的评论文本数据,包括:获取包含初始字符文本以及至少一个初始表情文本的初始评论文本数据;对所述初始评论文本数据进行预处理,得到所述包含字符文本以及表情文本的评论文本数据;其中,所述预处理包括:在所述初始字符文本中滤除无意义文本,以及保留所述至少一个初始表情文本中符合预设条件的初始表情文本。3.根据权利要求2所述的方法,其特征在于,所述保留所述至少一个初始表情文本中符合预设条件的初始表情文本之前,还包括:统计所述至少一个初始表情文本中每个初始表情文本在所述初始评论文本数据中的累计出现次数,以及获取所述每个初始表情文本的情感属性值;基于所述累计出现次数和所述情感属性值中的至少一个指标,从所述至少一个初始表情文本中确定出符合所述预设条件的初始表情文本。4.根据权利要求1所述的方法,其特征在于,所述将所述评论文本数据输入预设语言模型,得到所述字符文本的第一特征向量和所述表情文本的第二特征向量,包括:对所述评论文本数据中的所述字符文本和所述表情文本分别单独进行遮盖处理;将遮盖所述字符文本后的评论文本数据输入预设语言模型,得到所述字符文本的第一特征向量;将遮盖所述表情文本后的评论文本数据输入预设语言模型,得到所述表情文本的第二特征向量。5.根据权利要求1所述的方法,其特征在于,所述第一特征向量包含所述字符文本中各个字符对应的字符向量;所述根据预设情感词典对所述第一特征向量进行情感增强处理,得到所述字符文本的第三特征向量,包括:对所述第一特征向量中的各个字符向量进行线性组合处理,得到多个文本片段的空间向量;根据所述预设情感词典确定各个文本片段的最终权重值,根据所述各个文本片段的最终权重值,对所述多个文本片段的空间向量进行加权处理,得到所述字符文本的第三特征向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述预设情感词典确定各个文本片段的最终权重值,包括:确定各个文本片段的初始权重值;针对每个文本片段,获取所述文本片段与所述预设情感词典的匹配结果,并根据所述匹配结果对所述初始权重值进行增权处理,得到所述各个文本片段的最终权重值。7.根据权利要求1所述的方法,其特征在于,所述预设语言模型中的全连接层包含有预设数量个层级节点,每个层级节点表示一种情感极性;所述将所述第三特征向量和所述第二特征向量的拼接特征向量,输入所述预设语言模型中的全连接层,得到所述评论文本数据对应的情感...

【专利技术属性】
技术研发人员:马延振
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1