【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质
[0001]本申请涉及自然语言处理
,具体涉及一种文本处理方法、装置、电子设备及存储介质。
技术介绍
[0002]随着终端移动设备的智能化和交互技术的高速发展,使得人们的在线交流沟通更加高效与频繁,人们越来越习惯通过互联网来表达自己的所思所想,发表自己的观点,例如在短视频平台下发表自己的看法及态度,表达自己的心情,如何从互联网中的文本信息中分析出信息发布者的情感倾向,是自然语言处理
的重要内容之一。
[0003]现有的技术主要是通过对业务相关的评论文本进行情感分析,然而,仅从文本特征角度分析,导致情感分析的特征维度较为单一,不能准确定位语境信息,进而造成情感分类识别的准确率不高。
技术实现思路
[0004]有鉴于此,本申请提供了一种文本处理方法、装置、电子设备及存储介质,能够在情感分类过程中,从多个特征维度进行情感预测分析,从而可准确定位语境信息,提升情感分类识别的准确率。
[0005]根据本公开的第一个方面,提供了一种文本处理方法,包括:
[0006]获取待进行情感分类的目标文本;
[0007]提取所述目标文本中热点话题对应的话题文本,所述话题文本中包含字符文本以及表情文本;
[0008]将所述话题文本输入预设语言模型,得到所述字符文本的第一特征向量,以及所述表情文本的第二特征向量;
[0009]将所述第一特征向量和所述第二特征向量的拼接向量输入预设情感分类模型,得到所述目标文本中所述热点话题对应的情 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待进行情感分类的目标文本;提取所述目标文本中热点话题对应的话题文本,所述话题文本中包含字符文本以及表情文本;将所述话题文本输入预设语言模型,得到所述字符文本的第一特征向量,以及所述表情文本的第二特征向量;将所述第一特征向量和所述第二特征向量的拼接向量输入预设情感分类模型,得到所述目标文本中所述热点话题对应的情感分类结果,其中,所述预设情感分类模型用于根据所述拼接向量确定所述话题文本对应不同情感极性的预测分值,将最高所述预设分值对应的情感极性确定为所述热点话题的情感分类结果,所述情感极性用于表征作者对所述热点话题的情感倾向。2.根据权利要求1所述的方法,其特征在于,所述提取所述目标文本中热点话题对应的话题文本,包括:确定所述目标文本中包含的文本话题,所述目标文本包括多个发帖文本和多个评论文本;统计所述目标文本中针对每个所述文本话题的发帖文本数量和评论文本数量;确定所述发帖文本对于文本话题确定的第一影响权重和所述评论文本对于文本话题确定的第二影响权重,所述第一影响权重大于所述第二影响权重,所述第一影响权重和所述第二影响权重的加和为1;将每个所述文本话题的发帖文本数量和评论文本数量,以及所述第一影响权重和所述第二影响权重代入预设话题声量计算方程,计算每个所述文本话题的话题声量,其中,所述预设话题声量计算方程用于计算发帖文本量化指标和评论文本量化指标的累加值,将所述累加值确定为话题声量,所述发帖文本量化指标为所述发帖文本数量和所述第一影响权重的乘积,所述评论文本量化指标为所述评论文本数量和所述第二影响权重的乘积,所述话题声量用于表征话题讨论热度;将对应所述话题声量处于预设声量范围内的文本话题确定为热点话题;在所述目标文本中提取所述热点话题对应的话题文本。3.根据权利要求2所述的方法,其特征在于,所述在所述目标文本中提取所述热点话题对应的话题文本,包括:确定所述热点话题对应的热点话题关键词;计算所述热点话题关键词与所述多个发帖文本中每个发帖文本的第一语义特征相似度,将对应所述第一语义特征相似度大于预设相似度阈值的发帖文本确定为第一话题文本;计算所述热点话题关键词与所述多个评论文本中每个评论文本的第二语义特征相似度,将对应所述第二语义特征相似度大于预设相似度阈值的评论文本确定为第二话题文本;确定所述第一话题文本和所述第二话题文本为所述热点话题对应的话题文本。4.根据权利要求1所述的方法,其特征在于,所述将所述话题文本输入预设语言模型,得到所述字符文本的第一特征向量,以及所述表情文本的第二特征向量,包括:
对所述话题文本中的所述字符文本和所述表情文本分别单独进行标签遮盖处理;将遮盖所述字符文本后的话题文本输入预设语言模型,得到所述字符文本的第一特征向量;将遮盖所述表情文本后的话题文本输入预设语言模型,得到所述表情文本的第二特征向量。5.根据权利要求4所述的方法,...
【专利技术属性】
技术研发人员:黄海涛,
申请(专利权)人:北京罗克维尔斯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。