文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39137830 阅读:9 留言:0更新日期:2023-10-23 14:53
本申请涉及一种文本处理方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,包括:获取待进行情感分类的目标文本;提取所述目标文本中热点话题对应的话题文本,所述话题文本中包含字符文本以及表情文本;将所述话题文本输入预设语言模型,得到所述字符文本的第一特征向量,以及所述表情文本的第二特征向量;将所述第一特征向量和所述第二特征向量的拼接向量输入预设情感分类模型,得到所述目标文本中所述热点话题对应的情感分类结果。本方案可以在情感分类过程中,从多个特征维度进行情感预测分析,从而可准确定位语境信息,提升情感分类识别的准确率。情感分类识别的准确率。情感分类识别的准确率。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理
,具体涉及一种文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着终端移动设备的智能化和交互技术的高速发展,使得人们的在线交流沟通更加高效与频繁,人们越来越习惯通过互联网来表达自己的所思所想,发表自己的观点,例如在短视频平台下发表自己的看法及态度,表达自己的心情,如何从互联网中的文本信息中分析出信息发布者的情感倾向,是自然语言处理
的重要内容之一。
[0003]现有的技术主要是通过对业务相关的评论文本进行情感分析,然而,仅从文本特征角度分析,导致情感分析的特征维度较为单一,不能准确定位语境信息,进而造成情感分类识别的准确率不高。

技术实现思路

[0004]有鉴于此,本申请提供了一种文本处理方法、装置、电子设备及存储介质,能够在情感分类过程中,从多个特征维度进行情感预测分析,从而可准确定位语境信息,提升情感分类识别的准确率。
[0005]根据本公开的第一个方面,提供了一种文本处理方法,包括:
[0006]获取待进行情感分类的目标文本;
[0007]提取所述目标文本中热点话题对应的话题文本,所述话题文本中包含字符文本以及表情文本;
[0008]将所述话题文本输入预设语言模型,得到所述字符文本的第一特征向量,以及所述表情文本的第二特征向量;
[0009]将所述第一特征向量和所述第二特征向量的拼接向量输入预设情感分类模型,得到所述目标文本中所述热点话题对应的情感分类结果,其中,所述预设情感分类模型用于根据所述拼接向量确定所述话题文本对应不同情感极性的预测分值,将最高所述预设分值对应的情感极性确定为所述热点话题的情感分类结果,所述情感极性用于表征作者对所述热点话题的情感倾向。
[0010]根据本公开的第二个方面,提供了一种文本处理装置,包括:
[0011]获取模块,用于获取待进行情感分类的目标文本;
[0012]提取模块,用于提取所述目标文本中热点话题对应的话题文本,所述话题文本中包含字符文本以及表情文本;
[0013]第一确定模块,用于将所述话题文本输入预设语言模型,得到所述字符文本的第一特征向量,以及所述表情文本的第二特征向量;
[0014]第二确定模块,用于将所述第一特征向量和所述第二特征向量的拼接向量输入预设情感分类模型,得到所述目标文本中所述热点话题对应的情感分类结果,其中,所述预设
情感分类模型用于根据所述拼接向量确定所述话题文本对应不同情感极性的预测分值,将最高所述预设分值对应的情感极性确定为所述热点话题的情感分类结果,所述情感极性用于表征作者对所述热点话题的情感倾向。
[0015]根据本公开的第三个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前述第一方面的方法。
[0016]根据本公开的第四个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行前述第一方面的方法。
[0017]根据本公开的第五个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如前述第一方面的方法。
[0018]本公开提供的文本处理方法、装置、电子设备及存储介质,可首先获取待进行情感分类的目标文本,进而在目标文本中提取热点话题对应的话题文本,其中,话题文本中包含字符文本以及表情文本;之后可将话题文本输入预设语言模型,得到字符文本的第一特征向量,以及表情文本的第二特征向量;最后将第一特征向量和第二特征向量的拼接向量输入预设情感分类模型,以使预设情感分类模型根据所述拼接向量确定所述话题文本对应不同情感极性的预测分值,将最高所述预设分值对应的情感极性确定为所述热点话题的情感分类结果。本公开中的技术方案,在进行情感分类过程中,在基于字符文本之外,还引入表情文本这一特征维度,利用字符文本和表情文本综合进行情感分类结果的预测,可增强情感识别能力,便于精准定位语境信息,提升情感分类识别的准确率。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。应当理解的是,附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0020]图1为本公开实施例所提供的一种文本处理方法的流程示意图;
[0021]图2为本公开另一实施例所提供的一种文本处理方法的流程示意图;
[0022]图3为本公开实施例所提供的一种文本处理装置的结构示意图;
[0023]图4为本公开另一实施例所提供的一种文本处理装置的结构示意图。
具体实施方式
[0024]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0025]下面参考附图描述本公开实施例的文本处理方法、装置、电子设备及存储介质。
[0026]相关技术中,主要是通过对业务相关的评论文本进行情感分析,然而,仅从文本特征角度分析,导致情感分析的特征维度较为单一,不能准确定位语境信息,进而造成情感分类识别的准确率不高。
[0027]为进行上述技术问题的解决,本公开提供一种文本处理方法、装置、电子设备及存
储介质。如图1所示,本公开的实施例提供一种文本处理方法,包括:
[0028]步骤101、获取待进行情感分类的目标文本。
[0029]其中,目标文本可为汽车文本、娱乐文本、学习文本等,在本公开的以下实施例中,以目标文本为汽车文本为例,对本申请中的技术方案进行说明,但并不构成对本申请中技术方案的具体限定。对于本公开实施例,可预先通过业务范围确定汽车文本的竞品品牌车型与汽车讨论数据,汽车讨论数据可包括论坛帖子数据和评论数据,通过信息采集系统将数据采集到数据库中。对于本公开实施例,作为一种可能的实现方式,可在数据库中提取待进行情感分类的汽车讨论数据作为目标文本。
[0030]步骤102、提取目标文本中热点话题对应的话题文本,话题文本中包含字符文本以及表情文本。
[0031]在具体的应用场景中,目标文本中可包含多个发帖文本和多个评论文本。鉴于在目标文本中可能存在水军发送的不良或者错误导向文本,容易对情感分类预测结果造成影响,故在获取到待进行情感分类的目标文本后,可对目标文本中的发帖文本和评论文本进行文本重要性区分,进一步基于重要性区分后的发帖文本和评论文本精准确定出目标文本中的热点话题,并提取出热点话题对应的话题文本,以此降低水军评论的影响,便于后续通过对话题文本的情感分析预测,精准确定目标文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待进行情感分类的目标文本;提取所述目标文本中热点话题对应的话题文本,所述话题文本中包含字符文本以及表情文本;将所述话题文本输入预设语言模型,得到所述字符文本的第一特征向量,以及所述表情文本的第二特征向量;将所述第一特征向量和所述第二特征向量的拼接向量输入预设情感分类模型,得到所述目标文本中所述热点话题对应的情感分类结果,其中,所述预设情感分类模型用于根据所述拼接向量确定所述话题文本对应不同情感极性的预测分值,将最高所述预设分值对应的情感极性确定为所述热点话题的情感分类结果,所述情感极性用于表征作者对所述热点话题的情感倾向。2.根据权利要求1所述的方法,其特征在于,所述提取所述目标文本中热点话题对应的话题文本,包括:确定所述目标文本中包含的文本话题,所述目标文本包括多个发帖文本和多个评论文本;统计所述目标文本中针对每个所述文本话题的发帖文本数量和评论文本数量;确定所述发帖文本对于文本话题确定的第一影响权重和所述评论文本对于文本话题确定的第二影响权重,所述第一影响权重大于所述第二影响权重,所述第一影响权重和所述第二影响权重的加和为1;将每个所述文本话题的发帖文本数量和评论文本数量,以及所述第一影响权重和所述第二影响权重代入预设话题声量计算方程,计算每个所述文本话题的话题声量,其中,所述预设话题声量计算方程用于计算发帖文本量化指标和评论文本量化指标的累加值,将所述累加值确定为话题声量,所述发帖文本量化指标为所述发帖文本数量和所述第一影响权重的乘积,所述评论文本量化指标为所述评论文本数量和所述第二影响权重的乘积,所述话题声量用于表征话题讨论热度;将对应所述话题声量处于预设声量范围内的文本话题确定为热点话题;在所述目标文本中提取所述热点话题对应的话题文本。3.根据权利要求2所述的方法,其特征在于,所述在所述目标文本中提取所述热点话题对应的话题文本,包括:确定所述热点话题对应的热点话题关键词;计算所述热点话题关键词与所述多个发帖文本中每个发帖文本的第一语义特征相似度,将对应所述第一语义特征相似度大于预设相似度阈值的发帖文本确定为第一话题文本;计算所述热点话题关键词与所述多个评论文本中每个评论文本的第二语义特征相似度,将对应所述第二语义特征相似度大于预设相似度阈值的评论文本确定为第二话题文本;确定所述第一话题文本和所述第二话题文本为所述热点话题对应的话题文本。4.根据权利要求1所述的方法,其特征在于,所述将所述话题文本输入预设语言模型,得到所述字符文本的第一特征向量,以及所述表情文本的第二特征向量,包括:
对所述话题文本中的所述字符文本和所述表情文本分别单独进行标签遮盖处理;将遮盖所述字符文本后的话题文本输入预设语言模型,得到所述字符文本的第一特征向量;将遮盖所述表情文本后的话题文本输入预设语言模型,得到所述表情文本的第二特征向量。5.根据权利要求4所述的方法,...

【专利技术属性】
技术研发人员:黄海涛
申请(专利权)人:北京罗克维尔斯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1