文章情绪信息的确定方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37381806 阅读:16 留言:0更新日期:2023-04-27 07:23
本公开提供了一种文章情绪信息的确定方法、装置、计算机设备及存储介质,其中,该方法包括:基于目标文章对应的目标评论信息,确定与所述目标文章对应的评论关键词;基于所述评论关键词对应的第一表示向量、以及与至少一种情绪中每种情绪对应的第二表示向量,确定所述第一表示向量和所述第二表示向量之间的第一相似度,所述情绪用于表征文章所表达的情感倾向;基于所述第一相似度、以及为所述至少一种情绪中每种情绪确定的相似度阈值,确定所述目标文章对应的情绪信息。标文章对应的情绪信息。标文章对应的情绪信息。

【技术实现步骤摘要】
文章情绪信息的确定方法、装置、计算机设备及存储介质


[0001]本公开涉及文本处理
,具体而言,涉及一种文章情绪信息的确定方法、装置、计算机设备及存储介质。

技术介绍

[0002]表示向量是当前深度学习领域使用最广泛的技术之一,通过获取词汇的表示向量,可以将许多机器学习算法应用于对文本的处理上,来解决很多场景下的业务问题,比如内容召回、内容审核等。词频

逆向文件频率(Term Frequency

Inverse Document Frequency,TF

IDF)是提取文本关键词的常用技术,原理是如过一个词汇在文章中的出现频率很高,但是在其他语料中出现频率不高,则认为该词汇是文章的关键词。文章情绪主要包括但不限于感动、亲切、温暖、愤怒、悲伤、焦虑等,比如一篇见义勇为的文章,可能会带有感动情绪。当前确定文本的情绪信息的方式,存在准确率低的问题。

技术实现思路

[0003]本公开实施例至少提供一种文章情绪信息的确定方法、装置、计算机设备及存储介质。
[0004]第一方面,本公开实施例提供了一种文章情绪信息的确定方法,包括:基于目标文章对应的目标评论信息,确定与所述目标文章对应的评论关键词;基于所述评论关键词对应的第一表示向量、以及与至少一种情绪中每种情绪对应的第二表示向量,确定所述第一表示向量和所述第二表示向量之间的第一相似度,所述情绪用于表征文章所表达的情感倾向;基于所述第一相似度、以及为所述至少一种情绪中每种情绪确定的相似度阈值,确定所述目标文章对应的情绪信息。
[0005]这样,利用目标文章对应的目标评论信息中能够表示情绪信息的关键词,来确定目标文章的情绪信息,而目标评论信息中,通常是用户在阅读了目标文章后所得出的总结性的信息,较之目标文章,往往会具有更多能
[0006]够表示情绪信息的词汇,因此,利用目标评论信息来确定目标文章对应的5情绪信息,具有较高的准确度。
[0007]一种可能的实施方式中,所述基于目标文章对应的目标评论信息,确定与所述目标文章对应的评论关键词,包括:获取所述目标文章对应的评论信息;从所述评论信息中筛选置信度满足预设置信度条件的目标评论信
[0008]息,并将所述目标评论信息合并为目标文本;所述目标评论信息的数量大0于或者等于预设数量阈值;对所述目标文本进行关键词识别处理,得到所述评论关键词。
[0009]这样,可以从目标文章的评论信息中筛选置信度更高的目标评论信息,进而基于目标评论信息确定的评论关键词也具有更高的置信度,最终为目标文章确定的情绪信息更加准确。
[0010]5一种可能的实施方式中,所述评论关键词有多个;采用下述方式确定所述评论关
键词的第一表示向量:确定多个所述评论关键词分别对应的词向量;基于多个评论关键词分别对应的词向量,确定多个评论关键词对应的平均词向量;将所述平均词向量作为所述评论关键词的第一表示向量。
[0011]一种可能的实施方式中,采用下述方式确定至少一种情绪中每种情绪0对应的第二表示向量:针对所述每种情绪,从多个备选词汇中,确定与该种情绪对应的情绪关键词;基于与该种情绪对应的情绪关键词的词向量,确定该种情绪对应的第二表示向量。
[0012]一种可能的实施方式中,所述针对所述每种情绪,从多个备选词汇中,
[0013]确定与该种情绪对应的情绪关键词,包括:针对所述每种情绪,确定与该5种情绪对应的情绪词汇;基于该种情绪对应的情绪词汇的第一词汇向量、以及多个备选词汇的第二词汇向量,确定所述情绪词汇的第一词汇向量分别和多个所述备选词汇的第二词汇向量的第二相似度;基于所述第二相似度,从多个备选词汇中,确定该种情绪对应的情绪关键词。
[0014]这样,能够将与情绪对应的情绪关键词充分的从备选词汇中确定出来,使得确定的情绪关键词能够更加全面的覆盖对应情绪,最终确定的情绪对应的第二表示向量更加的准确。
[0015]一种可能的实施方式中,所述基于所述第一相似度、以及为所述至少一种情绪中每种情绪确定的相似度阈值,确定所述目标文章对应的情绪信息,包括:针对每种情绪,将该种情绪对应的第一相似度和与该种情绪对应的相似度阈值进行比对;响应于所述每种情绪对应的第一相似度大于与所述每种情绪对应的相似度阈值,确定所述目标文章对应的情绪信息包括该种情绪。
[0016]这样,针对每种情绪针对性的设置相似度阈值,使得为目标文章确定的情绪信息具有更高的准确度。
[0017]一种可能的实施方式中,采用下述方式确定每种情绪对应的相似度阈值:
[0018]针对多篇样本文章中的每篇样本文章,基于该篇样本文章对应的样本评论信息,确定与该篇样本文章对应的样本评论关键词;
[0019]基于所述样本评论关键词对应的第一样本表示向量、以及与该种情绪对应的第二表示向量,确定所述第一样本表示向量和该种情绪对应的第二表示向量之间的第三相似度;
[0020]基于多篇样本文章分别对应的第三相似度、以及多篇样本文章分别对应的情绪信息标注,确定该种情绪对应的相似度阈值。
[0021]一种可能的实施方式中,所述基于多篇样本文章分别对应的第三相似度、以及多篇样本文章分别对应的情绪信息标注,确定该种情绪对应的相似度阈值,包括:
[0022]基于多篇所述样本文章分别对应的第三相似度,对多篇所述样本文章进行排序,并执行下述迭代过程:
[0023]确定当前迭代周期对应的文章选取参数;所述文章选取参数,包括:从多篇样本文章中确定所述目标样本文章的百分比、或者从多篇文章中确定所述目标样本文章的数量;
[0024]基于所述文章选取参数,从排序后的多篇样本文章中确定目标样本文章;其中,所述目标样本文章对应的第三相似度大于多篇所述样本文章中非目标样本文章对应的第三相似度;
[0025]基于所述目标样本文章对应的情绪标注信息,确定所述目标样本文章是否满足预设条件;
[0026]响应于所述目标样本文章未满足所述预设条件,则跳转至下一迭代周期;
[0027]响应于所述目标样本文章满足所述预设条件,基于所述目标样本文章对应的第三相似度,确定该种情绪对应的相似度阈值。
[0028]一种可能的实施方式中,所述基于所述目标样本文章对应的情绪标注信息,确定所述目标样本文章是否满足预设条件,包括:
[0029]基于所述目标样本文章对应的情绪标注信息,确定第三相似度与对应情绪标注信息匹配的目标样本文章的数量是否满足预设数量阈值;
[0030]响应于第三相似度与对应情绪标注信息匹配的目标样本文章的数量大于预设数量阈值,确定所述目标样本文章满足所述预设条件。
[0031]一种可能的实施方式中,所述响应于所述目标样本文章满足所述预设条件,基于所述目标样本文章对应的第三相似度,确定该种情绪对应的相似度阈值,包括:
[0032]从所述目标样本文章对应的第三相似度中,确定最小第三相似度;
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文章情绪信息的确定方法,其特征在于,包括:基于目标文章对应的目标评论信息,确定与所述目标文章对应的评论关键词;基于所述评论关键词对应的第一表示向量、以及与至少一种情绪中每种情绪对应的第二表示向量,确定所述第一表示向量和所述第二表示向量之间的第一相似度,所述情绪用于表征文章所表达的情感倾向;基于所述第一相似度、以及为所述至少一种情绪中每种情绪确定的相似度阈值,确定所述目标文章对应的情绪信息。2.根据权利要求1所述的方法,其特征在于,所述基于目标文章对应的目标评论信息,确定与所述目标文章对应的评论关键词,包括:获取所述目标文章对应的评论信息;从所述评论信息中筛选置信度满足预设置信度条件的目标评论信息,并将所述目标评论信息合并为目标文本;所述目标评论信息的数量大于或者等于预设数量阈值;对所述目标文本进行关键词识别处理,得到所述评论关键词。3.根据权利要求1所述的方法,其特征在于,所述评论关键词有多个;采用下述方式确定所述评论关键词的第一表示向量:确定多个所述评论关键词分别对应的词向量;基于多个评论关键词分别对应的词向量,确定多个评论关键词对应的平均词向量;将所述平均词向量作为所述评论关键词的第一表示向量。4.根据权利要求1所述的方法,其特征在于,采用下述方式确定至少一种情绪中每种情绪对应的第二表示向量:针对所述每种情绪,从多个备选词汇中,确定与该种情绪对应的情绪关键词;基于与该种情绪对应的情绪关键词的词向量,确定该种情绪对应的第二表示向量。5.根据权利要求4所述的方法,其特征在于,所述针对所述每种情绪,从多个备选词汇中,确定与该种情绪对应的情绪关键词,包括:针对所述每种情绪,确定与该种情绪对应的情绪词汇;基于该种情绪对应的情绪词汇的第一词汇向量、以及多个备选词汇的第二词汇向量,确定所述情绪词汇的第一词汇向量分别和多个所述备选词汇的第二词汇向量的第二相似度;基于所述第二相似度,从多个备选词汇中,确定该种情绪对应的情绪关键词。6.根据权利要求1所述的方法,其特征在于,所述基于所述第一相似度、以及为所述至少一种情绪中每种情绪确定的相似度阈值,确定所述目标文章对应的情绪信息,包括:针对每种情绪,将该种情绪对应的第一相似度和与该种情绪对应的相似度阈值进行比对;响应于所述每种情绪对应的第一相似度大于与所述每种情绪对应的相似度阈值,确定所述目标文章对应的情绪信息包括该种情绪。7.根据权利要求1所述的方法,其特征在于,采用下述方式确定每种情绪对应的相似度阈值:针对多篇样本文章中的每篇样本文章,基于该篇样本文章对应的样本评论信息,确定与该篇样本文章对应的样本评论关键词;
基于所述样本评论关键词对应的第一样本表示向量、以及与该种情绪对应的第二表示向量,确定所述第一样本表示向量和该种情绪对应的第二表示向量之间的第三相似度;基于多篇样本文章分别对应的第三相似度、以及多篇样本文章分别对应的情绪信息标注,确定该种情绪对应的相似度阈值。8.根据权利要求7所述的方法,其特征在于,所述基于多篇样本文章分别对应的第三相似度、以及多篇样本文章分别对应的情绪信息标注,确定该种情绪对...

【专利技术属性】
技术研发人员:杨飞陈冉李国建
申请(专利权)人:抖音视界有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1