【技术实现步骤摘要】
文章情绪信息的确定方法、装置、计算机设备及存储介质
[0001]本公开涉及文本处理
,具体而言,涉及一种文章情绪信息的确定方法、装置、计算机设备及存储介质。
技术介绍
[0002]表示向量是当前深度学习领域使用最广泛的技术之一,通过获取词汇的表示向量,可以将许多机器学习算法应用于对文本的处理上,来解决很多场景下的业务问题,比如内容召回、内容审核等。词频
‑
逆向文件频率(Term Frequency
‑
Inverse Document Frequency,TF
‑
IDF)是提取文本关键词的常用技术,原理是如过一个词汇在文章中的出现频率很高,但是在其他语料中出现频率不高,则认为该词汇是文章的关键词。文章情绪主要包括但不限于感动、亲切、温暖、愤怒、悲伤、焦虑等,比如一篇见义勇为的文章,可能会带有感动情绪。当前确定文本的情绪信息的方式,存在准确率低的问题。
技术实现思路
[0003]本公开实施例至少提供一种文章情绪信息的确定方法、装置、计算机设备及存储介质。 ...
【技术保护点】
【技术特征摘要】
1.一种文章情绪信息的确定方法,其特征在于,包括:基于目标文章对应的目标评论信息,确定与所述目标文章对应的评论关键词;基于所述评论关键词对应的第一表示向量、以及与至少一种情绪中每种情绪对应的第二表示向量,确定所述第一表示向量和所述第二表示向量之间的第一相似度,所述情绪用于表征文章所表达的情感倾向;基于所述第一相似度、以及为所述至少一种情绪中每种情绪确定的相似度阈值,确定所述目标文章对应的情绪信息。2.根据权利要求1所述的方法,其特征在于,所述基于目标文章对应的目标评论信息,确定与所述目标文章对应的评论关键词,包括:获取所述目标文章对应的评论信息;从所述评论信息中筛选置信度满足预设置信度条件的目标评论信息,并将所述目标评论信息合并为目标文本;所述目标评论信息的数量大于或者等于预设数量阈值;对所述目标文本进行关键词识别处理,得到所述评论关键词。3.根据权利要求1所述的方法,其特征在于,所述评论关键词有多个;采用下述方式确定所述评论关键词的第一表示向量:确定多个所述评论关键词分别对应的词向量;基于多个评论关键词分别对应的词向量,确定多个评论关键词对应的平均词向量;将所述平均词向量作为所述评论关键词的第一表示向量。4.根据权利要求1所述的方法,其特征在于,采用下述方式确定至少一种情绪中每种情绪对应的第二表示向量:针对所述每种情绪,从多个备选词汇中,确定与该种情绪对应的情绪关键词;基于与该种情绪对应的情绪关键词的词向量,确定该种情绪对应的第二表示向量。5.根据权利要求4所述的方法,其特征在于,所述针对所述每种情绪,从多个备选词汇中,确定与该种情绪对应的情绪关键词,包括:针对所述每种情绪,确定与该种情绪对应的情绪词汇;基于该种情绪对应的情绪词汇的第一词汇向量、以及多个备选词汇的第二词汇向量,确定所述情绪词汇的第一词汇向量分别和多个所述备选词汇的第二词汇向量的第二相似度;基于所述第二相似度,从多个备选词汇中,确定该种情绪对应的情绪关键词。6.根据权利要求1所述的方法,其特征在于,所述基于所述第一相似度、以及为所述至少一种情绪中每种情绪确定的相似度阈值,确定所述目标文章对应的情绪信息,包括:针对每种情绪,将该种情绪对应的第一相似度和与该种情绪对应的相似度阈值进行比对;响应于所述每种情绪对应的第一相似度大于与所述每种情绪对应的相似度阈值,确定所述目标文章对应的情绪信息包括该种情绪。7.根据权利要求1所述的方法,其特征在于,采用下述方式确定每种情绪对应的相似度阈值:针对多篇样本文章中的每篇样本文章,基于该篇样本文章对应的样本评论信息,确定与该篇样本文章对应的样本评论关键词;
基于所述样本评论关键词对应的第一样本表示向量、以及与该种情绪对应的第二表示向量,确定所述第一样本表示向量和该种情绪对应的第二表示向量之间的第三相似度;基于多篇样本文章分别对应的第三相似度、以及多篇样本文章分别对应的情绪信息标注,确定该种情绪对应的相似度阈值。8.根据权利要求7所述的方法,其特征在于,所述基于多篇样本文章分别对应的第三相似度、以及多篇样本文章分别对应的情绪信息标注,确定该种情绪对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。