情感倾向确定、样本构建、模型训练方法、装置及设备制造方法及图纸

技术编号:37552713 阅读:12 留言:0更新日期:2023-05-15 07:37
本发明专利技术公开了一种情感倾向确定、样本构建、模型训练方法、装置及设备。通过获取采用不同语言但语义相同的第一文本数据与第二文本数据,其中,第二文本数据是通过对第一文本数据进行翻译得到的;并基于第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量进行融合,得到目标文本特征向量;最后,基于目标文本特征向量进行情感倾向的预测,得到第一文本数据对应的情感倾向,提升从第一文本数据中预测情感倾向的准确率。数据中预测情感倾向的准确率。数据中预测情感倾向的准确率。

【技术实现步骤摘要】
情感倾向确定、样本构建、模型训练方法、装置及设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种情感倾向确定、样本构建、模型训练方法、装置及设备。

技术介绍

[0002]随着互联网技术的快速普及,使用不同语言的用户在不同的平台发表的主观评价可以反映用户个体的观点、情感、态度等信息。利用情感分析技术对各语言文本中用户所表达的情感进行确定可以提升平台的体验,因此情感倾向的确定是有必要的。
[0003]相关技术中,一般通过常用语言的分析算法来确定其他语言文本数据的情感倾向。
[0004]然而,不同语系的语言表达形式差异较大且有些语言语法复杂、语序多变,通过常用语言的分析算法预测其他语言文本数据的情感倾向的准确性有待提升。

技术实现思路

[0005]本说明书实施方式旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本说明书实施方式提出一种情感倾向确定、样本构建、模型训练方法、装置及设备。
[0006]本说明书实施方式提供一种情感倾向确定方法,所述方法包括:
[0007]获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
[0008]对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
[0009]基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。
[0010]本说明书实施方式提供一种训练样本构建方法,所述方法包括:
[0011]获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据;其中,所述第一样本文本数据与所述第二样本文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
[0012]对所述第一样本文本数据进行特征提取,得到所述第一样本文本数据的第一样本特征向量;
[0013]对所述第二样本文本数据进行特征提取,得到所述第二样本文本数据的第二样本特征向量;
[0014]对所述第一样本特征向量与所述第二样本特征向量进行融合,得到样本文本特征向量;
[0015]基于所述样本文本特征向量,以及所述第一样本文本数据或者所述第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本。
[0016]本说明书实施方式提供一种模型训练方法,所述方法包括:
[0017]搭建初始情感倾向预测模型;
[0018]利用采用上述实施方式中所构建的训练样本对所述初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型。
[0019]本说明书实施方式提供一种情感倾向确定方法,所述方法包括:
[0020]获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,所述第一文本数据采用的第一语言不同于所述第二文本数据采用的第二语言;所述第二文本数据是以所述第二语言为目标语言对所述第一文本数据进行翻译得到的;
[0021]对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
[0022]基于所述目标文本特征向量确定所述第一文本数据对应的情感倾向。
[0023]本说明书实施方式提供一种情感倾向确定装置,所述装置包括:
[0024]文本特征向量获取模块,用于获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
[0025]目标文本特征向量确定模块,用于对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;
[0026]情感倾向确定模块,用于基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。
[0027]本说明书实施方式提供一种训练样本构建装置,所述装置包括:
[0028]样本文本数据获取模块,用于获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据;其中,所述第一样本文本数据与所述第二样本文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
[0029]第一样本特征向量确定模块,用于对所述第一样本文本数据进行特征提取,得到所述第一样本文本数据的第一样本特征向量;
[0030]第二样本特征向量确定模块,用于对所述第二样本文本数据进行特征提取,得到所述第二样本文本数据的第二样本特征向量;
[0031]样本文本特征向量确定模块,用于对所述第一样本特征向量与所述第二样本特征向量进行融合,得到样本文本特征向量;
[0032]训练样本确定模块,用于基于所述样本文本特征向量,以及所述第一样本文本数据或者所述第二样本文本数据对应的情感倾向标签构建用于训练情感倾向预测模型的训练样本。
[0033]本说明书实施方式提供一种模型训练装置,所述装置包括:
[0034]情感倾向预测模型搭建模块,用于搭建初始情感倾向预测模型;
[0035]情感倾向预测模型确定模块,用于利用采用上述实施方式中的方式所构建的训练样本对所述初始情感倾向预测模型进行训练,直至满足模型训练停止条件,得到目标情感倾向预测模型。
[0036]本说明书实施方式提供一种计算机设备,所述计算机设备包括:存储器,以及与所述存储器通信连接的一个或多个处理器;所述存储器中存储有可被所述一个或多个处理器
执行的指令,所述指令被所述一个或多个处理器执行,以使所述一个或多个处理器实现上述任一项实施方式所述的方法的步骤。
[0037]本说明书实施方式提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项实施方式所述的方法的步骤。
[0038]本说明书实施方式提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被计算机设备的处理器执行时,使得所述计算机设备能够执行上述任一项实施方式所述的方法的步骤。
[0039]上述说明书实施方式中,采用第一语言的第一文本数据与采用第二语言的第二文本数据表达同一语义,且第一语言不同于第二语言,通过获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量,并对第一文本特征向量与第二文本特征向量进行融合,得到目标文本特征向量,最后,基于目标文本特征向量确定第一文本数据或者第二文本数据对应的情感倾向,提升文本情感倾向预测的准确率。
附图说明
[0040]图1a为本说明书实施方式提供的应用场景示意图。
[0041]图1b为本说明书实施方式提供的情感倾向确定方法的流程示意图。
[0042]图2为本说明书实施方式提供的第一文本特征向量的获取方式的流程示意图。
[0043]图3为本说明书实施方式提供的第二文本特征向量的获取方式的流程示意图。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感倾向确定方法,其特征在于,所述方法包括:获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量;其中,采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义;所述第一语言不同于所述第二语言;对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量;基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本特征向量与所述第二文本特征向量进行融合,得到目标文本特征向量,包括:将所述第一文本特征向量与所述第二文本特征向量进行拼接,得到所述目标文本特征向量。3.根据权利要求1所述的方法,其特征在于,所述第二文本特征向量的获取方式与所述第一文本特征向量的获取方式相同;其中,所述第一文本特征向量的获取方式,包括:获取所述第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个;基于所述第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个,生成所述第一文本特征向量。4.根据权利要求1所述的方法,其特征在于,所述情感倾向是通过情感倾向预测模型对所述目标文本特征向量进行预测得到的,所述情感倾向对应有置信度;所述方法还包括:若所述情感倾向对应的置信度小于预设置信度阈值,基于所述第一文本数据或者所述第二文本数据与情感词典规则库的匹配结果,确定所述第一文本数据或者所述第二文本数据对应的情感倾向。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一文本数据包括德文电商评价数据,所述第二文本数据包括以英文为目标语言对所述德文电商评价数据进行翻译得到的英文电商评价数据。6.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一文本数据和所述第二文本数据的获取方式,包括:获取采用所述第一语言的初始评价文本数据;以所述第二语言为目标语言,对所述初始评价文本数据进行翻译,得到翻译评价文本数据;对所述初始评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到所述第一文本数据;对所述翻译评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理,得到所述第二文本数据。7.一种训练样本构建方法,其特征在于,所述方法包括:获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据;其中,所述第一样本文本数据与所述第二样本文本数据用于表达同一语义;所述第一语言不同于所述第二语言;
对所述第一样本文本数据进行特征提取,得到所述第一样本文本数据的第一样本特征向量;对所述第二样本文本数据进行特征提取,得到所述第二样本文本数据的第二样本特征向量;对所述第一样本特征向量与所述第二样本特征向量进行融合,得到样本文本特征向量;基于所述样本文本特征向量,以及所述第一样本文本数据或者所述第二样本文本数据...

【专利技术属性】
技术研发人员:梁礼欣万睿
申请(专利权)人:美云智数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1