情感倾向确定、样本构建、模型训练方法、装置及设备制造方法及图纸

技术编号：37552713 阅读：12 留言：0更新日期：2023-05-15 07:37

本发明专利技术公开了一种情感倾向确定、样本构建、模型训练方法、装置及设备。通过获取采用不同语言但语义相同的第一文本数据与第二文本数据，其中，第二文本数据是通过对第一文本数据进行翻译得到的；并基于第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量进行融合，得到目标文本特征向量；最后，基于目标文本特征向量进行情感倾向的预测，得到第一文本数据对应的情感倾向，提升从第一文本数据中预测情感倾向的准确率。数据中预测情感倾向的准确率。数据中预测情感倾向的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
情感倾向确定、样本构建、模型训练方法、装置及设备

[0001]本专利技术涉及自然语言处理
，尤其涉及一种情感倾向确定、样本构建、模型训练方法、装置及设备。

技术介绍

[0002]随着互联网技术的快速普及，使用不同语言的用户在不同的平台发表的主观评价可以反映用户个体的观点、情感、态度等信息。利用情感分析技术对各语言文本中用户所表达的情感进行确定可以提升平台的体验，因此情感倾向的确定是有必要的。
[0003]相关技术中，一般通过常用语言的分析算法来确定其他语言文本数据的情感倾向。
[0004]然而，不同语系的语言表达形式差异较大且有些语言语法复杂、语序多变，通过常用语言的分析算法预测其他语言文本数据的情感倾向的准确性有待提升。

技术实现思路

[0005]本说明书实施方式旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本说明书实施方式提出一种情感倾向确定、样本构建、模型训练方法、装置及设备。
[0006]本说明书实施方式提供一种情感倾向确定方法，所述方法包括：
[0007]获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量；其中，采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义；所述第一语言不同于所述第二语言；
[0008]对所述第一文本特征向量与所述第二文本特征向量进行融合，得到目标文本特征向量；
[0009]基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。
...

【技术保护点】

【技术特征摘要】
1.一种情感倾向确定方法，其特征在于，所述方法包括：获取第一文本数据的第一文本特征向量和第二文本数据的第二文本特征向量；其中，采用第一语言的所述第一文本数据与采用第二语言的所述第二文本数据用于表达同一语义；所述第一语言不同于所述第二语言；对所述第一文本特征向量与所述第二文本特征向量进行融合，得到目标文本特征向量；基于所述目标文本特征向量确定所述第一文本数据或者所述第二文本数据对应的情感倾向。2.根据权利要求1所述的方法，其特征在于，所述对所述第一文本特征向量与所述第二文本特征向量进行融合，得到目标文本特征向量，包括：将所述第一文本特征向量与所述第二文本特征向量进行拼接，得到所述目标文本特征向量。3.根据权利要求1所述的方法，其特征在于，所述第二文本特征向量的获取方式与所述第一文本特征向量的获取方式相同；其中，所述第一文本特征向量的获取方式，包括：获取所述第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个；基于所述第一文本数据的局部语义特征向量、全局语义特征向量、上下文语义特征向量中的至少一个，生成所述第一文本特征向量。4.根据权利要求1所述的方法，其特征在于，所述情感倾向是通过情感倾向预测模型对所述目标文本特征向量进行预测得到的，所述情感倾向对应有置信度；所述方法还包括：若所述情感倾向对应的置信度小于预设置信度阈值，基于所述第一文本数据或者所述第二文本数据与情感词典规则库的匹配结果，确定所述第一文本数据或者所述第二文本数据对应的情感倾向。5.根据权利要求1至4中任一项所述的方法，其特征在于，所述第一文本数据包括德文电商评价数据，所述第二文本数据包括以英文为目标语言对所述德文电商评价数据进行翻译得到的英文电商评价数据。6.根据权利要求1至4中任一项所述的方法，其特征在于，所述第一文本数据和所述第二文本数据的获取方式，包括：获取采用所述第一语言的初始评价文本数据；以所述第二语言为目标语言，对所述初始评价文本数据进行翻译，得到翻译评价文本数据；对所述初始评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理，得到所述第一文本数据；对所述翻译评价文本数据进行无用文本过滤、干扰符号过滤和停用词处理中的至少一种清洗处理，得到所述第二文本数据。7.一种训练样本构建方法，其特征在于，所述方法包括：获取采用第一语言的第一样本文本数据和采用第二语言的第二样本文本数据；其中，所述第一样本文本数据与所述第二样本文本数据用于表达同一语义；所述第一语言不同于所述第二语言；
对所述第一样本文本数据进行特征提取，得到所述第一样本文本数据的第一样本特征向量；对所述第二样本文本数据进行特征提取，得到所述第二样本文本数据的第二样本特征向量；对所述第一样本特征向量与所述第二样本特征向量进行融合，得到样本文本特征向量；基于所述样本文本特征向量，以及所述第一样本文本数据或者所述第二样本文本数据...

【专利技术属性】
技术研发人员：梁礼欣，万睿，
申请(专利权)人：美云智数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人