一种基于情感分析的备选提示答案生成方法及装置制造方法及图纸

技术编号:36559818 阅读:15 留言:0更新日期:2023-02-04 17:14
本发明专利技术提供了一种基于情感分析的备选提示答案生成方法及装置,该方法包括:根据预先生成的情感词句集合生成高维词向量;对所述情感词句集合进行分词,以生成分词结果;根据所述高维词向量以及所述分词结果生成备选提示答案。本发明专利技术解决了现有方法中方面信息被忽略的问题。在对小样本数据进行情感分析时,利用回译和生成等方法,有效对数据进行增广;利用连续词袋模型对文本进行向量化,有效捕捉词语的上下文信息;根据种子词对词向量聚类,找到备选提示答案;并通过模型的梯度下降速度找到最佳提示答案。最佳提示答案。最佳提示答案。

【技术实现步骤摘要】
一种基于情感分析的备选提示答案生成方法及装置


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于情感分析的备选提示答案生成方法及装置。

技术介绍

[0002]近些年来,自然语言处理技术飞速发展,例如从BERT开始,对预训练模型进行finetune已经成为了相关
的常规范式,即“pre

train,fine

tune”。但是从GPT

3开始,一种新的范式开始引起技术人员的关注并越来越流行。
[0003]以文本情感分类任务来举例:在文本情感分类任务中,对于"I love this movie."这句输入,可以在后面加上prompt"The movie is"这样的形式,然后让PLM用表示情感的答案填空如"great"、"terrible"等等,最后再将该答案转化成情感分类的标签,这样以来,通过选取合适的prompt,可以控制模型预测输出,从而一个完全无监督训练的预训练语言模型可以被用来解决各种各样的下游任务。
[0004]相对于"pre

train,fine

tune"的方式,prompt在小样本数据条件下表现更好。本领域技术人员在使用prompt时,通常会进行如下操作:
[0005]1.使用一个模板,用模板改造输入数据。
[0006]模板通常为一段自然语言,并且包含有一个空位置,我们用[mask]表示:
[0007]比如:在文本情感分类的任务中,假设输入是"I love this movie."使用的模板是:"It was a[mask]."
[0008]那么输入语句就变成"I love this movie.It was[mask].""It was[mask]"称为模板
[0009]2.设计提示答案,让模型预测提示答案。
[0010]提示答案就是模板中[mask]部分对应的词。例如情感分析中,可以用"great"代表正向情感,"terrible"代表负向情感。对于输入:"I love this movie.It was[mask].",如果模型将[mask]预测为"great",则可以判断这句话的情感倾向为正向。提示答案的设计对模型的准确率有很大影响:
[0011]属性级情感分析,文本情感分析,是针对人们对实体(包括产品、服务、组织、个人、议题、事件、话题及他们的属性等)表达的观点、评价、态度和情感进行计算的研究。而属性级情感分析按方面对意见进行分类,并识别与每个方面相关的情绪。
[0012]例如,以下对于餐馆的评价,从环境角度分析是负面评价,但从服务角度分析是正面评价:
[0013]“他们在周末经常很拥挤,但他们的服务高效二准确
”‑
环境:负面;服务:正面。不同于句子级的情感分析,属性级情感分析需要针对某个方面进行分析。将Prompt应用于属性级情感分析,现有方法一般使用如下模板:
[0014]"The[ASPECT]is[mask]."
[0015][ASPECT]表示待评价的方面。例如,以下评价:
[0016]"unfortunately,the food is outstanding,but everything else about this restaurant is the pits"
[0017]针对food的评价,应用模板后就变成如下形式:
[0018]"unfortunately,the food is outstanding,but everything else about this restaurant is the pits.The food is[mask]"。
[0019]应用prompt方法做属性级情感分析时,现有方法使用的提示答案没有针对所评价的方面进行调整,例如,表示正向的提示答案都用"great",表示负向的都用"terrible"。这种做法忽略了"方面"这一重要因素,对于不同的方面,情感极性的表述往往不同。例如,在金融领域中,对于股票,用“利好”和“利空”来评价更合适;例如:对于货币政策,用"宽松"和"紧缩"来评价更合适。对于不同方面使用统一的提示答案,不符合语言习惯,不能更好的利用预训练语言模型中学习到的知识。

技术实现思路

[0020]根据本专利技术所提供的基于情感分析的备选提示答案生成方法及装置,解决了现有方法中方面信息被忽略的问题。在对小样本数据进行情感分析时,利用回译和生成等方法,有效对数据进行增广;利用连续词袋模型对文本进行向量化,有效捕捉词语的上下文信息;根据种子词对词向量聚类,找到备选提示答案;通过模型的梯度下降速度找到最佳提示答案。
[0021]为了实现上述目的,本专利技术提供了一种基于情感分析的备选提示答案生成方法,包括:
[0022]根据预先生成的情感词句集合生成高维词向量;
[0023]对所述情感词句集合进行分词,以生成分词结果;
[0024]根据所述高维词向量以及所述分词结果生成备选提示答案。
[0025]一实施例中,生成所述情感词句集合的方法包括:
[0026]对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合。
[0027]一实施例中,所述对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合,包括:
[0028]将具有第一自然语言格式的初始词汇合集中的情感词句翻译为具有第二自然语言格式的情感词句;
[0029]将所述具有第二自然语言格式的情感词句翻译回至所述具有第一自然语言格式的情感词句,以扩充所述初始词句集合。
[0030]一实施例中,所述对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合,还包括:
[0031]随机删除所述初始词汇合集中的情感词句中的部分词句,并根据删除后的情感词句随机生成与所述删除前的情感词句类似的词句,以扩充所述初始词句集合。
[0032]一实施例中,所述根据预先生成的情感词句集合生成高维词向量,包括:
[0033]根据所述情感词句集合中的情感词句中的上下文预测所述情感词句的当前中心词;
[0034]根据所述当前中心词以及预先生成的连续词袋模型生成所述高维词向量。
[0035]一实施例中,所述对所述情感词句集合进行分词,以生成分词结果,包括:
[0036]切分扩充之后的情感词句集合中的情感词句,以生成具有独立含义的词句。
[0037]一实施例中,所述根据所述高维词向量以及所述分词结果生成备选提示答案包括:
[0038]聚类所述高维词向量以及所述分词结果,以生成所述备选提示答案。
[0039]一实施例中,
[0040]一实施例中,所述聚类所述高维词向量以及所述分词结果,以生成所述备选提示答案,包括:
[0041]根据所述情感词句的情感正负属性确定簇类个数,以确定每一个簇类;
[0042]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于情感分析的备选提示答案生成方法,其特征在于,包括:根据预先生成的情感词句集合生成高维词向量;对所述情感词句集合进行分词,以生成分词结果;根据所述高维词向量以及所述分词结果生成备选提示答案。2.根据权利要求1所述的备选提示答案生成方法,其特征在于,生成所述情感词句集合的方法包括:对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合。3.根据权利要求2所述的备选提示答案生成方法,其特征在于,所述对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合,包括:将具有第一自然语言格式的初始词汇合集中的情感词句翻译为具有第二自然语言格式的情感词句;将所述具有第二自然语言格式的情感词句翻译回至所述具有第一自然语言格式的情感词句,以扩充所述初始词句集合。4.根据权利要求2所述的备选提示答案生成方法,其特征在于,所述对于预先获取的初始词句集合进行扩充,以生成所述情感词句集合,还包括:随机删除所述初始词汇合集中的情感词句中的部分词句,并根据删除后的情感词句随机生成与所述删除前的情感词句类似的词句,以扩充所述初始词句集合。5.根据权利要求1所述的备选提示答案生成方法,其特征在于,所述根据预先生成的情感词句集合生成高维词向量,包括:根据所述情感词句集合中的情感词句中的上下文预测所述情感词句的当前中心词;根据所述当前中心词以及预先生成的连续词袋模型生成所述高维词向量。6.根据权利要求2所述的备选提示答案生成方法,其特征在于,所述对所述情感词句集合进行分词,以生成分词结果,包括:切分扩充之后的情感词句集合中的情感词句,以生成具有独立含义的词句。7.根据权利要求1所述的备选提示答案生成方法,其特征在于,所述根据所述高维词向量以及所述分词结果生成备选提示答案包括:聚类所述高维词向量以及所述分词结果,以生成所述备选提示答案。8.根据权利要求7所述的备选提示答案生成方法,其特征在于,所述聚类所述高维词向量以及所述分词结果,以生成所述备选提示答案,包括:根据所述情感词句的情感正负属性确定簇类个数,以确定每一个簇类;随机选取一情感词句为初始簇类中心;在所述每一个簇类中,计算每一情感词句至其对应所述初始簇类中心的cosine距离;根据所述cosine距离在所述情感词句集合中确定所述备选提示答案。9.根据权利要求8所述的备选提示答案生成方法,其特征在于,所述根据所述cosine距离在所述情感词句集合中确定所述备选提示答案,包括:在所述情感词句集合中的情感词句中,按照所述cosine距离由小到大的顺序选取预设数量的情感词句,以生成训练集合;利用所述训练集合对prompt属性级情感分析模型进行训练;选取训练过程中梯度下降最快所对应的情感词句作为所述备选提示答案。
10.一种基于情感分析的备选提示答案生成装置,其特征在于,包括:高维词向量生成模块,用于根据预先生成的情感词句集合生成高维词向量;分词结果生成模块,用于对所述情感词句集合进行分词,以生成分词结果;提示答案生成模块,用于根据所述高维词向量以及所述分词结果生成备选提示答案。11.根据权利要求10所述的备选提示答案生成装置,其特征在于,还包括:词句集合生成模块,用于生...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:中国人民银行清算总中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1