无监督的多目标篇章级情感分类模型训练方法和装置制造方法及图纸

技术编号:24121636 阅读:43 留言:0更新日期:2020-05-13 03:15
本申请公开了无监督的多目标篇章级情感分类模型训练方法和装置,涉及NLP领域,方法包括:利用预设的编码器确定训练样本集中每个篇章样本对应的隐状态向量,每个篇章样本具有对应的标注情感概率分布;根据每个篇章样本中的待评价目标及各待评价目标对应的预设的权重矩阵,计算每个待评价目标对应的注意力值;利用预设的解码器,对每个篇章样本对应的隐状态向量及注意力值进行解码处理,确定每个待评价目标的情感概率分布,并依此确定每个篇章样本的预测情感概率分布;根据每个篇章样本的预测情感概率分布与标注情感概率分布的差异,对预设的编码器、各预设的权重矩阵及预设的解码器进行更新。基于篇章级的情感标注数据训练模型,成本低,实用性高。

【技术实现步骤摘要】
无监督的多目标篇章级情感分类模型训练方法和装置
本申请涉及计算机
,具体涉及自然语言处理(NaturalLanguageProcessing,NLP)
,尤其涉及一种无监督的多目标篇章级情感分类模型训练方法和装置。
技术介绍
目前多目标篇章级情感分析方法,多是基于有监督的深度学习实现的。这这种方法需要将标注好的篇章文本中各评价目标的情感极性作为训练数据进行模型训练。但是,由于篇章文本中各评价目标的情感极性标注过程需要大量的人力和物力,从而使得该分析方法的成本太高,实用性较差。
技术实现思路
本申请提出一种无监督的多目标篇章级情感分类模型训练方法和装置,用于解决相关技术中,用于基于有监督的深度学习进行多目标篇章级情感分析,成本较高,实用性差的问题。本申请一方面实施例提出了一种无监督的多目标篇章级情感分类模型训练方法,包括:利用预设的编码器将训练样本集中每个篇章样本进行编码处理,确定每个篇章样本对应的隐状态向量,其中,所述训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布;根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵,计算每个篇章样本中每个待评价目标对应的注意力值;利用预设的解码器,对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理,确定每个篇章样本中每个待评价目标对应的情感概率分布;根据每个篇章样本中每个待评价目标对应的情感概率分布,确定每个篇章样本对应的预测情感概率分布;根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异,对所述预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。本申请实施例的无监督的多目标篇章级情感分类模型训练方法,通过利用预设的编码器将训练样本集中每个篇章样本进行编码处理,确定每个篇章样本对应的隐状态向量,其中,训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布;然后根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵,计算每个篇章样本中每个待评价目标对应的注意力值;之后利用预设的解码器,对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理,确定每个篇章样本中每个待评价目标对应的情感概率分布;之后根据每个篇章样本中每个待评价目标对应的情感概率分布,确定每个篇章样本对应的预测情感概率分布;再根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异,对预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。由此,通过基于篇章级的情感标注数据作为训练数据,可以训练得到识别篇章级中各目标的情感极性的模型,无需人工标注各篇章样本中每个评价目标的情感极性,降低了多目标篇章级情感分类的成本,实用性高。本申请另一方面实施例提出了一种无监督的多目标篇章级情感分类模型训练装置,包括:第一确定模块,用于利用预设的编码器将训练样本集中每个篇章样本进行编码处理,确定每个篇章样本对应的隐状态向量,其中,所述训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布;计算模块,用于根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵,计算每个篇章样本中每个待评价目标对应的注意力值;第二确定模块,用于利用预设的解码器,对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理,确定每个篇章样本中每个待评价目标对应的情感概率分布;第三确定模块,用于根据每个篇章样本中每个待评价目标对应的情感概率分布,确定每个篇章样本对应的预测情感概率分布;更新模块,用于根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异,对所述预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。本申请实施例的无监督的多目标篇章级情感分类模型训练装置,通过利用预设的编码器将训练样本集中每个篇章样本进行编码处理,确定每个篇章样本对应的隐状态向量,其中,训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布;根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵,计算每个篇章样本中每个待评价目标对应的注意力值;利用预设的解码器,对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理,确定每个篇章样本中每个待评价目标对应的情感概率分布;根据每个篇章样本中每个待评价目标对应的情感概率分布,确定每个篇章样本对应的预测情感概率分布;根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异,对预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。由此,通过基于篇章级的情感标注数据作为训练数据,训练得到可识别篇章级中各目标的情感极性的模型,无需人工标注各篇章样本中每个评价目标的情感极性,降低了多目标篇章级情感分类的成本,实用性高。本申请另一方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的无监督的多目标篇章级情感分类模型训练方法。本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的无监督的多目标篇章级情感分类模型训练方法。上述申请中的实施例具有如下有益效果:上述通过利用包括多个篇章样本及每个篇章样本对应的标注情感概率分布的样本集训练多目标篇章级情感分类模型。因为采用基于篇章级的情感标注数据作为训练数据,训练得到可识别篇章级中各目标的情感极性的模型,无需人工标注各篇章样本中每个评价目标的情感极性的技术手段,所以克服了现有的基于有监督的深度学习进行多目标篇章级情感分析,成本较高,实用性差的问题,进而达到降低了多目标篇章级情感分类的成本,实用性高的技术效果。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例提供的一种无监督的多目标篇章级情感分类模型训练方法的流程示意图;图2为本申请实施例提供的另一种无监督的多目标篇章级情感分类模型训练方法的流程示意图;图3为本申请实施例提供的一种无监督的多目标篇章级情感分类模型训练装置的结构示意图;图4为根据本申请实施例的无监督的多目标篇章级情感分类模型训练方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改本文档来自技高网...

【技术保护点】
1.一种无监督的多目标篇章级情感分类模型训练方法,其特征在于,包括:/n利用预设的编码器将训练样本集中每个篇章样本进行编码处理,确定每个篇章样本对应的隐状态向量,其中,所述训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布;/n根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵,计算每个篇章样本中每个待评价目标对应的注意力值;/n利用预设的解码器,对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理,确定每个篇章样本中每个待评价目标对应的情感概率分布;/n根据每个篇章样本中每个待评价目标对应的情感概率分布,确定每个篇章样本对应的预测情感概率分布;/n根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异,对所述预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。/n

【技术特征摘要】
1.一种无监督的多目标篇章级情感分类模型训练方法,其特征在于,包括:
利用预设的编码器将训练样本集中每个篇章样本进行编码处理,确定每个篇章样本对应的隐状态向量,其中,所述训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布;
根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵,计算每个篇章样本中每个待评价目标对应的注意力值;
利用预设的解码器,对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理,确定每个篇章样本中每个待评价目标对应的情感概率分布;
根据每个篇章样本中每个待评价目标对应的情感概率分布,确定每个篇章样本对应的预测情感概率分布;
根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异,对所述预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。


2.如权利要求1所述的方法,其特征在于,所述计算每个篇章样本中每个待评价目标对应的注意力值之前,还包括:
根据每个篇章样本中每个分词与每个待评价目标对应的候选词典中各候选词的匹配度,确定每个篇章样本中包括的待评价目标。


3.如权利要求1所述的方法,其特征在于,所述计算每个篇章样本中每个待评价目标对应的注意力值之前,还包括:
对每个篇章样本中各子句进行语义识别,确定每个篇章样本中包括的待评价目标。


4.如权利要求1所述的方法,其特征在于,所述计算每个篇章样本中每个待评价目标对应的注意力值之前,还包括:
确定篇章样本中各分词与该篇章样本中包含的待评价目标对应的各种子词间的距离,其中,所述待评价目标对应的种子词,与所述待评价目标对应的候选词典中的候选词的匹配度大于阈值;
根据每个分词与所述待评价目标对应的各种子词间的距离,对所述待评价目标对应的预设的权重矩阵中每个分词对应的权重值进行修正。


5.如权利要求1-4任一所述的方法,其特征在于,所述根据每个篇章样本中每个待评价目标对应的情感概率分布,确定每个篇章样本对应的预测情感概率分布,包括:
根据每个篇章样本中每个待评价目标在每种情感中的分布概率均值,确定该篇章样本在每种情感中的分布概率。


6.如权利要求1-4任一所述的方法,其特征在于,所述根据每个篇章样本中每个待评价目标对应的情感概率分布,确定每个篇章样本对应的预测情感概率分布,包括:
根据每个篇章样本中每个待评价目标在每种情感中的分布概率、及每个待评价目标的权重,确定该篇章样本在每种情感中的分布概率。


7.一种无监督的多目标篇章级情感分类模型训练装置,其特征在于,包括:
第一确定模块,用于利用预设的编码器将训练样本集中每个篇章样本进行编码处理,确定每个篇章样本...

【专利技术属性】
技术研发人员:刘昊何伯磊肖欣延
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1