无监督的多目标篇章级情感分类模型训练方法和装置制造方法及图纸

技术编号：24121636 阅读：43 留言：0更新日期：2020-05-13 03:15

本申请公开了无监督的多目标篇章级情感分类模型训练方法和装置，涉及NLP领域，方法包括：利用预设的编码器确定训练样本集中每个篇章样本对应的隐状态向量，每个篇章样本具有对应的标注情感概率分布；根据每个篇章样本中的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个待评价目标对应的注意力值；利用预设的解码器，对每个篇章样本对应的隐状态向量及注意力值进行解码处理，确定每个待评价目标的情感概率分布，并依此确定每个篇章样本的预测情感概率分布；根据每个篇章样本的预测情感概率分布与标注情感概率分布的差异，对预设的编码器、各预设的权重矩阵及预设的解码器进行更新。基于篇章级的情感标注数据训练模型，成本低，实用性高。

全部详细技术资料下载

【技术实现步骤摘要】
无监督的多目标篇章级情感分类模型训练方法和装置
本申请涉及计算机
，具体涉及自然语言处理(NaturalLanguageProcessing，NLP)
，尤其涉及一种无监督的多目标篇章级情感分类模型训练方法和装置。
技术介绍
目前多目标篇章级情感分析方法，多是基于有监督的深度学习实现的。这这种方法需要将标注好的篇章文本中各评价目标的情感极性作为训练数据进行模型训练。但是，由于篇章文本中各评价目标的情感极性标注过程需要大量的人力和物力，从而使得该分析方法的成本太高，实用性较差。
技术实现思路
本申请提出一种无监督的多目标篇章级情感分类模型训练方法和装置，用于解决相关技术中，用于基于有监督的深度学习进行多目标篇章级情感分析，成本较高，实用性差的问题。本申请一方面实施例提出了一种无监督的多目标篇章级情感分类模型训练方法，包括：利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本对应的隐状态向量，其中，所述训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布；根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个篇章样本中每个待评价目标对应的注意力值；利用预设的解码器，对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理，确定每个篇章样本中每个待评价目标对应的情感概率分布；根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率...

【技术保护点】
1.一种无监督的多目标篇章级情感分类模型训练方法，其特征在于，包括：/n利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本对应的隐状态向量，其中，所述训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布；/n根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个篇章样本中每个待评价目标对应的注意力值；/n利用预设的解码器，对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理，确定每个篇章样本中每个待评价目标对应的情感概率分布；/n根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布；/n根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异，对所述预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。/n

【技术特征摘要】
1.一种无监督的多目标篇章级情感分类模型训练方法，其特征在于，包括：
利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本对应的隐状态向量，其中，所述训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布；
根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个篇章样本中每个待评价目标对应的注意力值；
利用预设的解码器，对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理，确定每个篇章样本中每个待评价目标对应的情感概率分布；
根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布；
根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异，对所述预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。

2.如权利要求1所述的方法，其特征在于，所述计算每个篇章样本中每个待评价目标对应的注意力值之前，还包括：
根据每个篇章样本中每个分词与每个待评价目标对应的候选词典中各候选词的匹配度，确定每个篇章样本中包括的待评价目标。

3.如权利要求1所述的方法，其特征在于，所述计算每个篇章样本中每个待评价目标对应的注意力值之前，还包括：
对每个篇章样本中各子句进行语义识别，确定每个篇章样本中包括的待评价目标。

4.如权利要求1所述的方法，其特征在于，所述计算每个篇章样本中每个待评价目标对应的注意力值之前，还包括：
确定篇章样本中各分词与该篇章样本中包含的待评价目标对应的各种子词间的距离，其中，所述待评价目标对应的种子词，与所述待评价目标对应的候选词典中的候选词的匹配度大于阈值；
根据每个分词与所述待评价目标对应的各种子词间的距离，对所述待评价目标对应的预设的权重矩阵中每个分词对应的权重值进行修正。

5.如权利要求1-4任一所述的方法，其特征在于，所述根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布，包括：
根据每个篇章样本中每个待评价目标在每种情感中的分布概率均值，确定该篇章样本在每种情感中的分布概率。

6.如权利要求1-4任一所述的方法，其特征在于，所述根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布，包括：
根据每个篇章样本中每个待评价目标在每种情感中的分布概率、及每个待评价目标的权重，确定该篇章样本在每种情感中的分布概率。

7.一种无监督的多目标篇章级情感分类模型训练装置，其特征在于，包括：
第一确定模块，用于利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本...

【专利技术属性】
技术研发人员：刘昊，何伯磊，肖欣延，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人