一种属性词提取方法技术

技术编号:26223184 阅读:32 留言:0更新日期:2020-11-04 10:55
本发明专利技术公开了一种属性词提取方法,该方法提出了双编码器的神经网主题模型结构,使用预设的属性编码器和辅助编码器进行评论文档的编码,解决了无法编码评论文档中情感表达偏差的问题,同时引入弱监督的种子词信息,提升双编码器神经网主题模型的学习效果,并且还引入了知识蒸馏思想,将属性编码器和辅助编码器作为知识蒸馏的教师模型和学生模型,实现双编码器的联合学习,完成迭代训练。相对于现有技术,本发明专利技术能够精准地提取评论文本中的属性词,在细粒度情感分析任务总提升情感分析的准确性。

【技术实现步骤摘要】
一种属性词提取方法
本专利技术涉及自然语言处理
,特别是涉及一种属性词提取方法。
技术介绍
情感分析是自然语言处理(NaturalLanguageProcessing,NLP)中的重要任务,其目的在于对带有情感色彩的主观性文本进行分析。情感分析从分析的粒度度层次看,可以分为篇章级、句子级和属性级这三种层次。其中,属性级情感分析是针对特定属性进行的情感分析任务,它能从更细粒度的层次挖掘用户情感倾向,因而成为当前的研究热点之一。属性级情感分析主要分为两个步骤:1)属性词提取和2)情感极性识别,前者从评论语料中挖掘出其中涉及的评价对象,既商品的某些属性,后者判断文本针对该属性表达的情感倾向。因此属性词提取是属性级情感分析的关键问题之一,属性词提取质量的好坏,能直接影响情感分析的结果。现有的属性词提取方法包括有监督方法和无监督方法,其中有监督方法需要大量有标注的评论语料进行模型训练,且领域迁移性差,限制了该方法的实用价值。无监督方法无需标注数据,具有较好的领域迁移性,但是缺点是缺少先验监督信息,模型准确率低。
技术实现思路
为克服相关技术中存在的问题,本专利技术实施例提供了一种属性词提取方法,包括如下步骤:获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量;获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量;根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量;将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重;获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取文档语义向量;获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵;根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。可选的,所述获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量,包括步骤:获取语料库中的篇评论文档以及第篇所述评论文档对应的第一词袋表示;其中,表示第篇所述评论文档中第个词的出现次数,表示词表中词的数量;将所述评论文档对应的第一词袋表示输入预设的第一多层感知机,得到所述评论文档对应的全局信息向量;其中,,表示第一多层感知机;可选的,所述获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量,包括步骤:获取所述语料库中预定义属性下的个所述种子词;根据所述种子词和已训练的词嵌入网络模型,得到所述种子词对应的词向量;其中,表示词向量的维度;获取第篇所述评论文档对应第个种子词的权重,根据所述权重对所述评论文档中所述种子词对应的词向量进行加权平均,得到所述种子词信息向量;其中,,表示第篇所述评论文档对应的第一词袋表示;拼接所述全局信息向量和种子词信息向量得到信息拼接向量;将所述信息拼接向量输入预设的第二多层感知机,获取所述评论文档的属性分布向量;其中,,表示第二多层感知机,和是可学习的参数;根据所述评论文档的属性分布向量和预设的Gumbel-Softmax采样算法,获取所述评论文档的属性标签向量和属性标签;其中,是一种近似独热码形式的向量,代表了第篇所述评论文档的属性标签。可选的,所述根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量,包括步骤:根据所述属性标签对所述全局信息向量进行归一化处理,得到所述归一化向量;将所述归一化向量输入预设的第三多层感知机,计算高斯先验分布的均值和方差;其中,,,,和,是可学习的参数;根据所述均值和所述方差,得到所述评论文档的辅助语义信息向量;其中,,,表示词向量的维度,由标准高斯分布采样得到。可选的,所述根据所述属性标签对所述全局信息向量进行归一化处理,得到所述归一化向量,包括步骤:根据所述属性标签对所述语料库中的所有评论文档进行归类,得到第篇所述评论文档属于第类的整体语义向量;其中,,表示所述语料库中共有个预定义属性。根据第篇所述评论文档属于第类的整体语义向量计算每个类的平均向量和标准差向量;其中,,,表示第类的评论文档的数量;根据所述评论文档的整体语义向量、所述平均向量和所述标准差向量,得到所述归一化向量;其中,,表示第篇所述评论文档属于第类的归一化向量。可选的,所述将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重,包括步骤:将所述辅助语义信息向量作为查询向量,根据所述辅助语义信息向量和所述种子词对应的词向量以及预设的注意力机制计算公式,更新所述评论文档中的所述种子词权重;其中,预设的注意力机制计算公式为:表示更新后的第篇所述评论文档对应第个种子词的权重,,,为可学习的参数,表示个所述种子词。可选的,所述获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取所述文档语义向量,包括步骤:对每个所述预定义属性下的所有所述种子词的词向量进行平均池化,得到每个所述预定义属性下的平均种子词词向量;其中,,表示第个属性类的种子词数,表示第个属性类的第个种子词的词向量,表示第个属性类的所有种本文档来自技高网...

【技术保护点】
1.一种属性词提取方法,其特征在于,包括步骤:/n获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量;/n获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量;/n根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量;/n将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重;/n获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取文档语义向量;/n获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵;/n根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。/n...

【技术特征摘要】
1.一种属性词提取方法,其特征在于,包括步骤:
获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量;
获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量;
根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量;
将所述辅助语义信息向量作为查询向量,根据所述种子词对应的词向量和预设注意力机制,更新所述评论文档中所述种子词的权重;
获取属性矩阵,根据所述属性矩阵和预设的语义解码器对所述属性标签向量和所述辅助语义信息向量进行解码,获取文档语义向量;
获取词表词向量矩阵,对所述词表词向量矩阵和所述文档语义向量解码重构,得到所述评论文档的第二词袋表示;根据所述第二词袋表示和第一词袋表示计算重构误差,根据所述重构误差和预设的优化算法更新目标参数,重复执行上述步骤,直至满足终止条件;其中,所述目标参数包括所述第一多层感知机、所述属性编码器、所述辅助编码器、所述注意力机制、所述语义解码器以及所述对所述词表词向量矩阵和所述文档语义向量解码重构中使用的所有参数以及所述属性矩阵和所述词表词向量矩阵;
根据所述属性矩阵和所述词表词向量矩阵,得到属性-词分布矩阵,根据属性-词分布矩阵提取所述评论文档的属性词。


2.根据权利要求1所述的属性词提取方法,其特征在于,所述获取语料库中的评论文档以及所述评论文档对应的第一词袋表示,根据所述评论文档对应的第一词袋表示和预设的第一多层感知机,得到所述评论文档对应的全局信息向量,包括步骤:
获取语料库中的篇评论文档以及第篇所述评论文档对应的第一词袋表示;其中,表示第篇所述评论文档中第个词的出现次数,表
示词表中词的数量;
将所述评论文档对应的第一词袋表示输入预设的第一多层感知机,得到所述评论文
档对应的全局信息向量;其中,,表示第一多层感知机。


3.根据权利要求1所述的属性词提取方法,其特征在于,所述获取所述语料库的多个预定义属性下的种子词、所述种子词对应的词向量以及不同所述评论文档中每个种子词的权重,根据所述权重对所述评论文档中所述种子词的词向量进行加权平均,得到种子词信息向量;拼接所述全局信息向量和种子词信息向量得到信息拼接向量,根据所述信息拼接向量和预设的属性编码器得到所述评论文档的属性标签和属性标签向量,包括步骤:
获取所述语料库中预定义属性下的个所述种子词;
根据所述种子词和已训练的词嵌入网络模型,得到所述种子词对应的词向量;其
中,,表示词向量的维度;
获取第篇所述评论文档对应第个种子词的权重,根据所述权重对所述评论
文档中所述种子词对应的词向量进行加权平均,得到所述种子词信息向量;其中,,表示第篇所述评论文档对应的第一词袋表示;
拼接所述全局信息向量和种子词信息向量得到信息拼接向量;
将所述信息拼接向量输入预设的第二多层感知机,获取所述评论文档的属性分布
向量;其中,,表
示第二多层感知机,和是可学习的参数;
根据所述评论文档的属性分布向量和预设的Gumbel-Softmax采样算法,获取所述
评论文档的属性标签向量和属性标签;其中,是一种近似独热码形式的向量,
代表了第篇所述评论文档的属性标签。


4.根据权利要求1所述的属性词提取方法,其特征在于,所述根据所述属性标签对所述全局信息向量进行归一化处理,得到归一化向量;根据所述归一化向量和预设的辅助编码器,获取所述评论文档的辅助语义信息向量,包括步骤:
根据所述属性标签对所述全局信息向量进行归一化处理,得到所述归一化向量;
将所述...

【专利技术属性】
技术研发人员:古东宏蔡倩华张方昊薛云梁展扬林威霖胡晓晖
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1