【技术实现步骤摘要】
基于对抗性类别对齐网络的跨领域情感分类方法及系统
[0001]本专利技术属于文本分类预测
,具体涉及一种基于对抗性类别对齐网络的跨领域情感分类方法及系统。
技术介绍
[0002]跨领域文本情感分类,旨在通过迁移学习,利用源领域已标注文本来提高目标领域未标注文本情感分类性能。
[0003]目前对跨领域文本情感分类的相关研究主要可以分为三类:(1)基于实例加权的跨领域文本情感分类方法,通过在训练过程中赋予与目标领域相似样本更高的权重以此来降低源领域和目标领域之间的分布差异,但此方法在迁移过程不可避免的会产生负面迁移的问题,反而会降低目标领域情感分类性能;(2)基于特征选择的跨领域文本情感分类方法,通过对源领域和目标领域之间枢轴特征和非枢轴特征建立关系,构建一个领域共享的特征表示空间,但该方法常常使用词袋模型和N
‑
gram特征来对文本向量化,未能充分考虑文本上下文关系以及局部关键语义特征;(3)基于特征表示学习的跨领域文本情感分类方法,通过训练网络模型参数,学习适应于源领域和目标领域的文本特征表示 ...
【技术保护点】
【技术特征摘要】
1.一种基于对抗性类别对齐网络的跨领域情感分类方法,其特征在于,包括以下步骤:从常识库中提取相关领域的知识,生成与文本相关的常识知识特征,来增强文本的语义;对历史上下文信息进行编码,生成具有上下文信息的原始句子特征;融合外部知识生成的文本相关的常识知识特征和原始句子特征,生成兼具特异性和泛化性的文本表示;基于对抗性类别对齐网络,在全局边缘对齐的先验条件下,进行类别级别的对齐;对融合的文本特征向量进行分类预测,实现情感类别的输出。2.根据权利要求1所述的基于对抗性类别对齐网络的跨领域情感分类方法,其特征在于,采用关系图卷积网络R
‑
GCN从常识库中提取相关领域的知识,生成与文本相关的常识知识特征,具体为:首先从数据集中所有领域的训练文档中提取出所有唯一的名词、形容词和副词的集合,以此集合为种子来过滤原始知识图来建立基于所有领域的知识子图然后训练一个图形自动编码器模型来进行链接预测;所述图形自动编码器模型以来自图中边ε
′
的不完整边作为输入,输出边(c1,r,c2)的可能性得分;所述图形自动编码器模型包括一个R
‑
GCN编码器和一个DistMut评分模型;所述R
‑
GCN编码器在给定知识图的局部区域中学习域聚合特征向量;所述R
‑
GCN编码器的计算公式如下:GCN编码器的计算公式如下:其中,g
i
为初始图特征向量,为域聚合特征向量,表示知识图中的在关系下的节点i,c
i,r
是一个归一化常数,预先设置使得均为可变化的学习参数;所述DistMut评分模型用于计算三元组(c
i
,r,c
j
)的得分:其中,σ是logistic函数,是图节点c
i
,c
j
的域聚合特征向量,每个关系还与一个对角矩阵相关联;所述图形自动编码器模型预训练所使用标准交叉熵损失函数如下:其中,y表示图节点c
i
,c
j
是否有链接,有为1,没有为0。
3.根据权利要求1所述的基于对抗性类别对齐网络的跨领域情感分类方法,其特征在于,对历史上下文信息进行编码,生成具有上下文信息的原始句子特征,具体为:首先利用词袋模型将句子矢量化,再利用双向LSTM对历史上下文进行编码;所述双向LSTM的计算公式如下:所述双向LSTM的计算公式如下:所述双向LSTM的计算公式如下:其中,t时刻第一层,即顺时间循环层的隐藏状态取决于前一时刻的隐藏状态和输入值x
t
;第二层,即逆时间循环层的隐藏状态也取决于前一时刻的隐藏状态和输入值x;U
(1)
,W
(1)
,b
(1)
,U
(2)
,W
(2)
,b
(2)
都是可训练参数。4.根据权利要求1所述的基于对抗性类别对齐网络的跨领域情感分类方法,其特征在于,融合外部知识生成的文本相关的常识知识特征和原始句子特征,具体为:定义外部知识生成的文本相关的常识知识特征向量和原始句子向量对常识知识特征和原始句子通过以下公式进行融合:对常识知识特征和原始句子通过以下公式进行融合:其中,表示领域i的第j个句子的常识知识特征,表示领域i的第j个句子的原始句子特征;b
g
均为可训练权重,经过sigmoid后得到一个权重g
j
,分别于g
j
和1
‑
g
j
进行点积再拼接得到最终的融合向量u
j
。5.根据权利要求1所述的基于对抗性类别对齐网络的跨领域情感分类方法,其特征在于,基于对抗性类别对齐网络,在全局边缘对齐的先验条件下,进行类别级别的对齐,具体为:构建对抗性类别对齐网络模型,所述模型先在训练阶段使得...
【专利技术属性】
技术研发人员:廖祥文,郭星宇,朱雨航,曾梦美,蔡鸿杰,
申请(专利权)人:福州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。