当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于图增强的互学习文本分类方法及系统技术方案

技术编号:36353969 阅读:13 留言:0更新日期:2023-01-14 18:10
本申请公开了一种基于图增强的互学习文本分类方法及系统,包括预处理待分类文本,得到文本图结构和文本序列;基于所述文本图结构,构建图文本分类模型;将所述文本序列输入预训练语言模型中;基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;对所述互学习框架进行学习和更新,得到互学习文本分类结果。一种利用互学习方式的图文本分类模型与预训练语言模型有效结合的框架,基于图文本分类模型与预训练语言模型相结合,在一个框架下同时对两个基本模型进行优化;通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题。不匹配的问题。不匹配的问题。

【技术实现步骤摘要】
一种基于图增强的互学习文本分类方法及系统


[0001]本申请属于人工智能的自然语言处理领域,具体涉及一种基于图增强的互学习文本分类方法及系统。

技术介绍

[0002]文本分类是自然语言处理领域的一项基础性工作,在情感分析、信息检索、意图识别等众多领域中得到了广泛的应用。近年来,由于图神经网络在处理非欧式空间中具有复杂网络结构的任务和捕获远程依赖关系方面的优势,越来越多的研究开始使用图神经网络对文本进行分类。然而,将文本建模成图结构往往会导致文本上下文的序列结构的丢失,而这种上下文特征在情感识别等一些子领域中具有特殊的意义。此外,随着大规模预训练语言模型的发展,越来越多的自然语言处理任务利用预训练语言模型的杰出性能,取得了明显的进步,但是基于图的文本分类方法与大规模预训练语言模型的结合能力还有待探究。
[0003]综上所述,现存的技术问题是:目前针对基于图的文本分类方法与大规模预训练语言模型相结合的研究较少,无法在有效利用图结构的优势的同时,保留文本的上下文特征。
[0004]解决上述技术问题的难度:
[0005]第一,基于图的文本分类方法需要将文本构建成图结构,而大规模预训练语言模型则要求将文本建模成序列,因此无法统一。
[0006]第二,基于图的方法与预训练模型存在训练速度不一致、收敛速度不统一的情况,因此难以在同一个框架下搜寻最优的解决方案。第三,基于图的方法与预训练方法之间的更新方式不同,前者主要将所有数据都加载入内存,进行全批次的更新;而预训练模型由于参数量太大,无法全部存入内存,需要进行小批次地更新,这也提升了模型结合的难度。

技术实现思路

[0007]本申请提出了一种基于图增强的互学习文本分类方法及系统,一种利用互学习方式基于图文本分类模型与预训练语言模型有效结合的框架。
[0008]为实现上述目的,本申请提供了如下方案:
[0009]一种基于图增强的互学习文本分类方法,包括以下步骤:
[0010]预处理待分类文本,得到文本图结构和文本序列;
[0011]基于所述文本图结构,构建图文本分类模型;
[0012]将所述文本序列输入预训练语言模型中;
[0013]基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;
[0014]对所述互学习框架进行学习和更新,得到互学习文本分类结果。
[0015]优选的,所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词

单词边以及文档

单词边。
[0016]优选的,所述单词

单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点
互信息定义如下:
[0017][0018]其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率。
[0019]优选的,所述文档

单词边的权重则由文档频率

逆文档频率给出,文档频率的公式如下:
[0020][0021]其中TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
[0022]逆文档频率的公式如下:
[0023][0024]其中,N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
[0025]而文档频率

逆文档频率计算方式如下:
[0026]TF(d,w)

IDF(w)=TF(d,w)*IDF(w)
[0027]将逐点互信息以及文档频率

逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图。
[0028]优选的,所述构建图文本分类模型的方法包括:基于所述异构图,通过卷积神经网络构建图文本分类模型。
[0029]优选的,所述图文本分类模型包括:前向传播方式,公式如下:
[0030][0031]其中,X表示每个节点的独热向量特征编码,W0,W1表示可学习参数矩阵,表示标准化的邻接矩阵。
[0032]优选的,将所述文本序列输入预训练语言模型的方法包括:将文本字符串分词并根据词表索引转化为整型数组,输入加载参数后的预训练语言模型,并执行预训练语言模型的前向传播方式。
[0033]优选的,所述构建互学习框架的方法包括:基于所述图文本分类模型和预训练语言模型使用Softmax

T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,同时通过KL散度的方式进行概率分布的相互逼近,在此基础上构建联合损失函数。
[0034]优选的,所述概率分布计算公式如下:
[0035][0036]其中,表示图模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示
待分类的类别数,表示平滑之后分布的属于类别i的概率;将模型的输出z
g
以及z
c
分别转化为两个平滑之后的概率分布以及全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示
[0037]所述概率分布逼近计算公式如下:
[0038][0039]其中,表示第l个样本属于类别i的概率,g,c分别用于表示图模型以及上下文模型;
[0040]所述联合损失函数计算公式如下:
[0041][0042][0043]其中,L
c
以及L
g
分别表示预训练语言模型以及图模型基于交叉熵的有监督文本分类损失,总体的损失表示为有监督的交叉熵的损失与概率分布散度损失之和。
[0044]本申请还提供一种基于图增强的互学习文本分类系统,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
[0045]所述预处理模块用于对待分类文本进行预处理;
[0046]所述图模块用于对所述预处理模块的处理结果构建图模型;
[0047]所述预训练语言模块用于对所述预处理模块的处理结果输入到预训练语言模型中;
[0048]所述互学习模块用于对所述图模块和所述预训练语言模块构建互学习框架;
[0049]所述学习更新模块用于对所述互学习模块进行优化,得到互学习分类文本。
[0050]本申请的有益效果为:本申请首次公开了利用互学习的思想,将基于图文本分类模型与预训练模型相结合,在一个框架下同时对两个基本模型进行优化;提出不对称学习的策略,对通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题;可以很容易地与当前流行的大规模预训练语言模型相结合,并进一步提高模型的性能。
附图说明
[0051]为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图增强的互学习文本分类方法,其特征在于,包括以下步骤:预处理待分类文本,得到文本图结构和文本序列;基于所述文本图结构,构建图文本分类模型;将所述文本序列输入预训练语言模型中;基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;对所述互学习框架进行学习和更新,得到互学习文本分类结果。2.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词

单词边以及文档

单词边。3.根据权利要求2所述的基于图增强的互学习文本分类方法,其特征在于,所述单词

单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率。4.根据权利要求2所述的基于图增强的互学习文本分类方法,其特征在于,所述文档

单词边的权重则由文档频率

逆文档频率给出,文档频率的公式如下:其中,TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;逆文档频率的公式如下:其中N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;而文档频率

逆文档频率计算方式如下:TF(d,w)

IDF(w)=TF(d,w)*IDF(w)将逐点互信息以及文档频率

逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图。5.根据权利要求4所述的基于图增强的互学习文本分类方法,其特征在于,所述构建图文本分类模型的方法包括:基于所述异构图,通过卷积神经网络构建图文本分类模型。6.根据权利要求5所述的基于图增强的互学习文本分类方法,其特征在于,所述图文本分类模型包括:前向传播方式,公式如下:其中,X表示每个节点的独热向量特征编...

【专利技术属性】
技术研发人员:徐昊宋瑞申强石立达
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1