基于主动半监督学习和异质图注意力网络的文本分类方法技术

技术编号:36356244 阅读:60 留言:0更新日期:2023-01-14 18:12
本发明专利技术公开一种基于主动半监督学习和异质图注意力网络的文本分类方法,所述方法包括:基于有标签样本训练异质图注意力网络模型;基于训练后的异质图注意力网络模型对无标签样本进行多次推理预测;通过专家判断标记硬标签样本和软标签样本;对未被专家标记的无标签样本进行多次推理预测,并计算第二预测均值和第二预测方差;自适应的计算当前阶段模型的均值阈值和方差阈值,对未被专家标记的无标签样本打伪标签;混合所有样本,通过混合样本对训练后的异质图注意力网络模型进行进一步训练;重复以上过程直到满足设定的训练终止条件。本发明专利技术将基于信息增益的主动学习与基于伪标签的半监督学习进行有机融合,提高了训练数据的质量和模型的泛化能力。据的质量和模型的泛化能力。据的质量和模型的泛化能力。

【技术实现步骤摘要】
基于主动半监督学习和异质图注意力网络的文本分类方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于主动半监督学习和异质图注意力网络的文本分类方法。

技术介绍

[0002]近年来,基于大型预训练语言模型进行微调的方法,已广泛应用于文本分类、命名实体识别、问答等领域,并且当有大规模、集中式的训练数据可用时,该方法可获得最先进的性能。然而,在一些实际场景中,标注数据是稀缺的,而通过人工进行标注十分耗时。
[0003]主动学习和半监督学习是解决标签稀缺的两种常用技术。主动学习是一种高效的打标签的方法,通过选择和标记少量含有丰富信息量的未标记样本来构建高性能的分类器。半监督学习可以充分利用无标签数据来学习更多的知识,对经过有标签数据训练的模型进行增强,提高模型的泛化能力。目前基于主动学习的文本分类方法通过选择少量最有价值的节点已显著降低了标记成本。但是,这些主动学习方法假设硬标签(确切的标签,即指定节点的确切类的标签)总是可以由专家提供。但在一些领域中或者类别过多的场景下,有很多类别已经超出了专家的领域知识范围了,专家也很难给出确切类的标签。因此,如何降低专家打标注的难度目前在分类领域中仍是一个难点。
[0004]目前基于不确定性感知的打伪标签半监督学习方法已在图片领域取得了不错的效果,其通过对具有高预测均值和低不确定性值的无标签数据进行打正负伪标签,缓解了由于神经网络的校准较差而预测出很多错误的伪标签,导致模型的性能极具下降的问题。然而,这些阈值都是固定不变的,那么对于不同的数据集要不断的尝试最优阈值,阈值设置过大会导致模型在前期难以选择正负伪标签样本,或阈值设置过低导致模型后期选择大量带噪声的正负伪标签样本。因此,半监督学习中,如何根据模型的性能自适应的生成置信度阈值是一个亟待解决的问题。
[0005]文献《Heterogeneous Graph Attention Networks for Semi

supervised Short Text Classification》虽然公开了通过异质图注意力网络进行半监督的短文本分类,仍然不能很好的解决以上问题。
[0006]综上,如何经济有效的利用有限的标注数据和海量的无标注数据对模型进行高效的训练目前在文本分类领域中仍是一个难点。

技术实现思路

[0007]有鉴于此,本专利技术提出了一种基于主动半监督学习和异质图注意力网络的文本分类方法,用于解决无法基于有限的标注数据对模型进行高效的训练的问题。
[0008]本专利技术第一方面,公开一种基于主动半监督学习和异质图注意力网络的文本分类方法,所述方法包括:
[0009]S1、构造异质图注意力网络模型,基于有标签样本训练所述异质图注意力网络模型;
[0010]S2、基于训练后的异质图注意力网络模型对无标签样本进行多次推理预测,并计算第一预测均值;
[0011]S3、通过第一预测均值计算异质图注意力网络模型的所有节点的信息增益,选择一批信息增益大于预设阈值的无标签样本作为第一子样本供专家判断,其余无标签样本作为第二子样本;将第一子样本中预测正确的样本标记为硬标签样本,预测错误的样本标记为软标签样本;
[0012]S4、基于训练后的异质图注意力网络模型对第二子样本中的无标签样本进行多次推理预测,并计算第二预测均值和第二预测方差;
[0013]S5、根据第二预测均值和第二预测方差自适应的计算当前阶段模型的均值阈值和方差阈值;
[0014]S6、基于第二预测均值、第二预测方差以及相对应的均值阈值、方差阈值对第二子样本中的无标签样本打伪标签,并选择出正负样本伪标签;
[0015]S7、混合有标签样本、硬标签样本、软标签样本、正负伪标签样本得到混合样本,通过混合样本对训练后的异质图注意力网络模型进行进一步训练;
[0016]S8、重复步骤S2~S7,直到满足设定的训练终止条件。
[0017]在以上技术方案的基础上,优选的,所述异质图注意力网络模型定义为G=(N,R,f,g);
[0018]其中N表示节点,R表示关系;
[0019]f:N

A表示节点类型映射关系,即f(n)∈A表示节点n的类型属于集合A,节点类型集合A包括主题类型、实体类型和文本类型;
[0020]g:R

B表示关系类型映射关系,即g(r)∈B表示关系r的类型属于集合B,关系类型集合B包括实体与实体之间的关系、实体与文本之间的关系和文本和主题之间的关系。
[0021]在以上技术方案的基础上,优选的,所述异质图注意力网络模型的目标是聚合文本节点周围的主题节点和实体节点,且引入类型级别和节点级别的双层注意力机制以降低文本信息融合过程中的噪声。
[0022]在以上技术方案的基础上,优选的,所述第一预测均值和第二预测均值、第二预测方差是通过异质图注意力网络模型在预测阶段dropout一直处于激活状态时,针对同一输入样本进行多次前向传播,从而获取不同网络结构的预测值,并将多次预测值进行平均和统计方差的操作计算得到,其中平均值作为对应的预测均值,统计方差作为对应的预测方差。
[0023]在以上技术方案的基础上,优选的,所述通过第一预测均值计算异质图注意力网络模型的所有节点的信息增益具体包括:
[0024]定义信息增益函数:
[0025][0026]其中H表示熵函数,表示专家判断前的熵,P(v
i

)表示模型预测错误的概率;为专家判断后模型对样本v
i
预测错误的情况下的熵。
[0027]在以上技术方案的基础上,优选的,所述根据第二预测均值和第二预测方差自适应的计算当前阶段模型的均值阈值和方差阈值具体包括:
[0028]以正样本或以负样本自适应的计算均值阈值和方差阈值;
[0029]以正样本或以负样本自适应的计算均值阈值和方差阈值的过程中,在网络训练至第t轮次时的自适应阈值定义如下:
[0030][0031]T
max
表示需要自适应迭代学习的总轮次,系数α和β是预先定义的系数值,N
A
是已经被专家标注的样本数量,K表示专家需要标注样本的预算;
[0032]是一个计数函数,用于估计第t轮次网络的学习状态,定义如下:
[0033][0034]其中Max(P(v
i
))表示预测分数的最大值,N
u
表示未标注的样本数量,表示在满足Max(P(v
i
))>α+β的条件时取值为1,否则为0。
[0035]在以上技术方案的基础上,优选的,所述基于第二预测均值、第二预测方差以及相对应的均值阈值、方差阈值对第二子样本中的无标签样本打伪标签,并选择出正负样本伪标签具体包括:
[0036]满足以下条件的无标签样本将被选择为正伪标签:
[0037]最大类别对应的第二预测均值≥正样本预测的均值阈本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主动半监督学习和异质图注意力网络的文本分类方法,其特征在于,所述方法包括:S1、构造异质图注意力网络模型,基于有标签样本训练所述异质图注意力网络模型;S2、基于训练后的异质图注意力网络模型对无标签样本进行多次推理预测,并计算第一预测均值;S3、通过第一预测均值计算异质图注意力网络模型的所有节点的信息增益,选择一批信息增益大于预设阈值的无标签样本作为第一子样本供专家判断,其余无标签样本作为第二子样本;将第一子样本中预测正确的样本标记为硬标签样本,预测错误的样本标记为软标签样本;S4、基于训练后的异质图注意力网络模型对第二子样本中的无标签样本进行多次推理预测,并计算第二预测均值和第二预测方差;S5、根据第二预测均值和第二预测方差自适应的计算当前阶段模型的均值阈值和方差阈值;S6、基于第二预测均值、第二预测方差以及相对应的均值阈值、方差阈值对第二子样本中的无标签样本打伪标签,并选择出正负样本伪标签;S7、混合有标签样本、硬标签样本、软标签样本、正负伪标签样本得到混合样本,通过混合样本对训练后的异质图注意力网络模型进行进一步训练;S8、重复步骤S2~S7,直到满足设定的训练终止条件。2.根据权利要求1所述的基于主动半监督学习和异质图注意力网络的文本分类方法,其特征在于,所述异质图注意力网络模型定义为G=(N,R,f,g);其中N表示节点,R表示关系;f:N

A表示节点类型映射关系,即f(n)∈A表示节点n的类型属于集合A,节点类型集合A包括主题类型、实体类型和文本类型;g:R

B表示关系类型映射关系,即g(r)∈B表示关系r的类型属于集合B,关系类型集合B包括实体与实体之间的关系、实体与文本之间的关系和文本和主题之间的关系。3.根据权利要求2所述的基于主动半监督学习和异质图注意力网络的文本分类方法,其特征在于,所述异质图注意力网络模型的目标是聚合文本节点周围的主题节点和实体节点,且引入类型级别和节点级别的双层注意力机制以降低文本信息融合过程中的噪声。4.根据权利要求1所述的基于主动半监督学习和异质图注意力网络的文本分类方法,其特征在于,所述第一预测均值和第二预测均值、第二预测方差是通过异质图注意力网络模型在预测阶段dropout一直处于激活状态时,针对同一输入样本进行多次前向传播,从而获取不同网络结构的预测值,并将多次预测值进行平均和统计方差的操作计算得到,其中平均值作为对应的预测均值,统计方差作为对应的预测方差。5.根据权利要求4所述的基于主动半监督学习和异质图注意力网络的文本分类方法,其特征在于,所述通过第一预测均值计算异质图注意力网络模型的所有节点的信息增益具体包括:定义信息增益函数:
其中H表示熵函数,表示专家判断前的熵,P(v
i

)表示模型预测错误的概率;为专家判断后模型对样本v
i
预测错误的情况下的熵。6.根据权利要求1所述的基于主动半监督学习和异质图注意力网络的文本分类方法,其特征在于,所述根据第二预测均值和第二预测方差自适应的计算当前阶段模型的均值阈值和方差阈值具体...

【专利技术属性】
技术研发人员:桑艳娟王炎周嫣媛冀振燕李盛
申请(专利权)人:中科蓝智武汉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1