一种基于对比学习和图学习的法案文本多标签分类方法及系统技术方案

技术编号:37716924 阅读:13 留言:0更新日期:2023-06-02 00:13
本发明专利技术公开一种基于对比学习和图学习的法案文本多标签分类方法及系统,包括:该方法以roBerta模型作为基础,在法案文本数据集上进行继续训练以适应法律文本特点;基于aprior算法挖掘标签中的频繁项集,为构造正负样例提供一种相似度衡量指标;基于微调后的roBerta模型及相似度衡量指标构造样例对,以进行对比学习;基于法案数据特点,结合外部数据构造异质图,并将微调后roBerta模型用于法案文本表示学习,作为异质图中相关节点的初始化表示;采用图神经网络技术完成节点表示学习;在此基础上实现法案与标签节点间边预测,完成法案文本多分类。本发明专利技术有效缓解小样本语料环境带来的模型训练难题且扩展性强。的模型训练难题且扩展性强。的模型训练难题且扩展性强。

【技术实现步骤摘要】
一种基于对比学习和图学习的法案文本多标签分类方法及系统


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于对比学习和图学习的法案文本多标签分类方法及系统。

技术介绍

[0002]文本多标签分类任务旨在给一段文本实例提供一组标签,以标定文本的不同维度特征,如一篇关于神州十四号成功发射的报道可以归类为社会类新闻,也可以同时标记为科技类新闻。然而,多标签分类任务的解决面临以下几个难题:第一,类数量的不确定;第二,类标签之间存在相互依赖的关系。尤其是在法案文本主题分类领域,数据集规模较小,且存在严重的类不均衡问题,更加难以支撑起当前自然语言处理主流方法——预训练语言模型的训练与应用。
[0003]目前,多标签分类技术往往在传统机器学习方法的基础上改进,如ML

KNN、Rank

SVM等;对于深度学习方法,为了避免预测空间的指数爆炸增强,一般将多标签分类任务转换为序列预测任务。这些方法存在特征挖掘能力弱、性能低下以及扩展性差等问题。

技术实现思路

[0004]本专利技术针对现有多标签分类技术存在的特征挖掘能力弱、性能低下以及扩展性差等问题,提供一种基于对比学习和图学习的法案文本多标签分类方法及系统,用以解决法案文本主题多标签分类任务。旨在通过对比学习捕获文本中与主题标签相关的特征,得到更优的语义表示。基于此,对多标签法案文本主题分类任务进行异质图建模,融合多种信息。而后使用图神经网络技术对节点进行表示学习,随后完成边预测任务。在对比学习正负样本设计、图建模过程中,充分考虑多标签分类任务的特性,发掘多标签之间的潜在依赖关系。
[0005]为了实现上述目的,本专利技术采用以下技术方案:
[0006]本专利技术一方面提出一种基于对比学习和图学习的法案文本多标签分类方法,包括:
[0007]步骤1,以训练语言模型roBerta模型作为基础,在法案文本数据集上进行继续训练以适应法律文本特点,完成对roBerta模型的一次微调;
[0008]步骤2,基于aprior算法挖掘标签中的频繁项集,为构造正负样例提供一种相似度衡量指标Sim;
[0009]步骤3,基于微调后的roBerta模型及相似度衡量指标Sim,构造样例对,以进行对比学习,完成对roBerta模型的二次微调;
[0010]步骤4,基于法案数据特点,结合外部数据构造异质图,并将二次微调后的roBerta模型用于法案文本表示学习,作为异质图中相关节点的初始化表示;
[0011]步骤5,采用图神经网络技术,完成节点表示学习;在此基础上实现法案与标签节
点间边预测,完成法案文本多分类。
[0012]进一步地,所述步骤1包括:
[0013]步骤1.1,选择预训练语言模型roBerta作为基础,该模型的语种版本随着任务语种不同而调整;
[0014]步骤1.2,对法案文本数据集中的样本,使用关键词抽取技术识别出关键词;
[0015]步骤1.3,使用掩码[mask]替换上述关键词,作为训练数据集输入到roBerta模型中,使其完成[mask]标签的预测任务。
[0016]进一步地,所述步骤2包括:
[0017]步骤2.1,基于aprior算法,挖掘标签中频繁出现的标签对,并得到频繁出现的标签对的置信度σ,在此基础上设定阈值Δ过滤出高置信度的标签对;
[0018]步骤2.2,对于给定的一对法案文本<T1,T2>及其标签<L1,L2>,定义二者相似度并计算:
[0019]Sim(T1,T2)=[len(L1∩L2)/len(L1∪L2)]·
(∑
i,j
σ
ij
/N
i,j
)
ꢀꢀꢀ
(2)
[0020]其中i和j是两法案标签集交集中任意两个标签,{i,j|i,j∈L1∩L2,σ
i,j
≥Δ},Sim(T1,T2)表示T1和T2之间的相似度;len(L1∩L2)/len(L1∪L2)为相似度基准,为二者标签结合的交集与并集的大小的比值。
[0021]进一步地,所述步骤3包括:
[0022]步骤3.1,根据计算得出的法案文本相似度指标,设计对比学习的损失函数loss:
[0023]loss=||Cosine(E1,E2)

λ
·
Sim(T1,T2)||
ꢀꢀꢀ
(3)
[0024]其中Cosine(
·
)表示余弦相似度计算;E1,E2表示一对法律文本输入到微调后的roBerta模型中,得到的两个文本的表示;λ表示超参数;
[0025]步骤3.2,随机选择一对法律文本,输入到微调后的roBerta模型中,得到两个文本的表示;继而,按照公式(3)计算损失函数并进行损失回传,对模型继续训练。
[0026]进一步地,所述步骤4包括:
[0027]步骤4.1,构造异质图,将标签、法案发起人及法案文本本身作为图中节点,依据现实背景设计关联规则,将节点关联起来,完成构图过程;
[0028]步骤4.2,对不同的节点赋予不同的特征表示,其中标签、法案发起人使用one

hot编码,法案文本节点使用二次微调后的roBerta模型进行编码。
[0029]进一步地,所述步骤5包括:
[0030]步骤5.1,划分训练集与测试集:首先对法案节点进行划分,得到训练节点和测试节点;随后,对法案与不同标签之间的边按照一定的概率进行随机遮蔽,以作为模型预测的内容;
[0031]步骤5.2,对图神经网络进行训练:采用异质图神经网络算法对上述随机掩蔽的边进行预测,完成模型训练;
[0032]步骤5.3,基于训练好的图神经网络模型,对测试数据集中法案与标签节点间是否存在关联进行预测。
[0033]本专利技术另一方面提出一种基于对比学习和图学习的法案文本多标签分类系统,包括:
[0034]适应性训练模块,用于以训练语言模型roBerta模型作为基础,在法案文本数据集
上进行继续训练以适应法律文本特点,完成对roBerta模型的一次微调;
[0035]相似度计算模块,用于基于aprior算法挖掘标签中的频繁项集,为构造正负样例提供一种相似度衡量指标Sim;
[0036]对比学习模块,用于基于微调后的roBerta模型及相似度衡量指标Sim,构造样例对,以进行对比学习,完成对roBerta模型的二次微调;
[0037]异质图构建模块,用于基于法案数据特点,结合外部数据构造异质图,并将二次微调后的roBerta模型用于法案文本表示学习,作为异质图中相关节点的初始化表示;
[0038]边预测模块,用于采用图神经网络技术,完成节点表示学习;在此基础上实现法案与标签节点间边预测,完成法案文本多分类。
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习和图学习的法案文本多标签分类方法,其特征在于,包括:步骤1,以训练语言模型roBerta模型作为基础,在法案文本数据集上进行继续训练以适应法律文本特点,完成对roBerta模型的一次微调;步骤2,基于aprior算法挖掘标签中的频繁项集,为构造正负样例提供一种相似度衡量指标Sim;步骤3,基于微调后的roBerta模型及相似度衡量指标Sim,构造样例对,以进行对比学习,完成对roBerta模型的二次微调;步骤4,基于法案数据特点,结合外部数据构造异质图,并将二次微调后的roBerta模型用于法案文本表示学习,作为异质图中相关节点的初始化表示;步骤5,采用图神经网络技术,完成节点表示学习;在此基础上实现法案与标签节点间边预测,完成法案文本多分类。2.根据权利要求1所述的一种基于对比学习和图学习的法案文本多标签分类方法,其特征在于,所述步骤1包括:步骤1.1,选择预训练语言模型roBerta作为基础,该模型的语种版本随着任务语种不同而调整;步骤1.2,对法案文本数据集中的样本,使用关键词抽取技术识别出关键词;步骤1.3,使用掩码[mask]替换上述关键词,作为训练数据集输入到roBerta模型中,使其完成[mask]标签的预测任务。3.根据权利要求1所述的一种基于对比学习和图学习的法案文本多标签分类方法,其特征在于,所述步骤2包括:步骤2.1,基于aprior算法,挖掘标签中频繁出现的标签对,并得到频繁出现的标签对的置信度σ,在此基础上设定阈值Δ过滤出高置信度的标签对;步骤2.2,对于给定的一对法案文本<T1,T2>及其标签<L1,L2>,定义二者相似度并计算:Sim(T1,T2)=[len(L1∩L2)/len(L1∪L2)]
·
(∑
i,j
σ
ij
/N
i,j
)
ꢀꢀꢀꢀꢀꢀꢀ
(2)其中i和j是两法案标签集交集中任意两个标签,{i,j|i,j∈L1∩L2,σ
i,j
≥Δ},Sim(T1,T2)表示T1和T2之间的相似度;len(L1∩L2)/len(L1∪L2)为相似度基准,为二者标签结合的交集与并集的大小的比值。4.根据权利要求3所述的一种基于对比学习和图学习的法案文本多标签分类方法,其特征在于,所述步骤3包括:步骤3.1,根据计算得出的法案文本相似度指标,设计对比学习的损失函数/loss:loss=||Cosine(E1,E2)

λ
·
Sim(T1,T2)||
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中Cosine(
·
)表示余弦相似度计算;E1,E2表示一对法律文本输入到微调后的roBerta模型中,得到的两个文本的表示;λ表示超参数;步骤3.2,随机选择一对法律文本,输入到微调后的roBerta模型中,得到两个文本的表示;继而,按照公式(3)计算损失函数并进行损失回传,对模型继续训练。5.根据权利要求1所述的一种基于对比学习和图学习的法案文本多标签分类方法,其特征在于,所述步骤4包括:步骤4.1,构造异质图,将标签、法案发起人及法案文本本身作为图中节点,依据现实背景设计关联规则,将节点关联起来,完成构图过程;
步骤4.2,对不同的节点赋予不同的特征表示,其中标签、法案发起人使用one

hot编码,法案文本节点使用二次微调后的roBerta模型进行编码。6.根据权利要求5所述的一种基于对比学习和图学习的法案文本多标签分类方法,其特征在于,所述步骤5包括:步骤5.1,划分训练集与测试集:首先对法案节点进行划分,得到训练节点和测试节点;随后,对法案与不同标签之间的边按照一定的概率进行随机遮蔽,以作为模型预测的内容;步骤5.2,对图神经网络进行训练:采用异质图神经网络算法对上述随机掩蔽的边进行预测,完成模型训练;步...

【专利技术属性】
技术研发人员:李顺航李志博周刚兰明敬付文帅侯雪梅左宗李笑晨刘晨阳
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1