基于置信学习的航空领域文本分类方法技术

技术编号:37136559 阅读:23 留言:0更新日期:2023-04-06 21:36
本发明专利技术涉及一种基于置信学习的航空领域文本分类方法,其包括以下步骤,步骤1:基于Bert模型进行文本编码与概率预测;步骤2:基于分布估计实现文本噪音数据识别;步骤3:基于样本采样实现带噪音的文本数据清洗;步骤4:基于联合学习的模型重训练,实现文本分类。本发明专利技术通过置信学习技术实现了基于分布估计的带噪音文本数据识别方法,能够有效估计文本噪音数据的真实标签,发现并清洗噪音数据,进行文本数据过滤。本发明专利技术使用联合学习技术取样损失小的样本来进行学习,再通过两个模型互相更新对方的权重以达到互相纠错效果,以此进行文本数据的深层过滤。本发明专利技术通过两次过滤,减少训练模型的错误积累,提升模型的预测效果,增加文本分类的准确度。本分类的准确度。本分类的准确度。

【技术实现步骤摘要】
基于置信学习的航空领域文本分类方法


[0001]本申请涉及航空产品文本分类领域,具体地涉及一种基于置信学习的航空领域文本分类方法。

技术介绍

[0002]在数据处理
,伴随信息的爆炸式增长,人工标注数据已经变得耗时,且易受标注人主观意识影响而难以保证质量。因此,利用机器实现自动化对文本标注越来越有现实意义,这就需要用到文本分类技术。该技术将重复且枯燥的文本分类任务交由计算机依托一定分类体系进行处理,能够得到具有一致性、质量维持高水平的标注数据,以克服以上问题。该技术的应用亦非常广泛,有如垃圾邮件过滤、新闻分类、微博情感分析、意图识别等任务。
[0003]当前研究方法采用模型预测方法来提供文本分类标签。在模型训练过程中,模型分类效果之优高度依赖于干净且大量的、人工标注的正例样本和负例样本。实验中假设数据集即干净的,而实际应用场景下,由于人工标注数据质量难以保证,其中必然存在噪声数据,进而在训练过程中给模型提供一定的错误信息积累,模型效果亦倾向折损。
[0004]由此对人工标注数据引入评价体系——置信学习,即一种新兴的、具有原本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于置信学习的航空领域文本分类方法,其特征在于,其包括以下步骤:步骤1:基于Bert模型进行文本编码与概率预测;使用Bert预训练模型进行文本数据编码,获得在编码阶段预测的标签值,然后使用一层激活函数进行归一化处理,转换成0至1之间的概率值,并确定每条文本数据基于每个类别的概率为:式中:表示词块x基于各类别的预测概率;softmax表示归一化函数;FFN(x)表示编码阶段预测的标签值;x表示文本数据的词块样本;步骤2:基于分布估计实现文本噪音数据识别;步骤21:对于每个标定类别j,所有样本在该类别j下的概率均值,乘以百分比系数以作阈值控制,获得置信度,置信阈值t
j
的表达式为:式中:t
j
表示需要计算的置信阈值;表示标定类别变量;j表示具体的标定类别;表示标定类别的噪声数据;表示标定类别的噪声数据数量;表示模型预测的样本x基于标定类别的概率;θ表示模型参数;X表示整个句子在文本编码表示之后的矩阵;步骤22:计算置信联合计数矩阵用于评估在真实标签y
*
=j条件下误标成的数据子集,并将原数据集分割成了多个数据子集桶获得置信联合计数矩阵的表达式,具体为:式中:表示在真实标签y
*
=j条件下误标成的置信联合计数;i表示标定类别j表示估计真实标签类别y
*
=j;表示置信联合计数矩阵;表示在真实标签y
*
=j条件下误标成的数据子集,且对于该数据子集的每个样本的模型预测概率均需达到置信阈值t
j
;步骤23:通过联合置信估计真实标签y
*
=j与错误标签的联合分布通过下式求得:式中:表示置信学习所需求得的真实标签y
*
=j与错误标签的联合分布;表示标定后的置信联合计数矩阵;m表示标签类别总数;使用噪音矩阵表征真实标签y
*
=j,则标定后计数矩阵及联合分布用于完成带噪音数据
清洗提供依据;步骤3:基于样本采样实现带噪音的文本数据清洗;每个类别均过滤部分排序上低概率的样本,对每个标记类别都进行评估,每个类别i∈[m]的数量样本进行剪枝,表示为:式中:num表示计算出来的该人工标记类别的剪枝数量;Sn表示X总样本数量;对标注类别的数据进行排序,以模型预测概率增长排序,然后剪除前部分的num个样本;将未被剪除的样本组成新的数据集D;步骤4:基于联合学习的模型重训练,实现文本分类;通过使用两个未经训练的Bert模型并使用数据集D互相参照对方进行学习,参照的方式为将损失小的样本交由对方模型学习,具体为:两个未经训练的Bert模型称为模型f、g,表示为f(y;x,θ
f
)、g(y;x,θ
g
),其中x为输入文本,y为输出类别,θ
f
、θ
g
分别表示模型f、g的参数;在对模型f、g分别训练的基础上,对于两个模型互相参照对方重新调整模型参数表达式如下所示:式中:θ
f
、θ
g
分别表示模型f、g的参数;η表示开始时设定的学习率;Loss表示损失函数;分别表示模型f、g经过计算后选择出来的损失小的样本;当T=T
max
时完成联合学习训练,输出模型的参数;选择模型f(y;x,θ
f
)进行文本分类预测,使用模型f(y;x,θ
f
)执行步骤1,得到需预测文本x基于各个类别的概率,概率最大者为所述文本x所对应的类别y。2.根据权利要求1所述的基于置信学习的航空领域文本分类方法,其特征在于,所述步骤1中的使用Bert预训练模型进行文本数据编码,具体为:使用Bert的base级别模型,对于给定的一个中文句子,分成多个词块后表示为向量如下所示;S=[c1,c2,

,c
a
,

,c
n
];式中:S表示中文句子的向量形式;c
a
表示文本中的第a个字符;a表示文本中的字符编号,a∈(1,2,

,n);n表示文本中的字符总数;首先是目标词嵌入,通过上述分词器将每个词块映射成分词器内置词汇表内的编号使预训练模型能够以计算机的方式理解该词块;然后是段嵌入,由于模型处理文本之长度有限,使用该种嵌入以区分文本每一段内容,文本多在预处理已经切分成合适模型处理的长度而无需模型切分,每个词块的段嵌入值均为E
A
=0;最后是位置嵌入,提供词块的位置信息给预训练模型,后续模型自注意力依次计算得到词块的上下文信息,该嵌入值为词块的索引,即将上述三者嵌入进行叠加,得到文本在此处的句子编码,公式如下所示:
式中:X
a
表示句子中第a个词块的文本编码嵌入信息;表示第a个词块目标的词嵌入;E
A
表示该句子的段嵌入;表示第a个词块的位置嵌入;Bert模型在进行下一句预测之前,需要使用文本编码进行训练,自注意力输入句子编码X后,首先将X乘上W
Q
、W
K
、W
V
权值矩阵得到Q、K、V,权值矩阵为...

【专利技术属性】
技术研发人员:刘俊贺薇董洪飞陶剑秦晓瑞胡德雨安然何柳高魁裴育
申请(专利权)人:中国航空综合技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1