【技术实现步骤摘要】
基于特征学习的缺失多标签文本分类方法及装置
[0001]本专利技术涉及人工智能
,尤其涉及基于特征学习的缺失多标签文本分类方法及装置。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]目前,人工智能进入了新一轮快速发展的阶段,大模型的训练方法被认为可以揭下AGI(通用人工智能)的神秘面纱,然而,在实际应用中,大模型的训练方法往往需要大量的标注数据,在训练模型时需要大量劳动力去标注数据,采用多标签学习的方式可以有效解决海量数据的标注问题是目前业界的一个共识,虽然现有的多标签学习算法已经得到了广泛的应用,但仍然存在着一些问题。传统的多标签学习算法往往采用学习标签矩阵的范式,因此也需要对数据进行预处理操作,由于基于特定类型的数据集进行训练,在现实场景中,往往存在着分类不够准确的问题,同时训练前对数据进行标注仍需要消耗部分人力成本,探索如何有效的利用特征学习的方式提升模型的泛化能力,并有效的提升实际场景下的分类准确性。在 ...
【技术保护点】
【技术特征摘要】
1.一种基于特征学习的缺失多标签文本分类方法,其特征在于,包括:获取多标签文本,形成多标签文本的特征矩阵和与特征矩阵对应的标签矩阵,所述标签矩阵中包含缺失标签;根据多标签文本的特征矩阵、标签矩阵以及指定特征矩阵构建线性模型,所述指定特征矩阵包含指定特征;构建所述指定特征矩阵的范数正则项,根据范数正则项获取指定特征矩阵的公共特征,所述范数正则项用于约束所述线性模型的稀疏性;将公共特征和指定特征输入到线性模型中,利用梯度下降法对线性模型进行训练,根据训练好的线性模型求解指定特征矩阵、和标签矩阵对应的相关性矩阵;根据相关性矩阵对标签矩阵中包含的缺失标签进行补足,将补足后的多标签文本输入到训练好的线性模型中进行模型参数优化,将优化后的线性模型确定为缺失多标签分类模型;利用缺失多标签分类模型对包含缺失标签的多标签文本进行标签分类。2.如权利要求1所述的方法,其特征在于,还包括:对原始文本进行特征提取和类别标记,获得多标签文本。3.如权利要求1所述的方法,其特征在于,根据特征矩阵、标签矩阵以及指定特征矩阵构建线性模型,包括:按照以下公式构建线性模型:其中,w
i
为第i个指定特征,X为多标签文本的特征矩阵,y
i
表示第i个标签向量,λ3为超参数。4.如权利要求1所述的方法,其特征在于,根据相关性矩阵对标签矩阵中包含的缺失标签进行补足,包括:根据相关性矩阵和指定特征矩阵的一范数的正则项,获得具有稀疏性的标签矩阵;根据具有稀疏性的标签矩阵,获得标签矩阵对应的相关性矩阵;根据相关性矩阵对标签矩阵中包含的缺失标签进行补足。5.如权利要求4所述的方法,其特征在于,根据相关性矩阵对标签矩阵中包含的缺失标签进行补足,包括:按照以下公式对缺失标签进行补足:其中,W为指定特征矩阵,X为多标签文本的特征矩阵,Y为多标签文本的标签矩阵,C为相关性矩阵,λ1、λ2、λ3为超参数,||W||1为指定特征矩阵的一范数,用于约束线性模型的稀疏性。6.如权利要求5所述的方法,其特征在于,根据相关性矩阵对标签矩阵中包含的缺失标
签进行补足,包括:当第i个标签与第j个标签为相关时,按照以下公式对缺失标签进行补足:其中,W为指定特征矩阵,X为特征矩阵,Y为标签矩阵,C为相关性矩阵,λ1、λ2、λ3、λ4为超参数,c
ij
为第i个标签与第j个标签之间的相关指定特...
【专利技术属性】
技术研发人员:赵雪峰,杨玉新,王添阳,马飞扬,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。