一种长文本多标签分类模型优化方法及装置制造方法及图纸

技术编号:38083732 阅读:5 留言:0更新日期:2023-07-06 08:50
本申请公开了一种长文本多标签分类模型优化方法及装置,方法包括:初始化自回归语言预训练模型;确定自回归语言预训练模型的精调层和损失函数创建自回归语言预训练模型的参数配置文件;启动评估模型,判断预测结果是否提高;若预测结果未提高,则调整精调层和参数配置文件;若预测结果提高,则判断预测最终结果是否满足要求;若不满足,则调整迭代参数;若满足,则输出预测最终结果文件和优化的长文本多标签分类模型。本申请优化了长文本多标签分类模型,解决了原模型不能处理长文的缺陷,极大的提升了长文档分类任务的效果。大的提升了长文档分类任务的效果。大的提升了长文档分类任务的效果。

【技术实现步骤摘要】
一种长文本多标签分类模型优化方法及装置


[0001]本申请涉及标签分类
,具体涉及一种长文本多标签分类模型优化方法及装置。

技术介绍

[0002]目前,神经网络常用的训练方法是后向传播算法,后向传播算法通过对网络模型参数进行随机初始化,然后利用优化算法优化模型参数。但是,在标注数据很少的情况下,通过神经网络训练出的模型往往精度有限。“预训练”能够很好地帮助解决这个问题,并且对一词多义进行建模。
[0003]预训练是通过大量无标注的语言文本进行语言模型的训练,然后得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。截止目前,常见的预训练方法主要有:OpenAI

GPT、BERT和Xlnet等。
[0004]GPT(Generative Pre

trained Transformer)是一种自回归语言模型,其训练过程是单向的,优化目标是从左到右建模序列的联合概率,是传统意义上的语言模型,后预测的词以先预测的词为条件,比较适合文本生成任务,其缺陷是只使用了单向的语言表征信息,使得GPT无法获取双向上下文信息表征。
[0005]BERT(Bidirectional Encoder Representations from Transformers)是一种自编码语言模型(Autoencoder Language Model(LM)),在编码阶段用一个神经网络把输入变成一个低维的特征,就是编码部分;然后在解码阶段尝试把特征恢复成原始的信号。简单来说,就是把句子中随机一个单词用[mask]替换掉,同时根据该单词的上下文来预测该单词,这样在预测过程中就用到了单词两边的信息。该方式也存在缺点,即在fine

tuning阶段是没有[mask]标记的,这就造成了预训练和精调之间存在误差。
[0006]Xlnet是后BERT时代的一种预训练模型,它在自回归语言模型(Autoregressive language Model,即LM)中自然地引入上下文信息,有效地解决了自编码语言模型两阶段保持一致的问题,使得Xlnet可以适合于超长文本分类,对于长距离文本语义的关联与依赖问题作出了贡献。
[0007]Xlnet综合了BERT和OpenAI

GPT各自的优势,使用Permuted Language Model(PLM)的预训练任务,即将序列的联合概率分布,按照打乱的顺序重新因式分解,将语言模型的顺序拆解推广到随机分解,使得token之间的自回归关系不再是简单的前后顺序,而是打乱后的序列顺序。这样就可以获取到双向信息。
[0008]另外,Xlnet采用“双流自注意力机制”将自注意力机制拆分为Query流和Content流。在Query流中,token只能关注到前面的token和自身的位置信息;在Content流中,token可以关注到自身。具体来说,Xlnet将序列拆分为两部分,序列的后部分(约占句长的1/K,K为超参数)为需要预测的部分,前部分为已知上下文。已知的上下文不做预测,因此只计算content流注意力,每个token都编码之前token以及自身的完整信息。从预测部分开始,每
个token同时计算Query流和Content流注意力:Query流的输出用于预训练做预测,Content流的输出提供给后续待预测token计算Query流,这就保证了当预测当前token时,它无法看到自身编码;当前token预测结束后,将其Content流作为上下文部分的编码提供给后续需要预测的token。预训练过程计算两种注意力,精调过程去除了Query流,只保留Content流,因为不需要对token进行词表空间的预测,而是需要编码整个上下文语义用于下游任务。
[0009]申请号为“202010497459.2”的专利文献中提供了一种结合ALBERT(Lite BERT for Self

Supervision language expression learning)和BiGRU(Bidirectional Gated Recurrent Unit(GRU))的专利文本分类方法,通过对国家信息中心发布的专利数据集进行数据清洗,剔除掉分类号为非严格ipc分类的专利文本数据,并根据ipc分类号给专利数据打上分类标签;然后对文本数据进行特征提取,利用albert预训练语言模型对专利文本进行句子层面的特征表示,得到专利文本特征;最后将albert层输出的专利文本特征作为BiGRU层的输入,分别传给前向GRU层和后向GRU层。使用ALBERT预训练的动态词向量代替传统的Word2vec等方式训练的静态词向量,提升了词向量的表征能力;并使用BiGRU神经网络模型进行训练,保留了专利文本中长距离词之间的语义关联,提升了专利文本分类的效果。
[0010]综上可知,现有的Xlnet原模型只能一次处理512字符,不能处理长文,且在实际应用中原始数据的依据类别分布不平衡,导致长文档分类任务的效果较差;申请号为“202010497459.2”的专利文献中虽然能够处理长文,但是其在长距离词之间的语义关联保留还不够高,导致长文档分类任务效果也较差。

技术实现思路

[0011]为此,本申请提供一种长文本多标签分类模型优化方法及装置,以解决现有技术存在的Xlnet原模型不能处理长文以及长文档分类任务效果较差的问题。
[0012]为了实现上述目的,本申请提供如下技术方案:
[0013]第一方面,一种长文本多标签分类模型优化方法,包括:
[0014]初始化自回归语言预训练模型;
[0015]确定所述自回归语言预训练模型的精调层和损失函数;
[0016]创建所述自回归语言预训练模型的参数配置文件;
[0017]启动评估模型,判断预测结果是否提高;
[0018]若预测结果未提高,则调整所述精调层和所述参数配置文件;
[0019]若预测结果提高,则判断预测最终结果是否满足要求;
[0020]若不满足,则调整迭代参数;
[0021]若满足,则输出预测最终结果文件和优化的长文本多标签分类模型。
[0022]进一步的,所述自回归语言预训练模型采用24层基于Transformer的二阶段训练模型。
[0023]更进一步的,所述自回归语言预训练模型的精调层为最后四层。
[0024]进一步的,所述损失函数为多标签分类之非对称损失。
[0025]进一步的,所述参数配置文件包括文本长度、学习率、Epoch数和Batch

size。
[0026]进一步的,所述启动评估模型,判断预测结果是否提高时,具体是通过评估模型评估每个分类类别的精准率、召回率、F1分数、ROC和AUC来共同判断预测结果是否提高。
...

【技术保护点】

【技术特征摘要】
1.一种长文本多标签分类模型优化方法,其特征在于,包括:初始化自回归语言预训练模型;确定所述自回归语言预训练模型的精调层和损失函数;创建所述自回归语言预训练模型的参数配置文件;启动评估模型,判断预测结果是否提高;若预测结果未提高,则调整所述精调层和所述参数配置文件;若预测结果提高,则判断预测最终结果是否满足要求;若不满足,则调整迭代参数;若满足,则输出预测最终结果文件和优化的长文本多标签分类模型。2.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述自回归语言预训练模型采用24层基于Transformer的二阶段训练模型。3.根据权利要求2所述的长文本多标签分类模型优化方法,其特征在于,所述自回归语言预训练模型的精调层为最后四层。4.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述损失函数为多标签分类之非对称损失。5.根据权利要求1所述的长文本多标签分类模型优化方法,其特征在于,所述参数配置文件包括文本长度、学习率、Epoch数和Batch

size。6.根据权利要求1所述的长文本多标签分类模型优化方法,其特...

【专利技术属性】
技术研发人员:潘光明
申请(专利权)人:翼健上海信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1