一种长文本多标签分类模型优化方法及装置制造方法及图纸

技术编号：38083732 阅读：5 留言：0更新日期：2023-07-06 08:50

本申请公开了一种长文本多标签分类模型优化方法及装置，方法包括：初始化自回归语言预训练模型；确定自回归语言预训练模型的精调层和损失函数创建自回归语言预训练模型的参数配置文件；启动评估模型，判断预测结果是否提高；若预测结果未提高，则调整精调层和参数配置文件；若预测结果提高，则判断预测最终结果是否满足要求；若不满足，则调整迭代参数；若满足，则输出预测最终结果文件和优化的长文本多标签分类模型。本申请优化了长文本多标签分类模型，解决了原模型不能处理长文的缺陷，极大的提升了长文档分类任务的效果。大的提升了长文档分类任务的效果。大的提升了长文档分类任务的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种长文本多标签分类模型优化方法及装置

[0001]本申请涉及标签分类
，具体涉及一种长文本多标签分类模型优化方法及装置。

技术介绍

[0002]目前，神经网络常用的训练方法是后向传播算法，后向传播算法通过对网络模型参数进行随机初始化，然后利用优化算法优化模型参数。但是，在标注数据很少的情况下，通过神经网络训练出的模型往往精度有限。“预训练”能够很好地帮助解决这个问题，并且对一词多义进行建模。
[0003]预训练是通过大量无标注的语言文本进行语言模型的训练，然后得到一套模型参数，利用这套参数对模型进行初始化，再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中，都被证明拥有更好的效果。截止目前，常见的预训练方法主要有：OpenAI
‑
GPT、BERT和Xlnet等。
[0004]GPT(Generative Pre
‑
trained Transformer)是一种自回归语言模型，其训练过程是单向的，优化目标是从左到右建模序列的联合概率，是传统意义上的语言模型，后预测的词以先预测的词为条件，比较适合文本生成任务，其缺陷是只使用了单向的语言表征信息，使得GPT无法获取双向上下文信息表征。
[0005]BERT(Bidirectional Encoder Representations from Transformers)是一种自编码语言模型(Autoencoder Language Model(LM))，在编码阶段用一

【技术保护点】

【技术特征摘要】
1.一种长文本多标签分类模型优化方法，其特征在于，包括：初始化自回归语言预训练模型；确定所述自回归语言预训练模型的精调层和损失函数；创建所述自回归语言预训练模型的参数配置文件；启动评估模型，判断预测结果是否提高；若预测结果未提高，则调整所述精调层和所述参数配置文件；若预测结果提高，则判断预测最终结果是否满足要求；若不满足，则调整迭代参数；若满足，则输出预测最终结果文件和优化的长文本多标签分类模型。2.根据权利要求1所述的长文本多标签分类模型优化方法，其特征在于，所述自回归语言预训练模型采用24层基于Transformer的二阶段训练模型。3.根据权利要求2所述的长文本多标签分类模型优化方法，其特征在于，所述自回归语言预训练模型的精调层为最后四层。4.根据权利要求1所述的长文本多标签分类模型优化方法，其特征在于，所述损失函数为多标签分类之非对称损失。5.根据权利要求1所述的长文本多标签分类模型优化方法，其特征在于，所述参数配置文件包括文本长度、学习率、Epoch数和Batch
‑
size。6.根据权利要求1所述的长文本多标签分类模型优化方法，其特...

【专利技术属性】
技术研发人员：潘光明，
申请(专利权)人：翼健上海信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人