一种基于预训练生成模型的层次文本分类方法技术

技术编号：35815048 阅读：19 留言：0更新日期：2022-12-03 13:38

本发明专利技术公开了一种基于预训练生成模型的层次文本分类方法，目的是解决现有的层次文本分类方法标签不一致性的问题、需要人工设置阈值问题和无法有效学习到目标标签之间的共现关系的问题。本发明专利技术将层次文本分类问题转化为层次标签的序列生成问题，通过构造融入层次信息的标签序列，使模型能够学习到标签之间的层次信息和共现关系，从而解决标签的不一致性问题。而且该方法标签的生成过程采用自回归的方式，因此在预测标签的过程中，无须人为设置阈值。实验表明，本发明专利技术相比与层次文本分类的其它方法，分类性能更优。分类性能更优。分类性能更优。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预训练生成模型的层次文本分类方法

[0001]本专利技术涉及一种基于预训练生成模型的层次文本分类方法，属于计算机领域中自然语言处理领域。

技术介绍

[0002]层次文本分类(HTC)是多标签文本分类下的一个重要的子任务。不同于多标签文本分类，层次文本分类的标签之间具有层次结构，通常采用树或者有向无环图表示。目前，主流的层次文本分类算法在训练过程中，将文本和标签的层次结构作为输入，采用CNN、RNN系列模型获得文本表示，采用图卷积神经网络GCN去编码标签之间的层次信息，以获取融入层次结构信息的标签表示，再将文本表示和标签表示投影到同一个空间，最后通过一个多标签分类器每个类别的概率。这类方法存在明显的缺陷：
[0003]1)模型最后通过一个多标签分类器得到每个类别的概率，没有考虑到标签的一致性。
[0004]2)在得到每个类别的概率后，往往需要人为设置一个阈值来筛选出最终预测的标签。不同的阈值，往往会有不一样的效果。为了获取到最佳的结果，往往需要耗费大量的时间去调整。
[0005]3)标签的层次结构是静态的，与文本样本无关。因此对于不同的文本样本，无法有效地学习到目标标签之间的共现关系。

技术实现思路

[0006]专利技术目的：针对上述现有技术，提出一种基于预训练生成模型的层次文本分类方法
[0007]技术方案：一种基于预训练生成模型的层次文本分类方法，包括以下步骤：
[0008]1)标签词表的构造；
[0009]2)层次标签序列的构造，通过标签的层...

【技术保护点】

【技术特征摘要】
1.一种基于预训练生成模型的层次文本分类方法，其特征在于，包括以下步骤：1)标签词表的构造；2)层次标签序列的构造，通过标签的层次结构和预定义的序列构造规则将样本对应的标签转化为层次标签序列；3)训练数据的预处理，通过分词算法对文本进行分词，统计所有分词后的文本长度，根据、长度的分布情况设置最大文本长度，对超过最大文本长度的文本进行截断处理；4)在用训练集训练模型后得到模型，用测试集测试模型的效果。2.如权利要求1所述的一种基于预训练生成模型的层次文本分类方法，其特征在于，步骤1)中：使用预训练模型BART，在预训练模型BART文本的层次标签序列生成任务中，预训练模型BART解码器部分的输入是标签序列，所述标签序列包括多个标签，用一个词代表一个标签，构造标签词表。3.如权利要求2所述的一种基于预训练生成模型的层次文本分类方法，其特征在于，步骤2)的实现过程为：2.1)将由标签词表构成的序列集视为标签语言，构造自顶向下层次遍历规则、自底向上层次遍历规则和路径规则三种标签语言的语法规则；其中所述自顶向下层次遍历规则采用多叉树的层次遍历，每一层中，自左向右遍历每个标签，如果是文本对应的标签，则该标签会被加入到层次标签序列中，得到最终的层次标签序列；所述自底向上层次遍历模式得到层次标签序列和所述自顶向下层次遍历规则得到的层次标签序列顺...

【专利技术属性】
技术研发人员：严景松，李丕绩，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人