一种基于预训练生成模型的层次文本分类方法技术

技术编号:35815048 阅读:19 留言:0更新日期:2022-12-03 13:38
本发明专利技术公开了一种基于预训练生成模型的层次文本分类方法,目的是解决现有的层次文本分类方法标签不一致性的问题、需要人工设置阈值问题和无法有效学习到目标标签之间的共现关系的问题。本发明专利技术将层次文本分类问题转化为层次标签的序列生成问题,通过构造融入层次信息的标签序列,使模型能够学习到标签之间的层次信息和共现关系,从而解决标签的不一致性问题。而且该方法标签的生成过程采用自回归的方式,因此在预测标签的过程中,无须人为设置阈值。实验表明,本发明专利技术相比与层次文本分类的其它方法,分类性能更优。分类性能更优。分类性能更优。

【技术实现步骤摘要】
一种基于预训练生成模型的层次文本分类方法


[0001]本专利技术涉及一种基于预训练生成模型的层次文本分类方法,属于计算机领域中自然语言处理领域。

技术介绍

[0002]层次文本分类(HTC)是多标签文本分类下的一个重要的子任务。不同于多标签文本分类,层次文本分类的标签之间具有层次结构,通常采用树或者有向无环图表示。目前,主流的层次文本分类算法在训练过程中,将文本和标签的层次结构作为输入,采用CNN、RNN系列模型获得文本表示,采用图卷积神经网络GCN去编码标签之间的层次信息,以获取融入层次结构信息的标签表示,再将文本表示和标签表示投影到同一个空间,最后通过一个多标签分类器每个类别的概率。这类方法存在明显的缺陷:
[0003]1)模型最后通过一个多标签分类器得到每个类别的概率,没有考虑到标签的一致性。
[0004]2)在得到每个类别的概率后,往往需要人为设置一个阈值来筛选出最终预测的标签。不同的阈值,往往会有不一样的效果。为了获取到最佳的结果,往往需要耗费大量的时间去调整。
[0005]3)标签的层次结构是静态的,与文本样本无关。因此对于不同的文本样本,无法有效地学习到目标标签之间的共现关系。

技术实现思路

[0006]专利技术目的:针对上述现有技术,提出一种基于预训练生成模型的层次文本分类方法
[0007]技术方案:一种基于预训练生成模型的层次文本分类方法,包括以下步骤:
[0008]1)标签词表的构造;
[0009]2)层次标签序列的构造,通过标签的层次结构和预定义的序列构造规则将样本对应的标签转化为层次标签序列;
[0010]3)训练数据的预处理,通过分词算法对文本进行分词,统计所有分词后的文本长度,根据、长度的分布情况设置最大文本长度,对超过最大文本长度的文本进行截断处理;
[0011]4)在用训练集训练模型后得到模型,用测试集测试模型的效果。
[0012]优选的,步骤1)中:使用预训练模型BART,在预训练模型BART文本的层次标签序列生成任务中,预训练模型BART解码器部分的输入是标签序列,所述标签序列包括多个标签,用一个词代表一个标签,构造标签词表。
[0013]优选的,步骤2)的实现过程为:
[0014]2.1)将由标签词表构成的序列集视为标签语言,构造自顶向下层次遍历规则、自底向上层次遍历规则和路径规则三种标签语言的语法规则;其中所述自顶向下层次遍历规则采用多叉树的层次遍历,每一层中,自左向右遍历每个标签,如果是文本对应的标签,则
该标签会被加入到层次标签序列中,得到最终的层次标签序列;所述自底向上层次遍历模式得到层次标签序列和所述自顶向下层次遍历规则得到的层次标签序列顺序相反;所述路径规则按照从左到右的顺序从上到下遍历每条标签路径,每条标签路径与路径之间用特殊符号连接;
[0015]2.2)根据标签的层次结构和语法规则,将样本对应的标签转化为层次标签序列。
[0016]优选的,步骤3)的实现过程为:
[0017]3.1)通过分词算法对文本进行分词,统计所有分词后的文本长度;
[0018]3.2)根据文本长度的分布情况设置最大文本长度,对超过最大文本长度的文本进行截断处理;
[0019]3.3)根据统计文本的长度情况计算最大的文本长度。
[0020]优选的,步骤3.2)中确保最大文本长度不能超过BART模型能够学习的最大长度1024,同时保证截断后的的文本数目不超过总文本数目的5%。
[0021]优选的,步骤4的实现过程为:
[0022]4.1)用训练集训练模型,训练过程中用验证集来评估每个训练训练的效果,选择验证集中评价指标Micro

F1或Macro

F1最好的模型作为最终的模型;
[0023]4.2)训练结束后,测试模型;采用评价指标Micro

F1和Macro

F1来评价模型的分类性能。
[0024]有益效果:提供了一种将层次文本分类转化为层次标签序列生成的方法,这种方法将组织在层次结构上的标签转化为融入层次规则的标签序列。这样的标签序列中标签具有层层递进的关系,可以更好地表示标签之间的层次信息,同时也可以解决标签的不一致性问题。除此之外,由于标签的预测采用生成范式,所以无须人为设置标签预测的阈值。实验表明,本专利技术相比与层次文本分类的其它方法,分类性能更优。
附图说明
[0025]图1是提出的算法框架整体流程示意图。
具体实施方式
[0026]下面结合附图对本专利技术做更进一步的解释。
[0027]本专利技术提出的攻击算法总体框架如图1所示,分为三个部分:1.标签词表的构建。2.层次标签序列的构造。3.训练数据的预处理。4.模型的训练与测试。
[0028]请参照图1:一种基于预训练生成模型的层次文本分类方法,包括以下步骤:
[0029]5)标签词表的构造;
[0030]6)层次标签序列的构造,通过标签的层次结构和预定义的序列构造规则将样本对应的标签转化为层次标签序列;
[0031]7)训练数据的预处理,通过分词算法对文本进行分词,统计所有分词后的文本长度,根据、长度的分布情况设置最大文本长度,对超过最大文本长度的文本进行截断处理;
[0032]8)在用训练集训练模型后得到模型,用测试集测试模型的效果。
[0033]步骤1)中:使用预训练模型BART,在预训练模型BART文本的层次标签序列生成任务中,预训练模型BART解码器部分的输入是标签序列,所述标签序列包括多个标签,用一个
词代表一个标签,构造标签词表。
[0034]步骤2)的实现过程为:
[0035]2.1)将由标签词表构成的序列集视为标签语言,构造自顶向下层次遍历规则、自底向上层次遍历规则和路径规则三种标签语言的语法规则;其中所述自顶向下层次遍历规则采用多叉树的层次遍历,每一层中,自左向右遍历每个标签,如果是文本对应的标签,则该标签会被加入到层次标签序列中,得到最终的层次标签序列;所述自底向上层次遍历模式得到层次标签序列和所述自顶向下层次遍历规则得到的层次标签序列顺序相反;所述路径规则按照从左到右的顺序从上到下遍历每条标签路径,每条标签路径与路径之间用特殊符号连接;
[0036]2.2)根据标签的层次结构和语法规则,将样本对应的标签转化为层次标签序列。
[0037]步骤3)的实现过程为:
[0038]3.1)通过分词算法对文本进行分词,统计所有分词后的文本长度;
[0039]3.2)根据文本长度的分布情况设置最大文本长度,对超过最大文本长度的文本进行截断处理;
[0040]3.3)根据统计文本的长度情况计算最大的文本长度。
[0041]步骤3.2)中确保最大文本长度不能超过BART模型能够学习的最大长度1024,同时保证截断后的的文本数目不超过总文本数目的5%本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练生成模型的层次文本分类方法,其特征在于,包括以下步骤:1)标签词表的构造;2)层次标签序列的构造,通过标签的层次结构和预定义的序列构造规则将样本对应的标签转化为层次标签序列;3)训练数据的预处理,通过分词算法对文本进行分词,统计所有分词后的文本长度,根据、长度的分布情况设置最大文本长度,对超过最大文本长度的文本进行截断处理;4)在用训练集训练模型后得到模型,用测试集测试模型的效果。2.如权利要求1所述的一种基于预训练生成模型的层次文本分类方法,其特征在于,步骤1)中:使用预训练模型BART,在预训练模型BART文本的层次标签序列生成任务中,预训练模型BART解码器部分的输入是标签序列,所述标签序列包括多个标签,用一个词代表一个标签,构造标签词表。3.如权利要求2所述的一种基于预训练生成模型的层次文本分类方法,其特征在于,步骤2)的实现过程为:2.1)将由标签词表构成的序列集视为标签语言,构造自顶向下层次遍历规则、自底向上层次遍历规则和路径规则三种标签语言的语法规则;其中所述自顶向下层次遍历规则采用多叉树的层次遍历,每一层中,自左向右遍历每个标签,如果是文本对应的标签,则该标签会被加入到层次标签序列中,得到最终的层次标签序列;所述自底向上层次遍历模式得到层次标签序列和所述自顶向下层次遍历规则得到的层次标签序列顺...

【专利技术属性】
技术研发人员:严景松李丕绩
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1