文本分类方法及其装置、设备、介质、产品制造方法及图纸

技术编号:31490151 阅读:16 留言:0更新日期:2021-12-18 12:26
本申请公开一种文本分类方法及其装置、设备、介质、产品,所述方法包括:获取待分类文本;调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类,获得分类结果,其中,所述文本特征提取模型的训练过程中,包括如下步骤:执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息,每个无标签文本经数据增强派生出多个所述的文本特征信息;执行第二训练任务以在标签监督下,从该标签相应的有标签文本中获取文本特征信息,将文本特征信息与数据分布特征信息合并为联合特征信息进行分类,直至该文本特征提取模型达致收敛状态。本申请对文本特征提取模型进行两阶段训练,能大幅减少对有标签文本的依赖。赖。赖。

【技术实现步骤摘要】
文本分类方法及其装置、设备、介质、产品


[0001]本申请涉及自然语言处理
,尤其涉及一种文本分类方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。

技术介绍

[0002]NLP(Natural Language Processing,自然语言处理)技术应用广泛,涉及词法分析、句子分析、语义分析、信息抽取等多方面应用及其上游应用。各种神经网络模型不断推陈出新,其基本原理均是基于文本向量化之后所提取的特征信息进行分类处理,由此可见,如何高效地对这些神经网络模型进行训练,关系到NLP
的发展。
[0003]采用两阶段进行NLP(Natural Language Processing,自然语言处理)训练任务的方法是近几年来比较流行且效果较好的方法,该方法采用预训练作为第一阶段,产出预训练模型;采用预训练模型作为基座,根据上游任务进一步对预训练模型及上层神经网络的权重进行微调(Fine

tuning),最终达到完成上游任务的目标。该方法在各项NLP任务上都取得了较好的效果。
[0004]但是,该方法没有考虑到上游任务的标注数据是十分稀少的,即便进行人工标注,也会浪费大量的人力成本。因此,如何解决NLP网络模型标注数据稀少的问题,值得探索。

技术实现思路

[0005]本申请的首要目的在于解决上述问题至少之一而提供一种文本分类方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品,以实现辅助音乐创作。
[0006]为满足本申请的各个目的,本申请采用如下技术方案:
[0007]适应本申请的目的之一而提供的一种文本分类方法,包括如下步骤:
[0008]获取待分类文本;
[0009]用于调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类,获得分类结果,其中,所述文本特征提取模型的训练过程中,包括如下步骤:
[0010]执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息,每个无标签文本经数据增强派生出多个所述的文本特征信息;
[0011]执行第二训练任务以在标签监督下,从该标签相应的有标签文本中获取文本特征信息,将文本特征信息与数据分布特征信息合并为联合特征信息进行分类,直至该文本特征提取模型达致收敛状态。
[0012]深化的实施例中,执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息,每个无标签文本经数据增强派生出多个所述的文本特征信息,包括如下步骤:
[0013]获取训练数据集中的多个无标签文本相对应的多个文本向量矩阵,每个文本向量矩阵派生出多个视图特征信息;
[0014]对所述视图特征信息进行特征增强处理,获得每个无标签文本相对应的多个增强
特征信息;
[0015]对多个无标签文本相对应的所有增强特征信息进行全连接以捕捉异同信息,获得数据分布特征信息。
[0016]深化的实施例中,对所述视图特征信息进行数据增强处理,获得每个无标签文本相对应的多个增强特征信息,包括为获得所述增强特征信息而执行的如下任意一种或任意多种特征增强方式:
[0017]对视图特征信息之一执行基于将其中部分行向量换位的特征扰动处理;
[0018]对视图特征信息之一执行基于将其中部分行向量清零的特征裁剪处理;
[0019]对视图特征信息之一执行基于将其中部分列向量清零的特征裁剪处理;
[0020]对视图特征信息之一执行基于随机将其中的部分元素清零的特征丢弃处理。
[0021]较佳的实施例中,同一文本向量矩阵所派生的多个增强特征信息采用不同的特征增强方式获得。
[0022]深化的实施例中,执行第二训练任务的过程包括如下迭代执行直至文本特征提取模型被训练至收敛的步骤:
[0023]从训练数据集中的一个有标签文本中提取出其文本特征信息;
[0024]将该文本特征信息与第一训练任务获得的数据分布特征信息进行特征拼接,获得联合特征信息;
[0025]调用分类模型对所述联合特征信息进行分类,获得分类结果;
[0026]根据分类结果与该有标签文本相对应的标签计算分类模型的损失函数值,基于损失函数值反向传播修正文本特征提取模型的权重参数。
[0027]具体化的实施例中,所述第一训练任务与第二训练任务为串行结构,第二训练任务依赖于第一训练任务的数据分布特征信息的输入。
[0028]较佳的实施例中,所述待分类文本为电商平台中商品标题文本,所述文本特征提取模型用于参与对所述待分类文本的机器翻译、新词发现、命名实体识别、语义识别、分词处理任意一种任务而从所述待分类文本中提取出该任务所需的文本特征信息。
[0029]适应本申请的目的之一而提供的一种文本分类装置,包括文本获取模块与文本分类模块,所述文本获取模块,用于获取待分类文本;所述文本分类模块,用于调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类,获得分类结果,其中,所述文本特征提取模型的训练过程中,包括:第一训练模块,用于执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息,每个无标签文本经数据增强派生出多个所述的文本特征信息;第二训练模块,用于执行第二训练任务以在标签监督下,从该标签相应的有标签文本中获取文本特征信息,将文本特征信息与数据分布特征信息合并为联合特征信息进行分类,直至该文本特征提取模型达致收敛状态。
[0030]深化的实施例中,所述第一训练模块包括:批量输入子模块,用于获取训练数据集中的多个无标签文本相对应的多个文本向量矩阵,每个文本向量矩阵派生出多个视图特征信息;特征增强子模块,用于对所述视图特征信息进行特征增强处理,获得每个无标签文本相对应的多个增强特征信息;数据分布子模块,用于对多个无标签文本相对应的所有增强特征信息进行全连接以捕捉异同信息,获得数据分布特征信息。
[0031]深化的实施例中,所述特征增强子模块,被配置包括为获得所述增强特征信息而
执行的如下任意一种或任意多种特征增强方式:对视图特征信息之一执行基于将其中部分行向量换位的特征扰动处理;对视图特征信息之一执行基于将其中部分行向量清零的特征裁剪处理;对视图特征信息之一执行基于将其中部分列向量清零的特征裁剪处理;对视图特征信息之一执行基于随机将其中的部分元素清零的特征丢弃处理。
[0032]较佳的实施例中,同一文本向量矩阵所派生的多个增强特征信息采用不同的特征增强方式获得。
[0033]深化的实施例中,所述第二训练模块包括:后提取子模块,用于从训练数据集中的一个有标签文本中提取出其文本特征信息;特征拼接子模块,用于将该文本特征信息与第一训练任务获得的数据分布特征信息进行特征拼接,获得联合特征信息;联合分类子模块,用于调用分类模型对所述联合特征信息进行分类,获得分类结果;权重修正子模块,用于根据分类结果与该有标签文本相对应的标签计算分类模型的损失函数值,基于损失函数值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括如下步骤:获取待分类文本;调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类,获得分类结果,其中,所述文本特征提取模型的训练过程中,包括如下步骤:执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息,每个无标签文本经数据增强派生出多个所述的文本特征信息;执行第二训练任务以在标签监督下,从该标签相应的有标签文本中获取文本特征信息,将文本特征信息与数据分布特征信息合并为联合特征信息进行分类,直至该文本特征提取模型达致收敛状态。2.根据权利要求1所述的文本分类方法,其特征在于,执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息,每个无标签文本经数据增强派生出多个所述的文本特征信息,包括如下步骤:获取训练数据集中的多个无标签文本相对应的多个文本向量矩阵,每个文本向量矩阵派生出多个视图特征信息;对所述视图特征信息进行特征增强处理,获得每个无标签文本相对应的多个增强特征信息;对多个无标签文本相对应的所有增强特征信息进行全连接以捕捉异同信息,获得数据分布特征信息。3.根据权利要求2所述的文本分类方法,其特征在于,对所述视图特征信息进行数据增强处理,获得每个无标签文本相对应的多个增强特征信息,包括为获得所述增强特征信息而执行的如下任意一种或任意多种特征增强方式:对视图特征信息之一执行基于将其中部分行向量换位的特征扰动处理;对视图特征信息之一执行基于将其中部分行向量清零的特征裁剪处理;对视图特征信息之一执行基于将其中部分列向量清零的特征裁剪处理;对视图特征信息之一执行基于随机将其中的部分元素清零的特征丢弃处理。4.根据权利要求3所述的文本分类方法,其特征在于,同一...

【专利技术属性】
技术研发人员:郭东波
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1