文本分类方法及其装置、设备、介质、产品制造方法及图纸

技术编号：31490151 阅读：27 留言：0更新日期：2021-12-18 12:26

本申请公开一种文本分类方法及其装置、设备、介质、产品，所述方法包括：获取待分类文本；调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类，获得分类结果，其中，所述文本特征提取模型的训练过程中，包括如下步骤：执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息；执行第二训练任务以在标签监督下，从该标签相应的有标签文本中获取文本特征信息，将文本特征信息与数据分布特征信息合并为联合特征信息进行分类，直至该文本特征提取模型达致收敛状态。本申请对文本特征提取模型进行两阶段训练，能大幅减少对有标签文本的依赖。赖。赖。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法及其装置、设备、介质、产品

[0001]本申请涉及自然语言处理
，尤其涉及一种文本分类方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

技术介绍

[0002]NLP(Natural Language Processing,自然语言处理)技术应用广泛，涉及词法分析、句子分析、语义分析、信息抽取等多方面应用及其上游应用。各种神经网络模型不断推陈出新，其基本原理均是基于文本向量化之后所提取的特征信息进行分类处理，由此可见，如何高效地对这些神经网络模型进行训练，关系到NLP
的发展。
[0003]采用两阶段进行NLP(Natural Language Processing,自然语言处理)训练任务的方法是近几年来比较流行且效果较好的方法，该方法采用预训练作为第一阶段，产出预训练模型；采用预训练模型作为基座，根据上游任务进一步对预训练模型及上层神经网络的权重进行微调(Fine
‑
tuning)，最终达到完成上游任务的目标。该方法在各项NLP任务上都取得了较好的效果。
[000本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括如下步骤：获取待分类文本；调用文本特征提取模型从所述待分类文本中提取出文本特征信息进行分类，获得分类结果，其中，所述文本特征提取模型的训练过程中，包括如下步骤：执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息；执行第二训练任务以在标签监督下，从该标签相应的有标签文本中获取文本特征信息，将文本特征信息与数据分布特征信息合并为联合特征信息进行分类，直至该文本特征提取模型达致收敛状态。2.根据权利要求1所述的文本分类方法，其特征在于，执行第一训练任务以从多个无标签文本的文本特征信息中获得数据分布特征信息，每个无标签文本经数据增强派生出多个所述的文本特征信息，包括如下步骤：获取训练数据集中的多个无标签文本相对应的多个文本向量矩阵，每个文本向量矩阵派生出多个视图特征信息；对所述视图特征信息进行特征增强处理，获得每个无标签文本相对应的多个增强特征信息；对多个无标签文本相对应的所有增强特征信息进行全连接以捕捉异同信息，获得数据分布特征信息。3.根据权利要求2所述的文本分类方法，其特征在于，对所述视图特征信息进行数据增强处理，获得每个无标签文本相对应的多个增强特征信息，包括为获得所述增强特征信息而执行的如下任意一种或任意多种特征增强方式：对视图特征信息之一执行基于将其中部分行向量换位的特征扰动处理；对视图特征信息之一执行基于将其中部分行向量清零的特征裁剪处理；对视图特征信息之一执行基于将其中部分列向量清零的特征裁剪处理；对视图特征信息之一执行基于随机将其中的部分元素清零的特征丢弃处理。4.根据权利要求3所述的文本分类方法，其特征在于，同一...

【专利技术属性】
技术研发人员：郭东波，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人