一种文本分类方法、装置、电子设备和存储介质制造方法及图纸

技术编号：36832601 阅读：27 留言：0更新日期：2023-03-12 01:55

本发明专利技术公开了一种文本分类方法、装置、电子设备和存储介质，涉及数据处理技术领域，包括：获取初始训练数据样本和初始测试数据样本，进行向量化处理得到训练数据样本和测试数据样本；判断是否存在增量学习数据样本；若存在所述增量学习数据样本，判断训练数据样本和增量学习样本的样本总数是否大于增量学习阈值；若大于增量学习阈值，基于样本选择策略从训练数据样本中选择代表性样本，将代表性样本与增量学习数据样本进行合并，组成增量训练数据样本；通过增量训练数据样本对文本分类模型进行训练，得到训练后的文本分类模型；根据测试数据样本对训练后的文本分类模型进行测试，并根据测试结果调整模型参数。并根据测试结果调整模型参数。并根据测试结果调整模型参数。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法、装置、电子设备和存储介质

[0001]本专利技术涉及数据处理
，尤其涉及一种文本分类方法、装置、电子设备和存储介质。

技术介绍

[0002]传统文本分类方法的训练数据往往是不做更新的静态全局数据，而随着人工智能的快速发展，文本数据量不断增大，传统文本分类方法在面对动态不断增长的文本数据时其效果往往差强人意，具体表现在一旦有新数据就必须重新训练模型以使得模型对新数据有较好的性能。然而，专利技术人在实现本专利技术的过程中发现，真实业务场景中，这种处理方式耗时耗力不切实际，因为数据是以流式源源不断的产生和到来的，同时因存储容量和隐私安全等原因无法长期存储，这就要求文本分类模型具有连续、长期学习的能力，以解决面对新数据时的灾难性遗忘问题，因此增量学习文本分类方法就显得尤为重要了。

技术实现思路

[0003]为了解决上述技术问题或者至少部分的解决上述技术问题，本专利技术实施例提供了一种文本分类方法、装置、电子设备和存储介质，能够在原始训练数据样本中选择代表性样本并结合增量学习数据样本对文本分类模型进行更新训练，以解决面对新数据时的灾难性遗忘问题，减少内存占有率和训练耗时，从而在面对新输入文本时，能够提高文本分类的准确率。
[0004]本专利技术实施例提供了一种文本分类方法，包括：
[0005]获取初始训练数据样本和初始测试数据样本，对所述初始训练数据样本和所述初始测试数据样本进行向量化处理，得到训练数据样本和测试数据样本；判断是否存在增量学习数据样本；若存在所述增量学习数

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：获取初始训练数据样本和初始测试数据样本，对所述初始训练数据样本和所述初始测试数据样本进行向量化处理，得到训练数据样本和测试数据样本；判断是否存在增量学习数据样本；若存在所述增量学习数据样本，则判断所述训练数据样本和所述增量学习数据样本的样本总数是否大于增量学习阈值；若大于所述增量学习阈值，基于样本选择策略从所述训练数据样本中选择代表性样本，将所述代表性样本与所述增量学习数据样本进行合并，组成增量训练数据样本；通过所述增量训练数据样本对文本分类模型进行训练，得到训练后的所述文本分类模型；根据所述测试数据样本对所述训练后的所述文本分类模型进行测试，并根据测试结果调整所述训练后的所述文本分类模型的模型参数。2.根据权利要求1所述的一种文本分类方法，其特征在于，对所述初始训练数据样本和所述初始测试数据样本进行向量化处理，得到训练数据样本和测试数据样本的步骤，包括：对所述初始训练数据样本和所述初始测试数据样本进行分词，得到多个第一分词；对所述第一分词进行去重处理后得到多个第二分词；对每个第二分词进行编号处理，生成文本词典，文本词典中每个编号为每个所述第二分词的唯一标识；根据各所述初始训练数据样本和所述初始测试数据样本分别包括的所述第一分词，在所述文本词典中查找各所述第一分词对应的编号；基于各所述第一分词对应的编号，确定所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号；将所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号分别进行组合，生成向量化后的训练数据样本和测试数据样本。3.根据权利要求1或2所述的一种文本分类方法，其特征在于，所述样本选择策略包括类中心策略和类内K均值聚类策略；所述基于样本选择策略从所述训练数据样本中选择代表性样本的步骤包括：基于类中心策略从所述训练数据样本中选择第一代表性样本；基于类内K均值聚类策略从所述训练数据样本中选择第二代表性样本；对所述第一代表性样本和所述第二代表性样本进行混合去重，得到所述代表性样本。4.根据权利要求3所述的一种文本分类方法，其特征在于，所述基于类中心策略从所述训练数据样本中选择第一代表性样本的步骤包括：基于所述训练数据样本确定多个类别；针对每个类别，基于该类别下样本的样本数量、各所述样本的特征，确定该类别的类中心，计算每个所述样本与所述类中心之间的欧式距离，按照每个所述样本的欧式距离进行降序排序，选择排序在前预设数量的所述样本作为代表该类别的第一代表性样本。5.根据权利要求3所述的一种文本分类方法，其特征在于，所述基于类内K均值聚类策略从所述训练数据样本中选择第二代表性样本的步...

【专利技术属性】
技术研发人员：郭振涛，梁金千，崔培升，
申请(专利权)人：北京亿赛通科技发展有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人