一种文本分类方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36832601 阅读:27 留言:0更新日期:2023-03-12 01:55
本发明专利技术公开了一种文本分类方法、装置、电子设备和存储介质,涉及数据处理技术领域,包括:获取初始训练数据样本和初始测试数据样本,进行向量化处理得到训练数据样本和测试数据样本;判断是否存在增量学习数据样本;若存在所述增量学习数据样本,判断训练数据样本和增量学习样本的样本总数是否大于增量学习阈值;若大于增量学习阈值,基于样本选择策略从训练数据样本中选择代表性样本,将代表性样本与增量学习数据样本进行合并,组成增量训练数据样本;通过增量训练数据样本对文本分类模型进行训练,得到训练后的文本分类模型;根据测试数据样本对训练后的文本分类模型进行测试,并根据测试结果调整模型参数。并根据测试结果调整模型参数。并根据测试结果调整模型参数。

【技术实现步骤摘要】
一种文本分类方法、装置、电子设备和存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种文本分类方法、装置、电子设备和存储介质。

技术介绍

[0002]传统文本分类方法的训练数据往往是不做更新的静态全局数据,而随着人工智能的快速发展,文本数据量不断增大,传统文本分类方法在面对动态不断增长的文本数据时其效果往往差强人意,具体表现在一旦有新数据就必须重新训练模型以使得模型对新数据有较好的性能。然而,专利技术人在实现本专利技术的过程中发现,真实业务场景中,这种处理方式耗时耗力不切实际,因为数据是以流式源源不断的产生和到来的,同时因存储容量和隐私安全等原因无法长期存储,这就要求文本分类模型具有连续、长期学习的能力,以解决面对新数据时的灾难性遗忘问题,因此增量学习文本分类方法就显得尤为重要了。

技术实现思路

[0003]为了解决上述技术问题或者至少部分的解决上述技术问题,本专利技术实施例提供了一种文本分类方法、装置、电子设备和存储介质,能够在原始训练数据样本中选择代表性样本并结合增量学习数据样本对文本分类模型进行更新训练,以解决面对新数据时的灾难性遗忘问题,减少内存占有率和训练耗时,从而在面对新输入文本时,能够提高文本分类的准确率。
[0004]本专利技术实施例提供了一种文本分类方法,包括:
[0005]获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本;判断是否存在增量学习数据样本;若存在所述增量学习数据样本,则判断所述训练数据样本和所述增量学习样本的样本总数是否大于增量学习阈值;若大于所述增量学习阈值,基于样本选择策略从所述训练数据样本中选择代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本;通过所述增量训练数据样本对文本分类模型进行训练,得到训练后的所述文本分类模型;根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。
[0006]本专利技术实施例还提供了一种文本分类装置,包括:
[0007]处理模块,用于获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本;第一判断模块,用于判断是否存在增量学习数据样本;第二判断模块,用于若存在所述增量学习数据样本,则判断所述训练数据样本和所述增量学习样本的样本总数是否大于增量学习阈值;选择模块,用于若大于所述增量学习阈值,基于样本选择策略从所述训练数据样本中选择代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本;训练模块,用于通过所述增量训练数据样本对文本分类模型进行训练,得到训练后
的所述文本分类模型;测试模块,用于根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。
[0008]本专利技术实施例还提供了一种电子设备,所述电子设备包括:
[0009]一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的文本分类方法。
[0010]本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的文本分类方法。
[0011]本专利技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的文本分类方法。
[0012]本专利技术实施例提供的技术方案与现有技术相比至少具有如下优点:本专利技术实施例提供的文本分类方法、装置、电子设备及存储介质,在有增量学习数据样本且需要增量学习时,可以在训练数据样本中通过样本选择策略选择出代表性样本,并与增量学习数据样本组合成增量训练数据样本共同训练优化文本分类模型,可以有效解决“灾难性遗忘”问题,减少内存占有率和训练耗时,提高分类精确率和召回率,具有较高的使用价值。
附图说明
[0013]结合附图并参考以下具体实施方式,本专利技术各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0014]图1为本专利技术实施例中的一种文本分类方法的流程图;
[0015]图2为本专利技术又一实施例中的一种文本分类方法的流程图;
[0016]图3本专利技术实施例中的一种文本分类装置的结构示意图;
[0017]图4本专利技术实施例中的一种电子设备的结构示意图。
具体实施方式
[0018]下面将参照附图更详细的描述本专利技术的实施例。虽然附图中显示了本专利技术的某些实施例,然而应当理解的是,本专利技术可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整的理解本专利技术。应当理解的是,本专利技术的附图及实施例仅用于示例性作用,并非用于限制本专利技术的保护范围。
[0019]应当理解,本专利技术的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本专利技术的范围在此方面不受限制。
[0020]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分的基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0021]需要注意,本专利技术中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0022]需要注意,本专利技术中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0023]参考图1所示,本专利技术实施例提供了一种文本分类方法的流程图。
[0024]步骤S101,获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本。
[0025]由于初始训练数据样本和初始测试数据样本均为文本,而每篇文本都是由词来构成的,可以预先构建文本词汇表,在文本词汇表中每个词对应有唯一编号,那么文本向量的具体属性值即为该词在文本词汇表中的编号。在本步骤中,可以对每个初始训练数据样本进行分词处理,将得到的所有分词放在一起组成分词集合,针对分词集合中的每个分词,在文本词汇表中查找该分词对应的编号,逐一查找完分词集合中的所有分词后,即完成了对该初始训练数据样本的向量化处理,得到分词集合对应的编号集合向量,将编号集合向量作为初始训练数据样本的训练数据样本。...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取初始训练数据样本和初始测试数据样本,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本;判断是否存在增量学习数据样本;若存在所述增量学习数据样本,则判断所述训练数据样本和所述增量学习数据样本的样本总数是否大于增量学习阈值;若大于所述增量学习阈值,基于样本选择策略从所述训练数据样本中选择代表性样本,将所述代表性样本与所述增量学习数据样本进行合并,组成增量训练数据样本;通过所述增量训练数据样本对文本分类模型进行训练,得到训练后的所述文本分类模型;根据所述测试数据样本对所述训练后的所述文本分类模型进行测试,并根据测试结果调整所述训练后的所述文本分类模型的模型参数。2.根据权利要求1所述的一种文本分类方法,其特征在于,对所述初始训练数据样本和所述初始测试数据样本进行向量化处理,得到训练数据样本和测试数据样本的步骤,包括:对所述初始训练数据样本和所述初始测试数据样本进行分词,得到多个第一分词;对所述第一分词进行去重处理后得到多个第二分词;对每个第二分词进行编号处理,生成文本词典,文本词典中每个编号为每个所述第二分词的唯一标识;根据各所述初始训练数据样本和所述初始测试数据样本分别包括的所述第一分词,在所述文本词典中查找各所述第一分词对应的编号;基于各所述第一分词对应的编号,确定所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号;将所述初始训练数据样本包括的编号和所述初始测试数据样本包括的编号分别进行组合,生成向量化后的训练数据样本和测试数据样本。3.根据权利要求1或2所述的一种文本分类方法,其特征在于,所述样本选择策略包括类中心策略和类内K均值聚类策略;所述基于样本选择策略从所述训练数据样本中选择代表性样本的步骤包括:基于类中心策略从所述训练数据样本中选择第一代表性样本;基于类内K均值聚类策略从所述训练数据样本中选择第二代表性样本;对所述第一代表性样本和所述第二代表性样本进行混合去重,得到所述代表性样本。4.根据权利要求3所述的一种文本分类方法,其特征在于,所述基于类中心策略从所述训练数据样本中选择第一代表性样本的步骤包括:基于所述训练数据样本确定多个类别;针对每个类别,基于该类别下样本的样本数量、各所述样本的特征,确定该类别的类中心,计算每个所述样本与所述类中心之间的欧式距离,按照每个所述样本的欧式距离进行降序排序,选择排序在前预设数量的所述样本作为代表该类别的第一代表性样本。5.根据权利要求3所述的一种文本分类方法,其特征在于,所述基于类内K均值聚类策略从所述训练数据样本中选择第二代表性样本的步...

【专利技术属性】
技术研发人员:郭振涛梁金千崔培升
申请(专利权)人:北京亿赛通科技发展有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1