文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35795980 阅读:14 留言:0更新日期:2022-12-01 14:47
本发明专利技术涉及信息处理技术领域,提供了一种文本分类方法、装置、电子设备及存储介质,该方法包括获取新输入文本;根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;根据增量样本的类别,更新分类模型的参数。采用本发明专利技术的文本分类方法,能够对新输入文本进行增量学习分类,与时俱进,灵活性强,同时准确率高。同时准确率高。同时准确率高。

【技术实现步骤摘要】
文本分类方法、装置、电子设备及存储介质


[0001]本专利技术一般涉及信息处理
,具体涉及一种文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]现代社会,互联网技术已深入到人们生活的方方面面。随之而来的是各种数据爆炸式增长,此时对文本数据进行有效分类便显得尤为重要。
[0003]常见的,例如公开号为CN1310825A的中国专利申请,提出一种用于分类文本以及构造文本分类器的方法和装置,根据文本信息对象训练集生成分类器参数以便确定文本信息对象是否属于该种类。
[0004]目前相关技术通过将所有文本数据一次性全部读入内存之后再分类处理,但这种方式受限于存储技术的制约,难以一次性读入海量数据。同时通常情况下,文本数据都是分批次获得的,这更增加了一次性喂给的难度,具有局限性。

技术实现思路

[0005]鉴于相关技术中的上述缺陷或不足,期望提供一种文本分类方法、装置、电子设备及存储介质,能够对新输入文本进行增量学习分类,与时俱进,灵活性强,同时准确率高。
[0006]第一方面,本专利技术提供一种文本分类方法,该方法包括:获取新输入文本;根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;根据增量样本的类别,更新分类模型的参数。
[0007]可选的,在本专利技术一些实施例中,根据增量选择策略,筛选新输入文本得到增量样本,包括:计算新输入文本对应各类别的概率;当各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数时,将新输入文本作为增量样本。
[0008]可选的,在本专利技术一些实施例中,根据增量样本的类别,更新分类模型的参数,包括:检测增量样本的类别与分类模型的类别是否相同,以及分类模型的特征词是否属于增量样本;基于检测结果对分类模型的类别概率和特征词概率进行更新。
[0009]可选的,在本专利技术一些实施例中,基于检测结果对分类模型的类别概率和特征词概率进行更新,包括:
其中,表示所有类别的文本总数,而文本数量的更新为N=N+1;表示类别的所有文本中所有特征词的词频总和;表示增量样本中出现的所有词的词频总和;表示特征词在增量样本中的词频;为增量样本的预测类别。
[0010]可选的,在本专利技术一些实施例中,预先训练的分类模型通过如下步骤得到:获取文本数据集;对文本数据集进行预处理,获得词汇表;根据词汇表中的特征词,构建向量空间模型以将文本数据转化为向量,并进行训练得到分类模型。
[0011]可选的,在本专利技术一些实施例中,根据词汇表中的特征词,构建向量空间模型以将文本数据转化为向量之前,该方法还包括:根据特征词的词频和逆文件频率,计算特征词的权重;根据特征词的权重,对特征词进行排序筛选。
[0012]可选的,在本专利技术一些实施例中,分类模型包括朴素贝叶斯分类模型。
[0013]第二方面,本专利技术提供一种文本分类装置,该装置包括:获取模块,用于获取新输入文本;筛选模块,用于根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;更新模块,用于根据增量样本的类别,更新分类模型的参数。
[0014]第三方面,本专利技术提供一种电子设备,包括处理器和存储器,存储器中存储有至少一段程序、代码集或指令集,所述程序、所述代码集或所述指令集由处理器加载并执行以实现第一方面中任意一项的文本分类方法的步骤。
[0015]第四方面,本专利技术提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现第一方面所描述的文本分类方法的步骤。
[0016]从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例提供了一种文本分类方法、装置、电子设备及存储介质,通过增量选择策略来筛选新输入文本得到增量样本,其中增量选择策略与新输入文本的类别概率分布相关,而新输入文本的类别概率分布通过预先训练的分类模型进行预测获得,此时一方面能够使分类模型复习之前学习过的知识,温故知新,另一方面还能够选择具有较高表达能力的文本用于增量学习,提高了模型识别的准确率。进一步的,根据增量样本的类别来更新分类模型的参数,与时俱进,以适应新数据,灵活性更强。
附图说明
[0017]通过阅读参照以下附图所作的对非限制性实施例的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术实施例提供的一种文本分类方法的流程示意图;图2为本专利技术实施例提供的一种混淆矩阵示意图;图3为本专利技术实施例提供的一种文本分类装置的结构示意图;图4为本专利技术实施例提供的另一种文本分类装置的结构示意图;图5为本专利技术实施例提供的又一种文本分类装置的结构示意图。
具体实施方式
[0018]为了使本
的人员更好的理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0019]本专利技术的说明书和权利要求书及上述附图中的术语“第一”“第二”“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0020]此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚的列出的那些步骤或模块,而是可包括没有清楚的列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
[0021]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。
[0022]为便于更好的理解本专利技术,下面通过图1至图5详细的阐述本专利技术实施例提供的文本分类方法、装置、电子设备及存储介质。
[0023]请参考图1,其为本专利技术实施例提供的一种文本分类方法的流程示意图,该方法可以包括以下步骤:S101,获取新输入文本。
[0024]示例性的,本专利技术实施例中新输入文本可以为分批次获得的文本。
[0025]S102,根据增量选择策略,筛选新输入文本得到增量样本,其中增量选择策略与新
输入文本的类别概率分布相关,新输入文本的类别概率分布通过预先训练的分类模型进行预测获得。
[0026]示例性的,本专利技术实施例首先计算新输入文本对应各类别的概率,然后当各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数α时,将新输入文本作为增量样本,比如预设倍数α的取值范围为[1/2,1]。这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取新输入文本;根据增量选择策略,筛选所述新输入文本得到增量样本,其中所述增量选择策略与所述新输入文本的类别概率分布相关,所述新输入文本的类别概率分布通过预先训练的分类模型进行预测获得;根据所述增量样本的类别,更新所述分类模型的参数。2.根据权利要求1所述的文本分类方法,其特征在于,所述根据增量选择策略,筛选所述新输入文本得到增量样本,包括:计算所述新输入文本对应各类别的概率;当所述各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数时,将所述新输入文本作为所述增量样本。3.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述增量样本的类别,更新所述分类模型的参数,包括:检测所述增量样本的类别与所述分类模型的类别是否相同,以及所述分类模型的特征词是否属于所述增量样本;基于检测结果对所述分类模型的类别概率和特征词概率进行更新。4.根据权利要求3所述的文本分类方法,其特征在于,所述基于检测结果对所述分类模型的类别概率和特征词概率进行更新,包括:包括:其中,表示所有类别的文本总数,而文本数量的更新为N=N+1;表示类别的所有文本中所有特征词的词频总和;表示增量样本中出现的所有词的词频总和;表示特征词在增量样本中的词频;为增量样本的预测类别。5.根据权利要求1至4中任意一项所述的文本分类方法,其特征在于,所述预先训练的分类模型通过如下步骤得到:

【专利技术属性】
技术研发人员:郭振涛梁金千崔培升
申请(专利权)人:北京亿赛通科技发展有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1