文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35795980 阅读：14 留言：0更新日期：2022-12-01 14:47

本发明专利技术涉及信息处理技术领域，提供了一种文本分类方法、装置、电子设备及存储介质，该方法包括获取新输入文本；根据增量选择策略，筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，新输入文本的类别概率分布通过预先训练的分类模型进行预测获得；根据增量样本的类别，更新分类模型的参数。采用本发明专利技术的文本分类方法，能够对新输入文本进行增量学习分类，与时俱进，灵活性强，同时准确率高。同时准确率高。同时准确率高。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法、装置、电子设备及存储介质

[0001]本专利技术一般涉及信息处理
，具体涉及一种文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]现代社会，互联网技术已深入到人们生活的方方面面。随之而来的是各种数据爆炸式增长，此时对文本数据进行有效分类便显得尤为重要。
[0003]常见的，例如公开号为CN1310825A的中国专利申请，提出一种用于分类文本以及构造文本分类器的方法和装置，根据文本信息对象训练集生成分类器参数以便确定文本信息对象是否属于该种类。
[0004]目前相关技术通过将所有文本数据一次性全部读入内存之后再分类处理，但这种方式受限于存储技术的制约，难以一次性读入海量数据。同时通常情况下，文本数据都是分批次获得的，这更增加了一次性喂给的难度，具有局限性。

技术实现思路

[0005]鉴于相关技术中的上述缺陷或不足，期望提供一种文本分类方法、装置、电子设备及存储介质，能够对新输入文本进行增量学习分类，与时俱进，灵活性强，同时准确率高。
[0006]第一方面，本专利技术提供一种文本分类方法，该方法包括：获取新输入文本；根据增量选择策略，筛选新输入文本得到增量样本，其中增量选择策略与新输入文本的类别概率分布相关，新输入文本的类别概率分布通过预先训练的分类模型进行预测获得；根据增量样本的类别，更新分类模型的参数。
[0007]可选的，在本专利技术一些实施例中，根据增量选择策略，筛选新输入文本得到增量样本，包括：计算新输入文本对应各类别的概率；当各...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：获取新输入文本；根据增量选择策略，筛选所述新输入文本得到增量样本，其中所述增量选择策略与所述新输入文本的类别概率分布相关，所述新输入文本的类别概率分布通过预先训练的分类模型进行预测获得；根据所述增量样本的类别，更新所述分类模型的参数。2.根据权利要求1所述的文本分类方法，其特征在于，所述根据增量选择策略，筛选所述新输入文本得到增量样本，包括：计算所述新输入文本对应各类别的概率；当所述各类别的概率中存在一个类别的概率大于剩余类别的概率之和的预设倍数时，将所述新输入文本作为所述增量样本。3.根据权利要求1所述的文本分类方法，其特征在于，所述根据所述增量样本的类别，更新所述分类模型的参数，包括：检测所述增量样本的类别与所述分类模型的类别是否相同，以及所述分类模型的特征词是否属于所述增量样本；基于检测结果对所述分类模型的类别概率和特征词概率进行更新。4.根据权利要求3所述的文本分类方法，其特征在于，所述基于检测结果对所述分类模型的类别概率和特征词概率进行更新，包括：包括：其中，表示所有类别的文本总数，而文本数量的更新为N=N+1；表示类别的所有文本中所有特征词的词频总和；表示增量样本中出现的所有词的词频总和；表示特征词在增量样本中的词频；为增量样本的预测类别。5.根据权利要求1至4中任意一项所述的文本分类方法，其特征在于，所述预先训练的分类模型通过如下步骤得到：

【专利技术属性】
技术研发人员：郭振涛，梁金千，崔培升，
申请(专利权)人：北京亿赛通科技发展有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人