文本分类方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：30370657 阅读：19 留言：0更新日期：2021-10-16 17:49

本申请提供一种文本分类方法、装置、电子设备及可读存储介质，涉及自然语言处理技术领域。该方法包括：将待处理文本以及待处理文本的至少一个子文本均输入预先训练得到的分类模型，得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率，根据各所述子文本属于各类别的概率，得到所述待处理文本的子文本特征，将所述子文本特征以及所述待处理文本属于各类别的概率输入修正模型进行概率修正，得到修正后的所述待处理文本属于各类别的概率；根据所述修正后的所述待处理文本属于各类别的概率，确定所述待处理文本的目标类别。本申请不仅提高了文本分类的准确率，而且还节省了训练模型所需的时间和存储空间。还节省了训练模型所需的时间和存储空间。还节省了训练模型所需的时间和存储空间。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法、装置、电子设备及可读存储介质

[0001]本申请涉及自然语言处理
，具体而言，涉及一种文本分类方法、装置、电子设备及可读存储介质。

技术介绍

[0002]文本分类是按照一定的分类体系或标准对文本集进行自动分类标记的过程，是自然语言处理的基本研究内容，其应用范围非常广泛，包括问答系统，情感分析，垃圾邮件过滤，新闻分类，词性标注等子任务。
[0003]目前，为了提高文本分类的准确性，采用集成学习算法，即训练并结合多个基算法完成学习任务，以达到结合各个基算法的优势对文本进行分类，从而提高文本分类的准确率的目的。
[0004]但是，一个基算法的训练就需要很多的时间和存储参数的空间，而集成学习算法需要多个基算法，因此，在训练时会耗费大量的时间和存储空间。

技术实现思路

[0005]本申请的目的在于，针对上述现有技术中的不足，提供一种文本分类方法、装置、电子设备及可读存储介质，以便解决现有技术中训练多个基算法进而耗费大量的时间和存储空间的问题。
[0006]为实现上述目的，本申请实施例采用的技术方案如下：
[0007]第一方面，本申请实施例提供了一种文本分类方法，所述方法包括：
[0008]获取待处理文本以及所述待处理文本的至少一个子文本；
[0009]将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型，得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率，并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：获取待处理文本以及所述待处理文本的至少一个子文本；将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型，得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率，并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征；根据各所述子文本属于各类别的概率，得到所述待处理文本的子文本特征，所述子文本特征用于表征所述待处理文本的语义差异性；将所述子文本特征以及所述总文本特征输入修正模型进行概率修正，得到修正后的所述待处理文本属于各类别的概率；根据所述修正后的所述待处理文本属于各类别的概率，确定所述待处理文本的目标类别。2.根据权利要求1所述的文本分类方法，其特征在于，根据各所述子文本属于各类别的概率，得到所述待处理文本的子文本特征，包括：根据各所述子文本属于各类别的概率，计算所有子文本属于各类别的概率标准差、均值以及最大值，得到各类别对应的概率标准差、均值以及最大值；将所述各类别对应的概率标准差、均值以及最大值作为所述待处理文本的子文本特征。3.根据权利要求1所述的文本分类方法，其特征在于，所述根据所述修正后的所述待处理文本属于各类别的概率，确定所述待处理文本的目标类别，包括：对所述待处理文本属于各类别的概率按照概率值大小进行排序；将最大概率值对应的类别作为所述待处理文本的目标类别。4.根据权利要求1所述的文本分类方法，其特征在于，所述获取待处理文本以及所述待处理文本的至少一个子文本，包括：获取所述待处理文本；确定所述待处理文本的类型，所述类型包括：多段落文本、单段落文本以及句子文本；根据所述待处理文本的类型，对所述待处理文本进行拆分，得到所述待处理文本的至少一个子文本。5.根据权利要求4所述的文本分类方法，其特征在于，所述根据所述待处理文本的类型，对所述待处理文本进行拆分，得到所述待处理文本的至少一个子文本之后，还包括：若拆分得到的第一子文本的长度小于预设长度，则丢弃所述第一子文本，其中，所述第一子文本为从所述待处理文本中拆...

【专利技术属性】
技术研发人员：贾星星，王文强，刘昊，苏伟，王道顺，
申请(专利权)人：兰州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人