当前位置: 首页 > 专利查询>兰州大学专利>正文

文本分类方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:30370657 阅读:19 留言:0更新日期:2021-10-16 17:49
本申请提供一种文本分类方法、装置、电子设备及可读存储介质,涉及自然语言处理技术领域。该方法包括:将待处理文本以及待处理文本的至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,将所述子文本特征以及所述待处理文本属于各类别的概率输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。本申请不仅提高了文本分类的准确率,而且还节省了训练模型所需的时间和存储空间。还节省了训练模型所需的时间和存储空间。还节省了训练模型所需的时间和存储空间。

【技术实现步骤摘要】
文本分类方法、装置、电子设备及可读存储介质


[0001]本申请涉及自然语言处理
,具体而言,涉及一种文本分类方法、装置、电子设备及可读存储介质。

技术介绍

[0002]文本分类是按照一定的分类体系或标准对文本集进行自动分类标记的过程,是自然语言处理的基本研究内容,其应用范围非常广泛,包括问答系统,情感分析,垃圾邮件过滤,新闻分类,词性标注等子任务。
[0003]目前,为了提高文本分类的准确性,采用集成学习算法,即训练并结合多个基算法完成学习任务,以达到结合各个基算法的优势对文本进行分类,从而提高文本分类的准确率的目的。
[0004]但是,一个基算法的训练就需要很多的时间和存储参数的空间,而集成学习算法需要多个基算法,因此,在训练时会耗费大量的时间和存储空间。

技术实现思路

[0005]本申请的目的在于,针对上述现有技术中的不足,提供一种文本分类方法、装置、电子设备及可读存储介质,以便解决现有技术中训练多个基算法进而耗费大量的时间和存储空间的问题。
[0006]为实现上述目的,本申请实施例采用的技术方案如下:
[0007]第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:
[0008]获取待处理文本以及所述待处理文本的至少一个子文本;
[0009]将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征;
[0010]根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,所述子文本特征用于表征所述待处理文本的语义差异性;
[0011]将所述子文本特征以及所述总文本特征输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;
[0012]根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。
[0013]可选的,根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,包括:
[0014]根据各所述子文本属于各类别的概率,计算所有子文本属于各类别的概率标准差、均值以及最大值,得到各类别对应的概率标准差、均值以及最大值;
[0015]将所述各类别对应的概率标准差、均值以及最大值作为所述待处理文本的子文本特征。
[0016]可选的,所述根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别,包括:
[0017]对所述待处理文本属于各类别的概率按照概率值大小进行排序;
[0018]将最大概率值对应的类别作为所述待处理文本的目标类别。
[0019]可选的,所述获取待处理文本以及所述待处理文本的至少一个子文本,包括:
[0020]获取所述待处理文本;
[0021]确定所述待处理文本的类型,所述类型包括:多段落文本、单段落文本以及句子文本;
[0022]根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本。
[0023]可选的,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本之后,还包括:
[0024]若拆分得到的第一子文本的长度小于预设长度,则丢弃所述第一子文本,其中,所述第一子文本为从所述待处理文本中拆分出的任意一个子文本。
[0025]可选的,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,包括:
[0026]若所述待处理文本为多段落文本,则根据预设的段落分隔符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个段落。
[0027]可选的,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,包括:
[0028]若所述待处理文本为单段落文本,则根据预设的句子结束符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个句子。
[0029]可选的,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,包括:
[0030]若所述待处理文本为句子文本,则根据预设的非句子结束符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,其中,所述非句子结束符号为除句子结束符号之外的标点符号。
[0031]第二方面,本申请实施例提供了一种文本分类装置,所述装置包括:
[0032]获取模块,用于获取待处理文本以及所述待处理文本的至少一个子文本;
[0033]第一确定模块,用于将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征;
[0034]第二确定模块,用于根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,所述子文本特征用于表征所述待处理文本的语义差异性;
[0035]修正模块,用于将所述子文本特征以及所述总文本特征输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;
[0036]第三确定模块,根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。
[0037]可选的,第二确定模块具体用于根据各所述子文本属于各类别的概率,计算所有
子文本属于各类别的概率标准差、均值以及最大值,得到各类别对应的概率标准差、均值以及最大值;将所述各类别对应的概率标准差、均值以及最大值作为所述待处理文本的子文本特征。
[0038]可选的,第三确定模块具体用于对所述待处理文本属于各类别的概率按照概率值大小进行排序;将最大概率值对应的类别作为所述待处理文本的目标类别。
[0039]可选的,获取模块用于获取所述待处理文本;判断模块,用于确定所述待处理文本的类型,所述类型包括:多段落文本、单段落文本以及句子文本;拆分模块,用于根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本。
[0040]可选的,删除模块,用于若拆分得到的第一子文本的长度小于预设长度,则丢弃所述第一子文本,其中,所述第一子文本为从所述待处理文本中拆分出的任意一个子文本。
[0041]可选的,拆分模块具体用于若所述待处理文本为多段落文本,则根据预设的段落分隔符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个段落。
[0042]可选的,拆分模块具体还用于若所述待处理文本为单段落文本,则根据预设的句子结束符号对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本,每个子文本包括一个句子。
[0043]可选的,拆分模块具体还用于若所述待处理文本为句子文本,则根据预设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:获取待处理文本以及所述待处理文本的至少一个子文本;将所述待处理文本以及所述至少一个子文本均输入预先训练得到的分类模型,得到所述待处理文本属于各类别的概率以及各所述子文本属于各类别的概率,并将所述待处理文本属于各类别的概率作为所述待处理文本的总文本特征;根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,所述子文本特征用于表征所述待处理文本的语义差异性;将所述子文本特征以及所述总文本特征输入修正模型进行概率修正,得到修正后的所述待处理文本属于各类别的概率;根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别。2.根据权利要求1所述的文本分类方法,其特征在于,根据各所述子文本属于各类别的概率,得到所述待处理文本的子文本特征,包括:根据各所述子文本属于各类别的概率,计算所有子文本属于各类别的概率标准差、均值以及最大值,得到各类别对应的概率标准差、均值以及最大值;将所述各类别对应的概率标准差、均值以及最大值作为所述待处理文本的子文本特征。3.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述修正后的所述待处理文本属于各类别的概率,确定所述待处理文本的目标类别,包括:对所述待处理文本属于各类别的概率按照概率值大小进行排序;将最大概率值对应的类别作为所述待处理文本的目标类别。4.根据权利要求1所述的文本分类方法,其特征在于,所述获取待处理文本以及所述待处理文本的至少一个子文本,包括:获取所述待处理文本;确定所述待处理文本的类型,所述类型包括:多段落文本、单段落文本以及句子文本;根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本。5.根据权利要求4所述的文本分类方法,其特征在于,所述根据所述待处理文本的类型,对所述待处理文本进行拆分,得到所述待处理文本的至少一个子文本之后,还包括:若拆分得到的第一子文本的长度小于预设长度,则丢弃所述第一子文本,其中,所述第一子文本为从所述待处理文本中拆...

【专利技术属性】
技术研发人员:贾星星王文强刘昊苏伟王道顺
申请(专利权)人:兰州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1