文本分类的处理方法及装置制造方法及图纸

技术编号:15690884 阅读:84 留言:0更新日期:2017-06-24 03:38
本申请公开了一种文本分类的处理方法及装置。该方法包括:采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率;根据第一从属概率和第一历史从属概率计算第一目标概率;判断第一目标概率是否高于预设阈值;以及当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。通过本申请,解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。

Method and device for processing text classification

The present invention discloses a method and a device for processing text classification. The method includes: the first classification method treats text classification, text classification and the first to be confirmed first subordinate probability; calculates a first target probability according to the first slave probability and the first history dependent probability; determine the first target probability is higher than a preset threshold value; and when the first target probability below a preset threshold value, followed by different the first classification method of at least one classification method treats text classification process, until the calculated target probability is higher than or equal to a preset threshold value, and will eventually have to be confirmed as the target text category text category. Through this application, the problem of low efficiency in text categorization is solved in order to improve the accuracy of text classification in related technologies.

【技术实现步骤摘要】
文本分类的处理方法及装置
本申请涉及文本处理领域,具体而言,涉及一种文本分类的处理方法及装置。
技术介绍
文本分类是自然语言处理的重要任务之一,类似于文章的行业分类,情感分析等许多自然语言处理任务其实质都是文本的分类。目前,无论是基于规则还是基于机器学习,处理文本分类问题的方法都有很多。通常,采用一种分类方法对文本进行分类处理,得到分类结果,输出分类处理结果。然后仅采用一种分类方法对文本进行分类处理的准确性较低。为了提升对文本进行分类的准确性,相关技术中采用了一系列分类方法,旨在使用多个不太精准的分类方法对文本进行分类处理,得到多个分类处理结果。然后再对每一个分类处理结果进行投票,选出最高票的分类处理结果作为输出。这种方法在很大程度上弥补了仅仅使用一个分类方法的不足,然而无论是否有必要,该方法对于每一个输入的文本都需要采用多个分类方法,造成对文本处理性能的下降。针对相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本分类的处理方法及装置,以解决相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。为了实现上述目的,根据本申请的一个方面,提供了一种文本分类的处理方法。该方法包括:采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率;根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;判断第一目标概率是否高于预设阈值;以及当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。进一步地,在采用第一分类方法对待处理文本进行分类处理之前,该方法还包括:确定对待处理文本进行分类处理的多种分类方法;以及获取多种分类方法组成的分类方法集合,其中,分类方法集合包括第一分类方法。进一步地,根据第一从属概率和第一历史从属概率计算第一目标概率包括:将第一从属概率和第一历史从属概率相乘,得到第一目标从属概率;将第一非从属概率和第一历史非从属概率相乘,得到第一目标非从属概率,其中,第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率,第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率;将第一目标从属概率与第一目标非从属概率相加,得到第一目标子概率;以及将第一目标从属概率与第一目标子概率相除,得到第一目标概率。进一步地,在将最终得到的待确认文本类别作为目标文本类别之后,该方法还包括:以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。进一步地,在将最终得到的待确认文本类别作为目标文本类别之后,该方法还包括:输出目标文本类别至目标地址。为了实现上述目的,根据本申请的另一方面,提供了一种文本分类的处理装置。该装置包括:处理单元,用于采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率;计算单元,用于根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;判断单元,用于判断第一目标概率是否高于预设阈值;以及第一确定单元,用于当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。进一步地,该装置还包括:第二确定单元,用于确定对待处理文本进行分类处理的多种分类方法;以及获取单元,用于获取多种分类方法组成的分类方法集合,其中,分类方法集合包括第一分类方法。进一步地,计算单元包括:第一计算模块,用于将第一从属概率和第一历史从属概率相乘,得到第一目标从属概率;第二计算模块,用于将第一非从属概率和第一历史非从属概率相乘,得到第一目标非从属概率,其中,第一非从属概率为根据第一分类方法判定待处理文本不属于第一待确认文本类别的概率,第一历史非从属概率为预设数据库中存储的待处理文本不属于第一待确认文本类别的概率;第三计算模块,用于将第一目标从属概率与第一目标非从属概率相加,得到第一目标子概率;以及第四计算模块,用于将第一目标从属概率与第一目标子概率相除,得到第一目标概率。进一步地,该装置还包括:更新单元,用于以最终计算出的目标概率更新预设数据库中存储的与最终采用的分类方法对应的历史从属概率。进一步地,该装置还包括:输出单元,用于输出目标文本类别至目标地址。通过本申请,采用以下步骤:采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,第一从属概率为根据第一分类方法判定待处理文本属于第一待确认文本类别的概率;根据第一从属概率和第一历史从属概率计算第一目标概率,其中,第一历史从属概率为预设数据库中存储的待处理文本属于第一待确认文本类别的概率;判断第一目标概率是否高于预设阈值;以及当第一目标概率低于预设阈值时,依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理,直到计算出的目标概率高于或等于预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别,解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。通过引入目标概率,根据目标概率确定待处理文本对应的目标文本类型,弥补仅使用一种分类方法处理确定目标文本类型和有效的减少了通过不必要多次分类处理方法去确定目标文本类型,进而达到了在提升对文本分类的准确性同时也提升了对文本分类的处理效率的效果。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的文本分类的处理方法的流程图;以及图2是根据本申请实施例的文本分类的处理装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统本文档来自技高网
...
文本分类的处理方法及装置

【技术保护点】
一种文本分类的处理方法,其特征在于,包括:采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,所述第一从属概率为根据所述第一分类方法判定所述待处理文本属于所述第一待确认文本类别的概率;根据所述第一从属概率和第一历史从属概率计算第一目标概率,其中,所述第一历史从属概率为预设数据库中存储的所述待处理文本属于所述第一待确认文本类别的概率;判断所述第一目标概率是否高于预设阈值;以及当所述第一目标概率低于所述预设阈值时,依次采用与所述第一分类方法不同的至少一种分类方法对所述待处理文本进行所述分类处理,直到计算出的目标概率高于或等于所述预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。

【技术特征摘要】
1.一种文本分类的处理方法,其特征在于,包括:采用第一分类方法对待处理文本进行分类处理,得到第一待确认文本类别和第一从属概率,其中,所述第一从属概率为根据所述第一分类方法判定所述待处理文本属于所述第一待确认文本类别的概率;根据所述第一从属概率和第一历史从属概率计算第一目标概率,其中,所述第一历史从属概率为预设数据库中存储的所述待处理文本属于所述第一待确认文本类别的概率;判断所述第一目标概率是否高于预设阈值;以及当所述第一目标概率低于所述预设阈值时,依次采用与所述第一分类方法不同的至少一种分类方法对所述待处理文本进行所述分类处理,直到计算出的目标概率高于或等于所述预设阈值为止,并将最终得到的待确认文本类别作为目标文本类别。2.根据权利要求1所述的方法,其特征在于,在采用第一分类方法对所述待处理文本进行分类处理之前,所述方法还包括:确定对所述待处理文本进行分类处理的多种分类方法;以及获取所述多种分类方法组成的分类方法集合,其中,所述分类方法集合包括所述第一分类方法。3.根据权利要求1所述的方法,其特征在于,根据所述第一从属概率和第一历史从属概率计算第一目标概率包括:将所述第一从属概率和所述第一历史从属概率相乘,得到第一目标从属概率;将第一非从属概率和第一历史非从属概率相乘,得到第一目标非从属概率,其中,所述第一非从属概率为根据所述第一分类方法判定所述待处理文本不属于所述第一待确认文本类别的概率,所述第一历史非从属概率为所述预设数据库中存储的所述待处理文本不属于所述第一待确认文本类别的概率;将所述第一目标从属概率与所述第一目标非从属概率相加,得到第一目标子概率;以及将所述第一目标从属概率与所述第一目标子概率相除,得到所述第一目标概率。4.根据权利要求1所述的方法,其特征在于,在所述将最终得到的待确认文本类别作为目标文本类别之后,所述方法还包括:以最终计算出的目标概率更新所述预设数据库中存储的与最终采用的分类方法对应的历史从属概率。5.根据权利要求1所述的方法,其特征在于,在所述将最终得到的待确认文本类别作为目标文本类别之后,所述方法还包括:输出所述目标文本类别至目标地...

【专利技术属性】
技术研发人员:何鑫
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1