文本分类的处理方法及装置制造方法及图纸

技术编号：15690884 阅读：128 留言：0更新日期：2017-06-24 03:38

本申请公开了一种文本分类的处理方法及装置。该方法包括：采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率；根据第一从属概率和第一历史从属概率计算第一目标概率；判断第一目标概率是否高于预设阈值；以及当第一目标概率低于预设阈值时，依次采用与第一分类方法不同的至少一种分类方法对待处理文本进行分类处理，直到计算出的目标概率高于或等于预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。通过本申请，解决了相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题。

Method and device for processing text classification

The present invention discloses a method and a device for processing text classification. The method includes: the first classification method treats text classification, text classification and the first to be confirmed first subordinate probability; calculates a first target probability according to the first slave probability and the first history dependent probability; determine the first target probability is higher than a preset threshold value; and when the first target probability below a preset threshold value, followed by different the first classification method of at least one classification method treats text classification process, until the calculated target probability is higher than or equal to a preset threshold value, and will eventually have to be confirmed as the target text category text category. Through this application, the problem of low efficiency in text categorization is solved in order to improve the accuracy of text classification in related technologies.

全部详细技术资料下载

【技术实现步骤摘要】
文本分类的处理方法及装置
本申请涉及文本处理领域，具体而言，涉及一种文本分类的处理方法及装置。
技术介绍
文本分类是自然语言处理的重要任务之一，类似于文章的行业分类，情感分析等许多自然语言处理任务其实质都是文本的分类。目前，无论是基于规则还是基于机器学习，处理文本分类问题的方法都有很多。通常，采用一种分类方法对文本进行分类处理，得到分类结果，输出分类处理结果。然后仅采用一种分类方法对文本进行分类处理的准确性较低。为了提升对文本进行分类的准确性，相关技术中采用了一系列分类方法，旨在使用多个不太精准的分类方法对文本进行分类处理，得到多个分类处理结果。然后再对每一个分类处理结果进行投票，选出最高票的分类处理结果作为输出。这种方法在很大程度上弥补了仅仅使用一个分类方法的不足，然而无论是否有必要，该方法对于每一个输入的文本都需要采用多个分类方法，造成对文本处理性能的下降。针对相关技术中为了提升对文本分类的准确性导致对文本分类的处理效率低的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种文本分类的处理方法及装置，以解决相关技术中为了提升对文本分类的准...

【技术保护点】
一种文本分类的处理方法，其特征在于，包括：采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，所述第一从属概率为根据所述第一分类方法判定所述待处理文本属于所述第一待确认文本类别的概率；根据所述第一从属概率和第一历史从属概率计算第一目标概率，其中，所述第一历史从属概率为预设数据库中存储的所述待处理文本属于所述第一待确认文本类别的概率；判断所述第一目标概率是否高于预设阈值；以及当所述第一目标概率低于所述预设阈值时，依次采用与所述第一分类方法不同的至少一种分类方法对所述待处理文本进行所述分类处理，直到计算出的目标概率高于或等于所述预设阈值为止，并将最终得到的待确认文...

【技术特征摘要】
1.一种文本分类的处理方法，其特征在于，包括：采用第一分类方法对待处理文本进行分类处理，得到第一待确认文本类别和第一从属概率，其中，所述第一从属概率为根据所述第一分类方法判定所述待处理文本属于所述第一待确认文本类别的概率；根据所述第一从属概率和第一历史从属概率计算第一目标概率，其中，所述第一历史从属概率为预设数据库中存储的所述待处理文本属于所述第一待确认文本类别的概率；判断所述第一目标概率是否高于预设阈值；以及当所述第一目标概率低于所述预设阈值时，依次采用与所述第一分类方法不同的至少一种分类方法对所述待处理文本进行所述分类处理，直到计算出的目标概率高于或等于所述预设阈值为止，并将最终得到的待确认文本类别作为目标文本类别。2.根据权利要求1所述的方法，其特征在于，在采用第一分类方法对所述待处理文本进行分类处理之前，所述方法还包括：确定对所述待处理文本进行分类处理的多种分类方法；以及获取所述多种分类方法组成的分类方法集合，其中，所述分类方法集合包括所述第一分类方法。3.根据权利要求1所述的方法，其特征在于，根据所述第一从属概率和第一历史从属概率计算第一目标概率包括：将所述第一从属概率和所述第一历史从属概率相乘，得到第一目标从属概率；将第一非从属概率和第一历史非从属概率相乘，得到第一目标非从属概率，其中，所述第一非从属概率为根据所述第一分类方法判定所述待处理文本不属于所述第一待确认文本类别的概率，所述第一历史非从属概率为所述预设数据库中存储的所述待处理文本不属于所述第一待确认文本类别的概率；将所述第一目标从属概率与所述第一目标非从属概率相加，得到第一目标子概率；以及将所述第一目标从属概率与所述第一目标子概率相除，得到所述第一目标概率。4.根据权利要求1所述的方法，其特征在于，在所述将最终得到的待确认文本类别作为目标文本类别之后，所述方法还包括：以最终计算出的目标概率更新所述预设数据库中存储的与最终采用的分类方法对应的历史从属概率。5.根据权利要求1所述的方法，其特征在于，在所述将最终得到的待确认文本类别作为目标文本类别之后，所述方法还包括：输出所述目标文本类别至目标地...

【专利技术属性】
技术研发人员：何鑫，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人