The present disclosure relates to text classification methods and devices, computer readable storage media. Text categorization methods include: using text categorization model to classify multiple tagged corpus and get model categorization labels of each tagged corpus; selecting tagged corpus whose model categorization labels are inconsistent with corresponding tagged categorization labels as sample corpus; transforming the texts of each sample corpus into word lists separately; and classifying each word column according to model categorization labels. The word combinations extracted from the table are classified and the word combinations under each model classification label are obtained. According to the word combinations, a classification adjustment template is generated. The classification adjustment template includes the original classification label, the template content and the adjustment classification label. The template content includes the word combinations. The original classification label is the model classification label corresponding to the word combinations, and the tone is described. The whole classification label is the label of the sample corpus corresponding to the word combination.
【技术实现步骤摘要】
文本分类方法和装置、计算机可读存储介质
本公开涉及计算机领域,特别涉及一种文本分类方法和装置、计算机可读存储介质。
技术介绍
文本分类技术广泛应用于电子文本信息处理中。深度学习技术的发展又进一步扩展了文本分类的应用场景。基于深度学习的相关文本分类技术通常包括:确定分类标准;搜集并标注语料,形成语料库;用语料库训练分类模型;用训练好的分类模型对其他文本进行分类。
技术实现思路
由于语料库以及深度学习本身的限制,分类模型的准确率并不能达到100%,而缺失的部分准确率难以通过分类模型本身的优化来有效提升。鉴于此,本公开提出了一种文本分类方案,能够进一步提高文本分类的准确性。根据本公开的一些实施例,提供了一种文本分类方法,包括:利用文本分类模型对多个标注语料进行分类,得到各个标注语料的模型分类标签;选择模型分类标签与相应的标注分类标签不一致的标注语料,作为样本语料;将各个样本语料中的文本分别转化为词语列表;按照模型分类标签对从各个词语列表中抽取的词语组合进行归类,得到各个模型分类标签下的词语组合;根据词语组合生成分类调整模板,所述分类调整模板包括原始分类标签、模板内容和调整分类标签,所述模板内容包括该词语组合,所述原始分类标签为该词语组合对应的模型分类标签,所述调整分类标签为该词语组合对应的样本语料的标注标签。在一些实施例中,所述文本分类方法还包括:删除同时出现在多个模型分类标签下的词语组合。在一些实施例中,所述文本分类方法还包括:删除在样本语料中出现次数小于阈值的词语组合。在一些实施例中,同一词语组合在一个样本语料中出现多次,仅按一次计数。在一些实施例中,所述分类调 ...
【技术保护点】
1.一种文本分类方法,包括:利用文本分类模型对多个标注语料进行分类,得到各个标注语料的模型分类标签;选择模型分类标签与相应的标注分类标签不一致的标注语料,作为样本语料;将各个样本语料中的文本分别转化为词语列表;按照模型分类标签对从各个词语列表中抽取的词语组合进行归类,得到各个模型分类标签下的词语组合;根据词语组合生成分类调整模板,所述分类调整模板包括原始分类标签、模板内容和调整分类标签,所述模板内容包括该词语组合,所述原始分类标签为该词语组合对应的模型分类标签,所述调整分类标签为该词语组合对应的样本语料的标注标签。
【技术特征摘要】
1.一种文本分类方法,包括:利用文本分类模型对多个标注语料进行分类,得到各个标注语料的模型分类标签;选择模型分类标签与相应的标注分类标签不一致的标注语料,作为样本语料;将各个样本语料中的文本分别转化为词语列表;按照模型分类标签对从各个词语列表中抽取的词语组合进行归类,得到各个模型分类标签下的词语组合;根据词语组合生成分类调整模板,所述分类调整模板包括原始分类标签、模板内容和调整分类标签,所述模板内容包括该词语组合,所述原始分类标签为该词语组合对应的模型分类标签,所述调整分类标签为该词语组合对应的样本语料的标注标签。2.根据权利要求1所述的文本分类方法,还包括:删除同时出现在多个模型分类标签下的词语组合。3.根据权利要求1所述的文本分类方法,还包括:删除在样本语料中出现次数小于阈值的词语组合。4.根据权利要求3所述的文本分类方法,其中,同一词语组合在一个样本语料中出现多次,仅按一次计数。5.根据权利要求1所述的文本分类方法,其中,所述分类调整模板还包括优先级,所述优先级反映调整分类标签是正确的可能性。6.根据权利要求5所述的文本分类方法,其中,所述优先级表示为a、b分别表示所述模板内容中的词语组合在原始分类标签、调整分类标签下的样本语料中出现次数。7.根据权利要求6所述的文本分类方法,其中,所述优先级表示为c表示在所述分类调整模板的原始分类标签下的样本语料的总数。8.根据权利要求5所述的文本分类方法,还包括:利用所述文本分类模型对待分类文本进行分类,得到所述待分类文本的模型分类标签;将所述待分类文本转化为词语列表;将满足下述条件的分类调整模板作为匹配结果:所述待分类文本的模型分类标签与该分类调整模板的原始分类标签一致,且从所述待分类文本的词语列表中抽取的至少一个词语组合包含在该分类调整模板的模板内容中;在存在至少一个匹配结果、且优先级最高的匹配结果的对应优先级大于或等于优先级阈值的情况下,将优先级最高的匹配结果确定为匹配分类调整模板;将所述待分类文本的模型分类标签修改为所述匹配分类调整模板的调整分类标签,作为分类结果。9.根据权利要求1至8...
【专利技术属性】
技术研发人员:林江华,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。