文本分类方法和装置、计算机可读存储介质制造方法及图纸

技术编号:20075111 阅读:27 留言:0更新日期:2019-01-15 00:39
本公开涉及文本分类方法和装置、计算机可读存储介质。文本分类方法,包括:利用文本分类模型对多个标注语料进行分类,得到各个标注语料的模型分类标签;选择模型分类标签与相应的标注分类标签不一致的标注语料,作为样本语料;将各个样本语料中的文本分别转化为词语列表;按照模型分类标签对从各个词语列表中抽取的词语组合进行归类,得到各个模型分类标签下的词语组合;根据词语组合生成分类调整模板,所述分类调整模板包括原始分类标签、模板内容和调整分类标签,所述模板内容包括该词语组合,所述原始分类标签为该词语组合对应的模型分类标签,所述调整分类标签为该词语组合对应的样本语料的标注标签。

Text Classification Method and Device, Computer Readable Storage Media

The present disclosure relates to text classification methods and devices, computer readable storage media. Text categorization methods include: using text categorization model to classify multiple tagged corpus and get model categorization labels of each tagged corpus; selecting tagged corpus whose model categorization labels are inconsistent with corresponding tagged categorization labels as sample corpus; transforming the texts of each sample corpus into word lists separately; and classifying each word column according to model categorization labels. The word combinations extracted from the table are classified and the word combinations under each model classification label are obtained. According to the word combinations, a classification adjustment template is generated. The classification adjustment template includes the original classification label, the template content and the adjustment classification label. The template content includes the word combinations. The original classification label is the model classification label corresponding to the word combinations, and the tone is described. The whole classification label is the label of the sample corpus corresponding to the word combination.

【技术实现步骤摘要】
文本分类方法和装置、计算机可读存储介质
本公开涉及计算机领域,特别涉及一种文本分类方法和装置、计算机可读存储介质。
技术介绍
文本分类技术广泛应用于电子文本信息处理中。深度学习技术的发展又进一步扩展了文本分类的应用场景。基于深度学习的相关文本分类技术通常包括:确定分类标准;搜集并标注语料,形成语料库;用语料库训练分类模型;用训练好的分类模型对其他文本进行分类。
技术实现思路
由于语料库以及深度学习本身的限制,分类模型的准确率并不能达到100%,而缺失的部分准确率难以通过分类模型本身的优化来有效提升。鉴于此,本公开提出了一种文本分类方案,能够进一步提高文本分类的准确性。根据本公开的一些实施例,提供了一种文本分类方法,包括:利用文本分类模型对多个标注语料进行分类,得到各个标注语料的模型分类标签;选择模型分类标签与相应的标注分类标签不一致的标注语料,作为样本语料;将各个样本语料中的文本分别转化为词语列表;按照模型分类标签对从各个词语列表中抽取的词语组合进行归类,得到各个模型分类标签下的词语组合;根据词语组合生成分类调整模板,所述分类调整模板包括原始分类标签、模板内容和调整分类标签,所述模板内容包括该词语组合,所述原始分类标签为该词语组合对应的模型分类标签,所述调整分类标签为该词语组合对应的样本语料的标注标签。在一些实施例中,所述文本分类方法还包括:删除同时出现在多个模型分类标签下的词语组合。在一些实施例中,所述文本分类方法还包括:删除在样本语料中出现次数小于阈值的词语组合。在一些实施例中,同一词语组合在一个样本语料中出现多次,仅按一次计数。在一些实施例中,所述分类调整模板还包括优先级,所述优先级反映调整分类标签是正确的可能性。在一些实施例中,所述优先级表示为a、b分别表示所述模板内容中的词语组合在原始分类标签、调整分类标签下的样本语料中出现次数。在一些实施例中,所述优先级表示为c表示在所述分类调整模板的原始分类标签下的样本语料的总数。在一些实施例中,所述文本分类方法还包括:利用所述文本分类模型对待分类文本进行分类,得到所述待分类文本的模型分类标签;将所述待分类文本转化为词语列表;将满足下述条件的分类调整模板作为匹配结果:所述待分类文本的模型分类标签与该分类调整模板的原始分类标签一致,且从所述待分类文本的词语列表中抽取的至少一个词语组合包含在该分类调整模板的模板内容中;在存在至少一个匹配结果、且优先级最高的匹配结果的对应优先级大于或等于优先级阈值的情况下,将优先级最高的匹配结果确定为匹配分类调整模板;将所述待分类文本的模型分类标签修改为所述匹配分类调整模板的调整分类标签,作为分类结果。在一些实施例中,通过对文本进行分词及去停用词处理,将文本转化为词语列表。在一些实施例中,在词语列表中词语之间的顺序与在相应文本中是相同的。根据本公开的另一些实施例,提供一种文本分类装置,包括:分类单元,被配置为利用文本分类模型对多个标注语料进行分类,得到各个标注语料的模型分类标签;选择单元,被配置为选择模型分类标签与相应的标注分类标签不一致的标注语料,作为样本语料;转化单元,被配置为将各个样本语料中的文本分别转化为词语列表;归类单元,被配置为按照模型分类标签对从各个词语列表中抽取的词语组合进行归类,得到各个模型分类标签下的词语组合;生成单元,被配置为根据词语组合生成分类调整模板,所述分类调整模板包括原始分类标签、模板内容和调整分类标签,所述模板内容包括该词语组合,所述原始分类标签为该词语组合对应的模型分类标签,所述调整分类标签为该词语组合对应的样本语料的标注标签。在一些实施例中,所述文本分类装置还包括:删除单元,被配置为删除同时出现在多个模型分类标签下的词语组合或删除在样本语料中出现次数小于阈值的词语组合。在一些实施例中,所述文本分类装置还包括:匹配单元,被配置为将满足下述条件的分类调整模板作为匹配结果:所述待分类文本的模型分类标签与该分类调整模板的原始分类标签一致,且从所述待分类文本的词语列表中抽取的至少一个词语组合包含在该分类调整模板的模板内容中;确定单元,被配置为在存在至少一个匹配结果、且优先级最高的匹配结果的对应优先级大于或等于优先级阈值的情况下,将优先级最高的匹配结果确定为匹配分类调整模板;调整单元,被配置为将所述待分类文本的模型分类标签修改为所述匹配分类调整模板的调整分类标签,作为分类结果。根据本公开的又一些实施例,提供一种文本分类装置,包括:存储器以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例所述的文本分类方法。根据本公开的另一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例所述的文本分类方法。在上述实施例中,通过对文本分类模型的分类结果进行再处理,生成分类调整模板,以便提高文本分类的准确性。这样生成分类调整模板不对模型训练过程以及外部调用方产生影响,可以适应不同的模型训练方式。附图说明构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:图1示出根据本公开的文本分类方法的一些实施例的流程图;图2示出根据本公开的文本分类方法的另一些实施例的流程图;图3示出根据本公开的文本分类方法的又一些实施例的流程图;图4示出根据本公开的文本分类装置的一些实施例的框图;图5示出根据本公开的文本分类装置的另一些实施例的框图;图6是示出用于实现本公开一些实施例的计算机系统的框图。具体实施方式现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。图1示出根据本公开的文本分类方法的一些实施例的流程图。如图1所示,文本分类方法包括步骤S1-S5。在步骤S1中,利用文本分类模型对多个标注语料进行分类,得到各个标注语料的模型分类标签。在一些实施例中,基于深度学习的神经网络来训练文本分类模型。标注语料可以从文本分类模型训练用的语料库中获取。标注语料中可包含文本和标注分类标签等字段。在步骤S2中,选择模型分类标签与相应的标注分类标签不一致的标注语料,作为样本语料。在一些实施例中,可以通过字段匹配来筛选模型分类标签与相应的标注分类标签不一致的标注语料。在训练文本分类模型时,也会比较标注语料的模型分类标签与相应的标注分类标签,并利用比较结果来调整文本分类模型,以使得两种标签一致本文档来自技高网...

【技术保护点】
1.一种文本分类方法,包括:利用文本分类模型对多个标注语料进行分类,得到各个标注语料的模型分类标签;选择模型分类标签与相应的标注分类标签不一致的标注语料,作为样本语料;将各个样本语料中的文本分别转化为词语列表;按照模型分类标签对从各个词语列表中抽取的词语组合进行归类,得到各个模型分类标签下的词语组合;根据词语组合生成分类调整模板,所述分类调整模板包括原始分类标签、模板内容和调整分类标签,所述模板内容包括该词语组合,所述原始分类标签为该词语组合对应的模型分类标签,所述调整分类标签为该词语组合对应的样本语料的标注标签。

【技术特征摘要】
1.一种文本分类方法,包括:利用文本分类模型对多个标注语料进行分类,得到各个标注语料的模型分类标签;选择模型分类标签与相应的标注分类标签不一致的标注语料,作为样本语料;将各个样本语料中的文本分别转化为词语列表;按照模型分类标签对从各个词语列表中抽取的词语组合进行归类,得到各个模型分类标签下的词语组合;根据词语组合生成分类调整模板,所述分类调整模板包括原始分类标签、模板内容和调整分类标签,所述模板内容包括该词语组合,所述原始分类标签为该词语组合对应的模型分类标签,所述调整分类标签为该词语组合对应的样本语料的标注标签。2.根据权利要求1所述的文本分类方法,还包括:删除同时出现在多个模型分类标签下的词语组合。3.根据权利要求1所述的文本分类方法,还包括:删除在样本语料中出现次数小于阈值的词语组合。4.根据权利要求3所述的文本分类方法,其中,同一词语组合在一个样本语料中出现多次,仅按一次计数。5.根据权利要求1所述的文本分类方法,其中,所述分类调整模板还包括优先级,所述优先级反映调整分类标签是正确的可能性。6.根据权利要求5所述的文本分类方法,其中,所述优先级表示为a、b分别表示所述模板内容中的词语组合在原始分类标签、调整分类标签下的样本语料中出现次数。7.根据权利要求6所述的文本分类方法,其中,所述优先级表示为c表示在所述分类调整模板的原始分类标签下的样本语料的总数。8.根据权利要求5所述的文本分类方法,还包括:利用所述文本分类模型对待分类文本进行分类,得到所述待分类文本的模型分类标签;将所述待分类文本转化为词语列表;将满足下述条件的分类调整模板作为匹配结果:所述待分类文本的模型分类标签与该分类调整模板的原始分类标签一致,且从所述待分类文本的词语列表中抽取的至少一个词语组合包含在该分类调整模板的模板内容中;在存在至少一个匹配结果、且优先级最高的匹配结果的对应优先级大于或等于优先级阈值的情况下,将优先级最高的匹配结果确定为匹配分类调整模板;将所述待分类文本的模型分类标签修改为所述匹配分类调整模板的调整分类标签,作为分类结果。9.根据权利要求1至8...

【专利技术属性】
技术研发人员:林江华
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1