以理由依据为中心的人机协同文本分类方法及装置制造方法及图纸

技术编号:34465891 阅读:18 留言:0更新日期:2022-08-10 08:38
本发明专利技术提供一种以理由依据为中心的人机协同文本分类方法及装置,其中,以理由依据为中心的人机协同文本分类方法包括:基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型;获取待分类文本,并将待分类文本输入至目标文本分类模型,得到目标文本分类模型输出的文本分类结果;其中,第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,初始训练集中各训练样本包括分类标签以及标签理由,标签理由为训练样本中决定分类标签的文本片段,初始训练集的样本量小于数量阈值;基于标签理由对初始训练集进行数据增强,得到第一数据增强后训练集。通过本发明专利技术可以提高文本分类模型的分类结果的准确度。高文本分类模型的分类结果的准确度。高文本分类模型的分类结果的准确度。

【技术实现步骤摘要】
以理由依据为中心的人机协同文本分类方法及装置


[0001]本专利技术涉及文本分类
,尤其涉及一种以理由依据为中心的人机协同文本分类方法及装置。

技术介绍

[0002]文本分类是指对文本按照一定的标准进行自动分类标记的一种技术手段。相关技术可知,可以采用文本分类模型对输入的文本进行处理,以输出关于文本的分类结果。
[0003]然而,基于数据驱动的神经网络模型(例如文本分类模型)在小样本量训练下容易引入伪模式。其中,伪模式是指没有因果关系的特征与标签被误认为有因果关系,可以理解的是,伪模式下的特征被文本分类模型错误识别成为决定文本标签(又称分类标签)的理由信息,即这种伪特征与正确预测的关联称为伪模式。这种基于伪模式的神经网络模型(例如文本分类模型)在测试阶段通常是不符合逻辑因果关系的,会损害到在实际场景下分类任务的精准度。

技术实现思路

[0004]本专利技术提供一种以理由依据为中心的人机协同文本分类方法及装置,用以解决现有技术中文本分类模型由于伪模式的存在而导致分类结果不准确的缺陷,实现了基于标签理由对小样本量训练集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种以理由依据为中心的人机协同文本分类方法,其特征在于,所述方法包括:基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型;获取待分类文本,并将所述待分类文本输入至所述目标文本分类模型,得到所述目标文本分类模型输出的文本分类结果;其中,所述第一数据增强后训练集采用以下方式确定:获取初始训练集,其中,所述初始训练集中各训练样本包括分类标签以及标签理由,所述标签理由为所述训练样本中决定所述分类标签的文本片段,所述初始训练集的样本量小于数量阈值;基于所述标签理由对所述初始训练集进行数据增强,得到所述第一数据增强后训练集。2.根据权利要求1所述的以理由依据为中心的人机协同文本分类方法,其特征在于,所述基于所述标签理由对所述初始训练集进行数据增强,得到所述第一数据增强后训练集,包括:基于所述标签理由,对所述初始训练集中与所述标签理由对应的所述训练样本进行数据增强,得到与所述训练样本对应的标签理由增强训练样本;基于所述训练样本和所述标签理由增强训练样本,得到所述第一数据增强后训练集。3.根据权利要求2所述的以理由依据为中心的人机协同文本分类方法,其特征在于,所述基于所述标签理由,对所述初始训练集中与所述标签理由对应的所述训练样本进行数据增强,得到与所述训练样本对应的标签理由增强训练样本,包括:基于所述标签理由,确定与所述标签理由对应的所述训练样本中的非标签理由,其中,所述非标签理由为所述训练样本中除所述标签理由之外的其他文本片段;对所述训练样本的所述非标签理由进行近义词替换,得到与所述训练样本对应的标签理由增强训练样本。4.根据权利要求1所述的以理由依据为中心的人机协同文本分类方法,其特征在于,在所述基于第一数据增强后训练集训练文本分类模型,得到目标文本分类模型之后,所述方法还包括:分别确定所述初始训练集中各训练样本的错误标签理由和丢失标签理由,其中,所述错误标签理由为与所述分类标签无因果关系但被所述目标文本分类模型错误识别为标签理由的所述训练样本的文本片段,所述丢失标签理由为与所述分类标签有因果关系但未被所述目标文本分类模型识别为标签理由的所述训练样本的文本片段;基于所述错误标签理由和所述丢失标签理由对所述初始训练集进行数据增强,得到第二数据增强后训练集;基于所述第二数据增强后训练集训练所述目标文本分类模型,得到优化后目标文本分类模型,并将所述优化后目标文本分类模型作为对所述待分类文本进行分类处理的目标文本分类模型。5.根据权利要求4所述的以理由依据为中心的人机协同文本分类方法,其特征在于,所述基于所述错误标签理由和所述丢失标签理由对所述初始训练集进行数据增强,得到第二数据增强后训练集,包括:基于所述错误标签理由,对所述初始训练集中与所述错误标签理由对应的所述训练样
本进行数据增强,得到与所述训练样本对应的错误标签理由增强训练样本;基于所述丢失标签理由,对所述初始训练集中与所述丢失标签理由对应的所述训练样本进行数据增强,得到与所述训练样本对应的丢失标签理由增强训练样本;基于所述训练样本、所述错误标签理由增强训练样本和所述丢失标签理由增强训练样本,得到所述第二数据增强后训练集。6.根据权利要求5所述的以理由依据为中心的人机协同文本分类方法,其特征在于,所述基于所述错误标签...

【专利技术属性】
技术研发人员:杨林易卢竞辉罗彤张岳
申请(专利权)人:北京融汇金信信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1