分类方法技术

技术编号:39658881 阅读:10 留言:0更新日期:2023-12-09 11:27
本公开提供了一种分类方法

【技术实现步骤摘要】
分类方法、装置、设备及存储介质


[0001]本公开涉及计算机
,尤其涉及一种分类方法

装置

设备及存储介质


技术介绍

[0002]目前,训练一个特定垂直领域的文本分类器,在数据层面需要满足两个基本条件:第一,明确的分类体系;第二,每一个分类标签下有大量的训练数据

[0003]然而在真实的环境中,构建分类体系以及数据集需要消耗大量的知识工程师和数据标注员,人力资源和时间成本较高

除此之外,在一些特殊行业领域,由于具有数据保密的需求,工程师除了有对领域的基本描述情况外,无可供参考的分类体系

也无任何参考数据,导致文本分类器的准确性低

文本分类效果差


技术实现思路

[0004]本公开提供了一种分类方法

装置

设备及存储介质

[0005]根据本公开的第一方面,提供了一种分类方法,包括:
[0006]获取待处理文本;
[0007]基于文本分类器处理所述待处理文本,得到与所述待处理文本相对应的类别信息,其中,所述文本分类器为基于分类引导信息和生成式预训练模型生成的分类器,所述生成式预设训练模型用于根据所述分类引导信息,生成训练所述文本分类器所需要的目标分类数据及其对应的标签信息

[0008]在本申请一实施中,所述文本分类器的训练过程包括:
[0009]以所述目标分类数据作为输入,以所述目标分类数据对应的目标类别信息作为标签信息,训练神经网络,得到所述文本分类器;
[0010]其中,所述目标分类数据是通过如下方式获得的:
[0011]获取用户输入的分类引导信息;
[0012]通过所述生成式预训练模型处理所述分类引导信息,得到目标类别信息;
[0013]基于所述目标类别信息,通过所述生成式预训练模型生成所述目标类别信息对应的目标分类数据

[0014]在本申请一实施中,通过所述生成式预训练模型处理所述分类引导信息,得到目标类别信息,包括:
[0015]以所述分类引导信息作为输入,基于所述生成式预训练模型,得到多个第一子分类信息;
[0016]根据多个所述第一子分类信息,确定多个第一子分类引导信息;
[0017]以多个所述第一子分类引导信息作为输入,基于所述生成式预训练模型,得到多个第二子分类信息;
[0018]多次执行步骤:根据多个所述第
N
‑1子分类信息,确定多个第
N
‑1子分类引导信息,以多个所述第
N
‑1子分类引导信息作为输入,基于所述生成式预训练模型,得到多个第
N

分类信息;
[0019]在多个所述第
N
子分类信息满足指定分类条件的情况下,基于多个所述第一子分类信息

多个所述第二子分类信息

多个所述第
N
‑1子分类信息

多个所述第
N
子分类信息,确定类别信息;
[0020]其中,所述指定分类条件包括:所述第
N
‑1子分类信息与所述第
N
子分类信息的数量相同;或者,所述第
N
子分类信息的数量满足指定数量

[0021]在本申请一实施中,所述基于所述目标类别信息,通过所述生成式预训练模型生成所述目标类别信息对应的目标分类数据,包括:
[0022]基于所述类别信息,确定各目标类别信息对应的数据引导信息;其中,所述目标类别信息包括一个子分类信息或者具有逻辑关系的多个子分类信息;
[0023]以所述数据引导信息作为输入,基于所述生成式预训练模型,确定各所述目标类别信息对应的至少一个初始分类数据

[0024]在本申请一实施中,至少一个所述初始分类数据包括具有其目标类别信息意图特征的日志数据

[0025]在本申请一实施中,所述基于所述目标类别信息,通过所述生成式预训练模型生成所述目标类别信息对应的目标分类数据,还包括:
[0026]基于多个所述初始分类数据进行质量筛选,得到各所述目标分类数据

[0027]在本申请一实施中,所述基于多个所述初始分类数据进行质量筛选,包括以下至少之一操作:
[0028]通过语法检测工具,对各所述初始分类数据的语法进行质量筛选;
[0029]通过所述语法检测工具,确定各所述初始分类数据的主体以及主体之间的关系特征,根据常识数据库,对各所述初始分类数据的主体以及主体之间的关系特征进行质量筛选;
[0030]提取各所述初始分类数据的关键词,通过判断所述关键词与各所述初始分类数据所对应的目标类别信息之间的相关性,进行质量筛选;
[0031]基于语义判断工具,通过判断各所述初始分类数据与其对应的目标类别信息之间的相关性,进行质量筛选

[0032]在本申请一实施中,所述以所述数据引导信息作为输入,基于所述生成式预训练模型,确定各所述目标类别信息对应的至少一个初始分类数据,包括:
[0033]确定所述生成式预训练模型的温度采样参数;
[0034]在所述温度采样参数下,以所述数据引导信息作为输入,基于所述生成式预训练模型,确定所述各目标类别信息对应的多样化初始分类数据

[0035]根据本公开的第二方面,提供了一种分类装置,包括:
[0036]获取模块,用于获取待处理文本;
[0037]类别确定模块,用于基于文本分类器处理所述待处理文本,得到与所述待处理文本相对应的类别信息,其中,所述文本分类器为基于分类引导信息和生成式预训练模型生成的分类器,所述生成式预设训练模型用于根据所述分类引导信息,生成训练所述文本分类器所需要的目标分类数据及其对应的标签信息

[0038]在本申请一实施中,还包括:
[0039]训练模块,用于以所述目标分类数据作为输入,以所述目标分类数据对应的目标类别信息作为标签信息,训练神经网络,得到所述文本分类器;
[0040]目标分类数据获取模块,用于获取用户输入的分类引导信息;通过所述生成式预训练模型处理所述分类引导信息,得到目标类别信息;基于所述目标类别信息,通过所述生成式预训练模型生成所述目标类别信息对应的目标分类数据

[0041]在本申请一实施中,所述目标分类数据获取模块,具体用于:以所述分类引导信息作为输入,基于所述生成式预训练模型,得到多个第一子分类信息;根据多个所述第一子分类信息,确定多个第一子分类引导信息;以多个所述第一子分类引导信息作为输入,基于所述生成式预训练模型,得到多个第二子分类信息;多次执行步骤:根据多个所述第
N
‑1子分类信息,确定多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种分类方法,所述方法包括:获取待处理文本;基于文本分类器处理所述待处理文本,得到与所述待处理文本相对应的类别信息,其中,所述文本分类器为基于分类引导信息和生成式预训练模型生成的分类器,所述生成式预设训练模型用于根据所述分类引导信息,生成训练所述文本分类器所需要的目标分类数据及其对应的标签信息
。2.
根据权利要求1所述的方法,其中,所述文本分类器的训练过程包括:以所述目标分类数据作为输入,以所述目标分类数据对应的目标类别信息作为标签信息,训练神经网络,得到所述文本分类器;其中,所述目标分类数据是通过如下方式获得的:获取用户输入的分类引导信息;通过所述生成式预训练模型处理所述分类引导信息,得到目标类别信息;基于所述目标类别信息,通过所述生成式预训练模型生成所述目标类别信息对应的目标分类数据
。3.
根据权利要求2所述的方法,其中,通过所述生成式预训练模型处理所述分类引导信息,得到目标类别信息,包括:以所述分类引导信息作为输入,基于所述生成式预训练模型,得到多个第一子分类信息;根据多个所述第一子分类信息,确定多个第一子分类引导信息;以多个所述第一子分类引导信息作为输入,基于所述生成式预训练模型,得到多个第二子分类信息;多次执行步骤:根据多个所述第
N
‑1子分类信息,确定多个第
N
‑1子分类引导信息,以多个所述第
N
‑1子分类引导信息作为输入,基于所述生成式预训练模型,得到多个第
N
子分类信息;在多个所述第
N
子分类信息满足指定分类条件的情况下,基于多个所述第一子分类信息

多个所述第二子分类信息

多个所述第
N
‑1子分类信息

多个所述第
N
子分类信息,确定类别信息;其中,所述指定分类条件包括:所述第
N
‑1子分类信息与所述第
N
子分类信息的数量相同;或者,所述第
N
子分类信息的数量满足指定数量
。4.
根据权利要求3所述的方法,其中,所述基于所述目标类别信息,通过所述生成式预训练模型生成所述目标类别信息对应的目标分类数据,包括:基于所述类别信息,确定各目标类别信息...

【专利技术属性】
技术研发人员:敬毅民孟遥冯勤
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1