一种数据分类方法、装置、设备及存储介质制造方法及图纸

技术编号:38721653 阅读:8 留言:0更新日期:2023-09-08 23:16
本申请公开了一种数据分类方法、装置、设备及存储介质,其中,所述方法包括:获得文本数据,并确定当前的目标分类任务;从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。定所述文本数据的分类结果。定所述文本数据的分类结果。

【技术实现步骤摘要】
一种数据分类方法、装置、设备及存储介质


[0001]本申请实施例涉及数据处理领域,涉及但不限于一种数据分类方法、装置、设备及存储介质。

技术介绍

[0002]结构化数据是指以关系数据库表等形式管理的数据,在企业中存在大量的此类型数据。针对这些数据进行文本分类,对于企业的数据治理工作具有重要意义。该类型数据具有上下文语义信息缺乏和标注数据稀少两个显著的特点,给基于深度学习的分类方法造成了极大的困难。
[0003]针对结构化的数据进行文本分类,现有技术存在模板构造复杂性和不稳定性问题:提示学习方法的效果受限于模板的好坏,为找到较为合适的模板,需要人工设计不同模板,为模型训练增加较大时间开销。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种数据分类方法、装置、设备及存储介质。
[0005]本申请实施例的技术方案是这样实现的:
[0006]第一方面,本申请实施例提供一种数据分类方法,所述方法包括:
[0007]获得文本数据,并确定当前的目标分类任务;
[0008]从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;
[0009]基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
[0010]第二方面,本申请实施例提供一种数据分类装置,所述装置包括:
[0011]第一获取模块,用于获得文本数据,并确定当前的目标分类任务;
[0012]第一确定模块,用于从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;
[0013]第二确定模块,用于基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
[0014]第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
[0015]第四方面,本申请实施例提供一种存储介质,存储有可执行指令,用于处理器执行时,实现上述方法。
[0016]本申请实施例中,本申请实施例中,首先获得文本数据,并确定当前的目标分类任务;然后从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不
同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合和至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;最后基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。这样,将模板构造与结构化数据自身统计信息相结合,避免人工构造模板的复杂性和不稳定性问题。模型的分类效果受模板影响较小,效果更加稳定。
附图说明
[0017]图1为本申请实施例提供的一种数据分类方法的实现流程示意图;
[0018]图2为本申请实施例提供的一种生成提示模板方法的实现流程示意图;
[0019]图3A为本申请实施例提供的一种分类文本数据方法的实现流程示意图;
[0020]图3B为本申请实施例提供的一种标签映射的示意图
[0021]图4为本申请实施例提供的结构化数据分类方法的实现流程示意图;
[0022]图5为本申请实施例提供的一种数据分类装置的组成结构示意图;
[0023]图6为本申请实施例提供的电子设备的一种硬件实体示意图。
具体实施方式
[0024]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对申请实施例的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
[0025]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0026]在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0027]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0028]本申请实施例提供一种数据分类方法,如图1所示,该方法包括:
[0029]步骤S110、获得文本数据,并确定当前的目标分类任务;
[0030]这里,文本数据可以是结构化数据。结构化数据是指以关系数据库表等形式管理的数据,在企业中存在大量的此类型数据。
[0031]在实施过程中,不同文本数据集合对应不同的分类任务。可以基于获取到的文本数据集合的数据特征,确定该文本数据对应的目标分类任务。举例来说,包含个人信息的文本数据集合,可以确定该文本数据对应的分类任务为将文本数据按照姓名、籍贯、住址、职位等至少一项进行分类。
[0032]步骤S120、从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合对应的至
少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;
[0033]这里,预设的生成模型可以是生成式预训练模型(Generative Pretrained Transformer,GPT),即基于预训练模型的自然语言处理技术。预训练模型是指在大规模的数据集上训练的模型。预训练步骤可以使用海量语料库学习通用语言特征,并生成一个通用的语言模型,即GPT模型。GPT模型可以通过泛化训练的文本,生成高质量自然语言文本。
[0034]在一些实施例中,得到提示模块可以包括以下过程:可以先确定分类任务对应的标签集合,再基于标签集合中的标签与所述标签对应上下文获取语义信息,利用滑动窗口从语义信息中抽取至少一个关键词,最后将标签集合对应的至少一个关键词输入预设的生成模型得到提示模板。这样,可以实现在预设的模型中生成提示模板,从而避免人工构造模板的复杂性和不稳定性问题。
[0035]在实施过程中,可以从至少一个提示模板中,确定与目标分类任务匹配的目标提示模板。举例来说,分类任务为个人信息分类的情况下,可以确定目标提示模板为“[CLS]以下是个人身份信息的[MASK]信息”。
[0036]步骤S130、基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。
[0037]在实施过程中,可以先组合文本数据和目标提示模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分类方法,所述方法包括:获得文本数据,并确定当前的目标分类任务;从至少一个提示模板中,确定与所述目标分类任务匹配的目标提示模板;其中,不同的所述提示模板对应不同的分类任务,所述提示模板是将标签集合对应的至少一个关键词输入预设的生成模型得到的,所述标签集合与所述分类任务对应;基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果。2.根据权利要求1所述的方法,所述方法还包括:获取语料集合;确定第一分类任务包括的标签集合;其中,所述第一分类任务为所述不同的分类任务中的任一分类任务;基于所述语料集合、所述第一分类任务包括的标签集合和所述预设的生成模型,得到所述第一分类任务的提示模板。3.根据权利要求2所述的方法,所述基于所述语料集合、所述第一分类任务包括的标签集合和所述预设的生成模型,得到所述第一分类任务的提示模板,包括:根据所述语料集合和所述第一分类任务包括的标签集合,确定至少一个所述关键词;将所述第一分类任务包括的标签集合和所述至少一个关键词输入所述预设的生成模型,得到所述第一分类任务的提示模板。4.根据权利要求3所述的方法,所述根据所述语料集合和所述第一分类任务包括的标签集合,确定至少一个关键词,包括:确定第一标签在第一语料中的上下文;其中,所述第一标签属于所述第一分类任务所包括的标签集合,所述第一语料属于所述语料集合;确定所述第一标签与所述上下文之间的语义信息;基于所述语义信息,利用滑动窗口在所述第一语料中抽取所述至少一个关键词。5.根据权利要求1至4任一项所述的方法,所述基于所述文本数据、所述目标提示模板和已训练的分类模型,确定所述文本数据的分类结果,包括:将所述文本...

【专利技术属性】
技术研发人员:石健马鑫刘雁云
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1