数据处理方法、装置及电子设备制造方法及图纸

技术编号:39037055 阅读:8 留言:0更新日期:2023-10-10 11:50
本公开提供了一种数据处理方法、装置及电子设备,所述方法包括:利用第一处理模型对从第一数据集中获得的第一数据子集进行条件生成处理,得到第二数据集,所述第一数据子集通过第二处理模型对所述第一数据集进行关键数据提取得到;将所述第二数据集和第三数据集输入所述第一处理模型进行处理,得到第一标签信息,所述第一标签信息与指定标签信息不同,所述第三数据集与所述第一数据集的数据类型不同;利用所述第一标签信息更新所述第二处理模型。型。型。

【技术实现步骤摘要】
数据处理方法、装置及电子设备


[0001]本公开涉及数据意图识别技术,尤其涉及一种数据处理方法、装置及电子设备。

技术介绍

[0002]在智能客服场景中,需要对对话日志进行意图分析,一般是人工预定义一个意图体系(schema),再使用预训练大语言模型(Large Language Model,LLM)生成意图标签。但由于LLM并没有学习我们具体的schema的划分粒度和方向,经常会遗漏关键信息或者增加无关冗余信息,导致模型倾向于只是在给定体系下选择一个最相似结果,很难持续发现新的意图,无法利用LLM去优化意图体系,降低了用户使用体验。

技术实现思路

[0003]本公开提供了一种数据处理方法、装置及电子设备。
[0004]根据本公开的第一方面,提供一种数据处理方法,包括:
[0005]利用第一处理模型对从第一数据集中获得的第一数据子集进行条件生成处理,得到第二数据集,所述第一数据子集通过第二处理模型对所述第一数据集进行关键数据提取得到;
[0006]将所述第二数据集和第三数据集输入所述第一处理模型进行处理,得到第一标签信息,所述第一标签信息与指定标签信息不同,所述第三数据集与所述第一数据集的数据类型不同;
[0007]利用所述第一标签信息更新所述第二处理模型。
[0008]作为一种可选方式,将所述第二数据集和第三数据集输入所述第一处理模型进行处理,包括:
[0009]确定所述第三数据集中是否存在与所述第二数据集对应的数据;
[0010]若否,则利用所述第一处理模型将所述第二数据集和所述第三数据集生成第二数据子集,将所述第二数据子集确定为所述第一标签信息。
[0011]作为一种可选方式,利用所述第一标签信息更新所述第二处理模型,包括:
[0012]利用所述第一标签信息更新所述第一数据集,得到第四数据集,所述第四数据集中的意图标签数量多于所述第一数据集的意图标签数量;
[0013]利用所述第四数据集更新所述第二处理模型。
[0014]作为一种可选方式,利用所述第一标签信息更新所述第二处理模型,包括:
[0015]获得第一reward权重值,所述第一reward权重值为在得到所述第一标签信息时得到;
[0016]获得第二reward权重值,所述第二reward权重值为在得到所述第二数据集时得到;
[0017]基于所述第一reward权重值和所述第二reward权重值对所述第二处理模型进行更新优化。
[0018]作为一种可选方式,还包括:
[0019]利用第五数据集创建所述第二处理模型,所述第五数据集的数据量小于所述第一数据集。
[0020]作为一种可选方式,所述利用第五数据集创建所述第二处理模型包括:
[0021]从所述第一数据集抽取部分数据;
[0022]对所抽取的部分数据加标签信息,得到所述第五数据集;
[0023]将所述第五数据集中数据作为训练语料,利用预设模型对词序列出现的频率进行学习预测,得到预测参数,将所述预测参数赋予所述预设模型,得到所述第二处理模型。
[0024]作为一种可选方式,还包括:
[0025]根据所述第一数据集确定至少一个标签意图;
[0026]在目标图文库中查找与所述至少一个标签意图匹配的至少一个意图图片;
[0027]将查找到的所述至少一个意图图片与所述至少一个标签意图之间的对应关系,作为所述第三数据集。
[0028]作为一种可选方式,还包括:
[0029]利用所述第一标签信息在目标图文库中查找与所述第一标签信息匹配的第一意图图片;
[0030]将所述第一意图图片与所述第一标签信息之间的对应关系,添加到所述所述第三数据集中。
[0031]根据本公开的第二方面,提供一种数据处理装置,包括:
[0032]生成模块,用于利用第一处理模型对从第一数据集中获得的第一数据子集进行条件生成处理,得到第二数据集,所述第一数据子集通过第二处理模型对所述第一数据集进行关键数据提取得到;
[0033]处理模块,用于将所述第二数据集和第三数据集输入所述第一处理模型进行处理,得到第一标签信息,所述第一标签信息与指定标签信息不同,所述第三数据集与所述第一数据集的数据类型不同;
[0034]更新模块,用于利用所述第一标签信息更新所述第二处理模型。
[0035]根据本公开的第三方面,提供了一种电子设备,包括:
[0036]至少一个处理器;以及
[0037]与所述至少一个处理器通信连接的存储器;其中,
[0038]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的数据处理方法的步骤。
[0039]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开所述的数据处理方法的步骤。
[0040]本公开的数据处理方法、装置及电子设备,通过对第一数据子集进行条件推理,得到第二数据集,利用第一处理模型对第二数据集和第三数据集进行处理,得到第一数据集的第一标签信息,并利用第一标签信息对第二处理模型进行更新,使其具有更精准的语义理解能力,对关键词的提取更精准。
[0041]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0042]通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
[0043]在附图中,相同或对应的标号表示相同或对应的部分。
[0044]图1示出了本公开实施例的数据处理方法的实现流程示意图一;
[0045]图2示出了本公开实施例的数据处理方法的实现流程示意图二;
[0046]图3示出了本公开实施例的数据处理方法的实现流程示意图三;
[0047]图4示出了本公开实施例的数据处理方法的实现示意图;
[0048]图5示出了本公开实施例的数据处理装置的组成结构示意图;
[0049]图6示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
[0050]为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0051]图1示出了本公开实施例的数据处理方法的实现流程示意图一,如图1所示,本公开实施例的数据处理方法包括以下处理步骤:
[0052]步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:利用第一处理模型对从第一数据集中获得的第一数据子集进行条件生成处理,得到第二数据集,所述第一数据子集通过第二处理模型对所述第一数据集进行关键数据提取得到;将所述第二数据集和第三数据集输入所述第一处理模型进行处理,得到第一标签信息,所述第一标签信息与指定标签信息不同,所述第三数据集与所述第一数据集的数据类型不同;利用所述第一标签信息更新所述第二处理模型。2.根据权利要求1所述的方法,其中,将所述第二数据集和第三数据集输入所述第一处理模型进行处理,包括:确定所述第三数据集中是否存在与所述第二数据集对应的数据;若否,则利用所述第一处理模型将所述第二数据集和所述第三数据集生成第二数据子集,将所述第二数据子集确定为所述第一标签信息。3.根据权利要求1或2所述的方法,其中,利用所述第一标签信息更新所述第二处理模型,包括:利用所述第一标签信息更新所述第一数据集,得到第四数据集,所述第四数据集中的意图标签数量多于所述第一数据集的意图标签数量;利用所述第四数据集更新所述第二处理模型。4.根据权利要求3所述的方法,其中,利用所述第一标签信息更新所述第二处理模型,包括:获得第一reward权重值,所述第一reward权重值为在得到所述第一标签信息时得到;获得第二reward权重值,所述第二reward权重值为在得到所述第二数据集时得到;基于所述第一reward权重值和所述第二reward权重值对所述第二处理模型进行更新优化。5.根据权利要求1所述的方法,还包括:利用第五数据集创建所述第二处理模型,所述第五数据集的数据量小于所述第一数据集。6.根据权利要求5所述的方法,其中...

【专利技术属性】
技术研发人员:李彤符博李让
申请(专利权)人:联想诺谛北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1