基于数据回流的语义增强方法、电子设备和存储介质技术

技术编号：41974555 阅读：21 留言：0更新日期：2024-07-10 16:53

本发明专利技术公开基于数据回流的语义增强方法、电子设备和存储介质，其中，一种基于数据回流的语义增强方法，包括：将获取的基础数据分别输入至训练好的语义大模型和训练好的语义小模型，分别获取所述语义大模型的第一分类结果和所述语义小模型的第二分类结果，其中，所述第一分类结果和所述第二分类结果均包括召回数据和拒识数据；对所述第一分类结果和所述第二分类结果进行比对以获取所述第一分类结果中与所述第二分类结果不一致的第三分类结果；获取对所述第三分类结果进行人工标注后得到的回流数据；将所述回流数据加入至所述语义小模型的微调训练中。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及数据回流，特别是涉及一种基于数据回流的语义增强方法、电子设备和存储介质。

技术介绍

1、相关技术中，在某些技术中，先获取业务数据，然后基于业务数据对模型的影响程度对业务数据进行筛选，得到用于对模型进行更新的数据；其中，影响程度反映对模型更新性能的影响大小。针对业务数据进行筛选，避免针对所有业务数据进行重训以实现对模型的更新，能够减少用于模型更新的数据量。专利技术人发现上述方案的缺陷是虽然使用了线上业务数据进行数据回流的任务，但筛选的方式并不能有效区分潜在的有价值的可回流数据，仅仅通过数据对业务模型的影响程度进行筛选，无法拓展模型的能力边界，无法有效地提升模型的泛化性能，同时该方法需要的人工标注成本和时间较高。在另一些技术中，基于用户指令语句生成引导信息，引导信息包括：多个预先封装的候选操作对象的信息；基于引导信息，在多个候选操作对象中确定至少一个目标操作对象，并将用户指令语句对应的任务拆分为至少一个执行步骤，每个执行步骤对应一个目标操作对象；针对任一执行步骤，调用任一执行步骤对应的目标操作对象，以通过所述目标操作对象获得...

【技术保护点】

1.一种基于数据回流的语义增强方法，包括：

2.根据权利要求1所述的方法，其中，所述语义大模型为生成式大模型，所述训练好的语义大模型通过预训练和微调进行训练，其中：

3.根据权利要求2所述的方法，其中，所述微调为全量微调。

4.根据权利要求2所述的方法，其中，所述指令部分用于指示所述语义大模型输出预定义的领域分类结果，所述领域分类结果包括所述query所属的一个或多个领域以及拒识结果，所述示例部分包括输入和输出的例子，所述预定义的领域分类结果包括多个领域和null，所述null表示拒识数据。

5.根据权利要求1所述的方法，所述语义小模型为B...

【技术特征摘要】

1.一种基于数据回流的语义增强方法，包括：

2.根据权利要求1所述的方法，其中，所述语义大模型为生成式大模型，所述训练好的语义大模型通过预训练和微调进行训练，其中：

3.根据权利要求2所述的方法，其中，所述微调为全量微调。

5.根据权利要求1所述的方法，所述语义小模型为bert模型。

6.根据权利要求1所述的方法，其中，所述语义小模型为线上模...

【专利技术属性】
技术研发人员：蒋胜，朱苏，徐华，樊帅，俞凯，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人