数据处理方法、电子设备、存储介质及计算机程序产品技术

技术编号：46496007 阅读：4 留言：0更新日期：2025-09-26 19:13

本申请公开了一种数据处理方法、电子设备、存储介质及计算机程序产品，涉及大模型技术、计算机技术领域。其中，该方法包括：获取样本生成指令与样本数据集合，其中，样本生成指令用于确定待生成文本类型，样本数据集合覆盖多种类型标签；按照预设条件约束方式，采用样本生成指令与样本数据集合对初始文本生成模型进行定向增强训练，生成目标文本生成模型，其中，预设条件约束方式用于从多个不同维度生成待转写的目标文件的文件内容相适配的模型输入指令；采用目标文本生成模型对目标文件进行文本转写处理，得到目标文本。本申请解决了相关技术中提供的文件处理方式在对目标文件进行转写时存在处理效率低、准确性和适应性差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大模型技术、计算机，具体而言，涉及一种数据处理方法、电子设备、存储介质及计算机程序产品。

技术介绍

1、随着数字化时代的到来，数字内容的产出和消费呈现爆炸式增长，在会议、访谈、培训等教育学习场景中，高效、准确地处理多媒体数字内容成为一项重大挑战。在大语言模型(large language models，llms)推出后，利用llms为多媒体数字内容的处理带来了极大的便利。然而，虽然llms在理解和生成文本方面表现出色，但其在预训练阶段主要依赖于广泛的文本数据，这导致其在对特定领域的目标文件进行文本转写时可能存在一定的偏差。由于llms默认的生成逻辑更倾向于通用性和灵活性，而非对特定任务的优化，因而通用的llms指令微调往往无法达到产品级别的精准要求，在实际应用时的处理效率较低、准确性和适应性较差。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种数据处理方法、电子设备、存储介质及计算机程序产品，以至少解决相关技术中提供的文件处...

【技术保护点】

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，获取所述样本生成指令包括：

3.根据权利要求1所述的数据处理方法，其特征在于，采用所述样本生成指令与所述样本数据集合对所述初始文本生成模型进行定向增强训练，生成所述目标文本生成模型包括：

4.根据权利要求3所述的数据处理方法，其特征在于，按照所述预设条件约束方式对所述样本生成指令进行约束演化，得到所述约束演化指令包括：

5.根据权利要求3所述的数据处理方法，其特征在于，采用所述约束演化指令与所述样本数据集合对所述初始文本生成模型进行定向增强训练，生成...

【技术特征摘要】

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，获取所述样本生成指令包括：

4.根据权利要求3所述的数据处理方法，其特征在于，按照所述预设条件约束方式对所述样本生成指令进行约束演化，得到所述约束演化指令包括：

5.根据权利要求3所述的数据处理方法，其特征在于，采用所述约束演化指令与所述样本数据集合对所述初始文本生成模型进行定向增强训练，生成所述目标文本生成模型包括：

6.根据权利要求5所述的数据处理方法，其特征在于，基于所述约束演化指令与所述训练结果继续对所述初始文本生成模型进行迭代训练，直至所述样本数据集合内的样本数据均使用完毕，生成所述目标文本生成模型包括：

7.根据权利要求1所述的数据处理方法，其特征在于，所述多个不同维度包括以下至少部分维度：场景维度、条件维度、格式维度，其中，所述场...

【专利技术属性】
技术研发人员：刘雄，樊艳，武玉川，李永彬，黄非，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人