模型的优化训练系统、方法以及相关装置制造方法及图纸

技术编号:38459603 阅读:11 留言:0更新日期:2023-08-11 14:36
本申请实施例提供了一种模型的优化训练系统、方法以及相关装置。该系统中,数据采集模块基于数据采集配置获取多模态数据;数据评估模块基于为不同模态数据匹配的模型评估标准配置,确定多模态数据与大语言模型之间的匹配程度得到数据质量评估报告;模型训练模块根据数据质量评估报告,调整大语言模型的模型结构和/或训练超参数,生成模型训练需求信息;模型训练反馈模块基于模型训练需求信息,在数据采集配置中添加针对多模态数据的采集调整方式。该系统不仅以多模态数据替代单一的语言文本数据,突破传统模型的性能限制,还建立模型训练需求与训练数据采集方式之间的动态反馈,提升训练数据与模型训练需求的匹配程度,优化模型训练效果。型训练效果。型训练效果。

【技术实现步骤摘要】
模型的优化训练系统、方法以及相关装置


[0001]本申请实施例涉及计算机
,更具体地涉及一种模型的优化训练系统、方法以及相关装置。

技术介绍

[0002]随着人工智能技术的发展,机器学习模型在自然语言处理领域发挥着越来越重要的作用。大语言模型,作为一种使用海量文本数据训练的深度学习模型,可以基于语言文本学习语言规则和知识,生成自然语言文本或理解语言文本的含义,具有强大的语言理解和生成能力。
[0003]然而,相关技术中,大语言模型主要依靠文本数据进行训练,模型产生的内容往往基于对文本数据的理解而产生,导致模型的理解能力和内容生成能力存在一定局限,难以突破现有瓶颈。
[0004]此外,训练数据收集与模型训练通常是割裂的两个独立过程。相关技术中,数据收集在模型训练之前完成,而模型训练则基于已收集的数据进行。这种数据收集方式,使得事先采集的训练数据往往难以与模型之间完全适配,影响模型训练效果。
[0005]综上,需要设计一种全新的技术方案,用于突破大语言模型的局限性,并解决训练数据与模型之间因不适配而存在的训练数据失真问题,进一步提升大语言模型的性能。

技术实现思路

[0006]本申请实施例提供了一种改进的模型的优化训练系统、方法以及相关装置,用以通过多模态数据替代单一的语言文本数据,实现大语言模型的性能突破。并在多模态数据和模型训练需求之间建立动态反馈方式,使多模态数据更适用于模型训练过程,进一步优化大语言模型的训练效果,提高大语言模型的性能。
[0007]本申请的实施例期望提供一种模型的优化训练系统、方法以及相关装置。
[0008]在本申请的第一方面中,提供了一种模型的优化训练系统,包括:数据采集模块,用于基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;数据评估模块,用于基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;将所述数据质量评估报告发送至模型训练模块;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;模型训练模块,用于根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;生成模型训练需求信息,并发送给模型训练反馈模块;模型训练反馈模块,用于基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,并将新增的数据采集配置反馈给所述数据采集模块。
[0009]在本申请的第二方面中,提供了一种模型的优化训练方法,包括:基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;生成模型训练需求信息;基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,以将新增的数据采集配置应用到下一个模型训练过程的多模态数据采集步骤中。
[0010]在本申请的第三方面中,提供了一种电子设备,所述电子设备包括存储器和一个或多个处理器。其中,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;当所述计算机指令被所述处理器执行时,使得所述电子设备实现如第一方面中任一项所述的模型优化训练系统。
[0011]在本申请的第四方面中,提供了一种计算机可读存储介质,包括计算机程序。当所述计算机程序在计算机上运行时,使得所述计算机实现如第一方面中任一项所述的模型优化训练系统。
[0012]本申请实施例提供的技术方案中,提供了一种模型的优化训练系统。在该系统中,数据采集模块基于数据采集配置获取多模态数据。数据评估模块基于为不同模态数据匹配的模型评估标准配置,确定多模态数据与大语言模型之间的匹配程度得到数据质量评估报告,发送至模型训练模块。进而,模型训练模块根据数据质量评估报告,调整大语言模型的模型结构和/或训练超参数,生成模型训练需求信息,并反馈给模型训练反馈模块。进而,模型训练反馈模块基于模型训练需求信息,在数据采集配置中添加针对多模态数据的采集调整方式,并将新增的数据采集配置反馈给数据采集模块。
[0013]本申请实施例中,一方面,通过多模态数据替代单一的语言文本数据,使得大语言模型可以从更多形态、更多元的多模态数据中学习表达规则以及知识,突破原有训练方式的限制,实现大语言模型的性能优化。另一方面,通过数据采集模块、数据评估模块、模型训练模块、模型训练模块,这几个模块之间的数据流,在多模态数据和模型训练需求之间建立了一种全新的动态反馈方式,使模型训练需求能够动态反馈到多模态数据的采集方式上,而多模态数据采集之后又会应用到模型训练过程中,通过多方的互动反馈实现了大语言模型以及数据采集方式的优化迭代,提升多模态数据与模型之间的匹配程度,进一步优化大语言模型的训练效果,提高大语言模型的性能。
附图说明
[0014]通过参考附图阅读下文的详细描述,本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施例,其中:图1示意性地示出了根据本申请中预测模型训练系统的一种结构示意图;
图2示意性地示出了根据本申请中预测模型训练系统的一种原理示意图;图3示意性地示出了根据本申请中模型的优化训练方法的一种流程示意图;图4示意性地示出了根据本申请中模型的优化训练装置的一种结构示意图;图5示意性地示出了根据本申请中计算设备的一种结构示意图;图6示意性地示出了根据本申请中服务器的一种结构示意图。
[0015]在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0016]下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解,给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0017]本领域技术人员知道,本申请的实施例可以实现为一种系统、装置、设备、系统或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0018]随着人工智能技术的发展,特别是深度学习和神经网络技术的应用,大语言模型在自然语言处理领域发挥着越来越重要的作用。
[0019]大语言模型,作为一种使用海量文本数据训练的深度学习模型,可以基于语言文本学习语言规则和知识,生成自然语言文本或理解语言文本的含义,具有强大的语言理解和生成能力。
[0020]然而,相关技术中,大语言模型主要依靠文本数据进行训练,模型产生的内容往往基于对文本数据的理解而产生,导本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型的优化训练系统,其特征在于,所述系统包括数据采集模块,用于基于数据采集配置获取多模态数据;所述多模态数据包括文本数据、图像数据、音频数据、生物数据;数据评估模块,用于基于为不同模态训练数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告;将所述数据质量评估报告发送至模型训练模块;其中,所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果;模型训练模块,用于根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数;生成模型训练需求信息,并发送给模型训练反馈模块;模型训练反馈模块,用于基于所述模型训练需求信息,在所述数据采集配置中添加针对所述多模态数据的采集调整方式,并将新增的数据采集配置反馈给所述数据采集模块。2.如权利要求1所述的系统,其特征在于,还包括后台处理模块,用于对所述多模态数据进行后处理,得到所述后处理数据;所述模型训练模块,还用于分析所述后处理数据的数据质量以及对应的模型输出效果;基于分析结果调整所述大语言模型的模型结构和/或训练超参数;其中,所述后处理包括清洗处理、增强处理、关联处理、标注处理;所述后处理数据包括清洗数据、增强数据、关联数据、标注数据。3.如权利要求2所述的系统,其特征在于,所述模型训练模块,根据后台处理模块输出的后处理数据,调整所述大语言模型的模型结构和/或训练超参数时,具体用于:基于所述清洗数据中的噪声水平满足预设噪声异常条件和/或异常值高于设定阈值,则调整所述大语言模型的模型结构,以提升所述大语言模型的抗干扰能力和模型容忍度;和/或基于所述增强数据中不同模态训练数据的数据量变化情况,调整所述大语言模型的模型训练轮数以及训练数据集迭代次数,以匹配所述大语言模型的训练需求;和/或基于所述关联数据所表征的不同模态训练数据之间的匹配程度,在所述大语言模型中增加或调整用于融合不同模态信息的融合模块,以提高所述大语言模型的多模态处理能力;和/或基于所述标注数据中不同模态训练数据的数据量比例变化情况,确定数据量低于实际需求的训练数据对应的类别,并在所述大语言模型中增加该类别对应的样本权重,以提高所述大语言模型对该类别的关注度;和/或基于所述标注数据中标注准确率,确定误标注数据,并在所述大语言模型中添加对所述误标注数据的容忍机制,或者在损失函数中增加对所述误标注数据的惩罚项。4.如权利要求1所述的系统,其特征在于,数据评估模块,基于为不同模态数据匹配的模型评估标准配置,确定所述多模态数据与大语言模型之间的匹配程度,得到数据质量评估报告时,具体用于:获取待评估的训练数据对应的目标模型评估标准配置;基于所述目标模型评估标准配置,将所述多模态数据构建为验证集;计算所述多模态数据在验证集中多个评估标准下的评估结果,以得到所述数据质量评估报告;
所述评估结果包括以下至少一个:所述多模态数据的数据集总量、所述多模态数据之间的关联程度、所述多模态数据之间的数据量比例与模型需求之间的匹配程度、所述多模态数据的数据质量、所述多模态数据的分类准确性、所述多模态数据的类别分布、不同数据特征在所述多模态数据中的覆盖程度、数据集总量与模型需求之间的匹配程度、不同模态训练数据之间的关联程度。5.如权利要求4所述的系统,其特征在于,模型训练模块,根据所述数据质量评估报告,调整所述大语言模型的模型结构和/或训练超参数时,具体用于:若所述多模态数据的数据质量满足预设数据质量异常条件,则调整所述大语言模型的模型结构,以提升...

【专利技术属性】
技术研发人员:肖锡尧郑叔亮李文珏
申请(专利权)人:北京聆心智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1