模型的优化训练系统、方法以及相关装置制造方法及图纸

技术编号：38459603 阅读：11 留言：0更新日期：2023-08-11 14:36

本申请实施例提供了一种模型的优化训练系统、方法以及相关装置。该系统中，数据采集模块基于数据采集配置获取多模态数据；数据评估模块基于为不同模态数据匹配的模型评估标准配置，确定多模态数据与大语言模型之间的匹配程度得到数据质量评估报告；模型训练模块根据数据质量评估报告，调整大语言模型的模型结构和/或训练超参数，生成模型训练需求信息；模型训练反馈模块基于模型训练需求信息，在数据采集配置中添加针对多模态数据的采集调整方式。该系统不仅以多模态数据替代单一的语言文本数据，突破传统模型的性能限制，还建立模型训练需求与训练数据采集方式之间的动态反馈，提升训练数据与模型训练需求的匹配程度，优化模型训练效果。型训练效果。型训练效果。

全部详细技术资料下载

【技术实现步骤摘要】
模型的优化训练系统、方法以及相关装置

[0001]本申请实施例涉及计算机
，更具体地涉及一种模型的优化训练系统、方法以及相关装置。

技术介绍

[0002]随着人工智能技术的发展，机器学习模型在自然语言处理领域发挥着越来越重要的作用。大语言模型，作为一种使用海量文本数据训练的深度学习模型，可以基于语言文本学习语言规则和知识，生成自然语言文本或理解语言文本的含义，具有强大的语言理解和生成能力。
[0003]然而，相关技术中，大语言模型主要依靠文本数据进行训练，模型产生的内容往往基于对文本数据的理解而产生，导致模型的理解能力和内容生成能力存在一定局限，难以突破现有瓶颈。
[0004]此外，训练数据收集与模型训练通常是割裂的两个独立过程。相关技术中，数据收集在模型训练之前完成，而模型训练则基于已收集的数据进行。这种数据收集方式，使得事先采集的训练数据往往难以与模型之间完全适配，影响模型训练效果。
[0005]综上，需要设计一种全新的技术方案，用于突破大语言模型的局限性，并解决训练数据与模型之间因不适配而存在的训练数据失真问题，进一步提升大语言模型的性能。

技术实现思路

[0006]本申请实施例提供了一种改进的模型的优化训练系统、方法以及相关装置，用以通过多模态数据替代单一的语言文本数据，实现大语言模型的性能突破。并在多模态数据和模型训练需求之间建立动态反馈方式，使多模态数据更适用于模型训练过程，进一步优化大语言模型的训练效果，提高大语言模型的性能。
[0007]本申请的实...

【技术保护点】

【技术特征摘要】
1.一种模型的优化训练系统，其特征在于，所述系统包括数据采集模块，用于基于数据采集配置获取多模态数据；所述多模态数据包括文本数据、图像数据、音频数据、生物数据；数据评估模块，用于基于为不同模态训练数据匹配的模型评估标准配置，确定所述多模态数据与大语言模型之间的匹配程度，得到数据质量评估报告；将所述数据质量评估报告发送至模型训练模块；其中，所述数据质量评估报告包括所述多模态数据在多个评估标准下的评估结果；模型训练模块，用于根据所述数据质量评估报告，调整所述大语言模型的模型结构和/或训练超参数；生成模型训练需求信息，并发送给模型训练反馈模块；模型训练反馈模块，用于基于所述模型训练需求信息，在所述数据采集配置中添加针对所述多模态数据的采集调整方式，并将新增的数据采集配置反馈给所述数据采集模块。2.如权利要求1所述的系统，其特征在于，还包括后台处理模块，用于对所述多模态数据进行后处理，得到所述后处理数据；所述模型训练模块，还用于分析所述后处理数据的数据质量以及对应的模型输出效果；基于分析结果调整所述大语言模型的模型结构和/或训练超参数；其中，所述后处理包括清洗处理、增强处理、关联处理、标注处理；所述后处理数据包括清洗数据、增强数据、关联数据、标注数据。3.如权利要求2所述的系统，其特征在于，所述模型训练模块，根据后台处理模块输出的后处理数据，调整所述大语言模型的模型结构和/或训练超参数时，具体用于：基于所述清洗数据中的噪声水平满足预设噪声异常条件和/或异常值高于设定阈值，则调整所述大语言模型的模型结构，以提升所述大语言模型的抗干扰能力和模型容忍度；和/或基于所述增强数据中不同模态训练数据的数据量变化情况，调整所述大语言模型的模型训练轮数以及训练数据集迭代次数，以匹配所述大语言模型的训练需求；和/或基于所述关联数据所表征的不同模态训练数据之间的匹配程度，在所述大语言模型中增加或调整用于融合不同模态信息的融合模块，以提高所述大语言模型的多模态处理能力；和/或基于所述标注数据中不同模态训练数据的数据量比例变化情况，确定数据量低于实际需求的训练数据对应的类别，并在所述大语言模型中增加该类别对应的样本权重，以提高所述大语言模型对该类别的关注度；和/或基于所述标注数据中标注准确率，确定误标注数据，并在所述大语言模型中添加对所述误标注数据的容忍机制，或者在损失函数中增加对所述误标注数据的惩罚项。4.如权利要求1所述的系统，其特征在于，数据评估模块，基于为不同模态数据匹配的模型评估标准配置，确定所述多模态数据与大语言模型之间的匹配程度，得到数据质量评估报告时，具体用于：获取待评估的训练数据对应的目标模型评估标准配置；基于所述目标模型评估标准配置，将所述多模态数据构建为验证集；计算所述多模态数据在验证集中多个评估标准下的评估结果，以得到所述数据质量评估报告；
所述评估结果包括以下至少一个：所述多模态数据的数据集总量、所述多模态数据之间的关联程度、所述多模态数据之间的数据量比例与模型需求之间的匹配程度、所述多模态数据的数据质量、所述多模态数据的分类准确性、所述多模态数据的类别分布、不同数据特征在所述多模态数据中的覆盖程度、数据集总量与模型需求之间的匹配程度、不同模态训练数据之间的关联程度。5.如权利要求4所述的系统，其特征在于，模型训练模块，根据所述数据质量评估报告，调整所述大语言模型的模型结构和/或训练超参数时，具体用于：若所述多模态数据的数据质量满足预设数据质量异常条件，则调整所述大语言模型的模型结构，以提升...

【专利技术属性】
技术研发人员：肖锡尧，郑叔亮，李文珏，
申请(专利权)人：北京聆心智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人