System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于向量数据库的多模态大模型训练系统及方法技术方案_技高网

一种基于向量数据库的多模态大模型训练系统及方法技术方案

技术编号:40275462 阅读:13 留言:0更新日期:2024-02-02 23:02
本发明专利技术涉及多模态模型训练系统的技术领域,提供了一种基于向量数据库的多模态大模型训练系统及方法,其系统包括数据预处理终端、向量数据库终端和模型训练终端;数据预处理终端用于将多模态数据转换为向量格式;向量数据库终端用于存储和管理经过预处理的向量数据,并提供数据检索功能;模型训练终端用于使用向量数据库终端中的数据进行多模态模型的训练。本发明专利技术具有提高多模态模型训练效率的效果。

【技术实现步骤摘要】

本专利技术涉及多模态模型训练系统的,具体涉及一种基于向量数据库的多模态大模型训练系统及方法


技术介绍

1、向量数据库是一种设计用于处理和存储向量数据的数据库系统。在这里,向量指的是具有多个维度的数值数组或向量,而向量数据库专注于有效地存储、检索和处理这些高维度的向量数据。多模态大模型训练系统通常指的是一个用于训练能够处理和理解多种不同模态数据的大型深度学习模型的系统。这样的系统旨在实现对多模态信息的融合和联合学习,以提高模型对于复杂任务的性能。基于向量数据库的多模态大模型训练系统是指结合了向量数据库的概念和多模态大模型训练的要求的系统。这样的系统旨在有效地处理和存储多模态数据,同时支持对这些数据进行联合训练以训练大型深度学习模型。

2、现在已经开发出了很多模型训练系统,经过我们大量的检索与参考,发现现有技术的模型训练系统有如公开号为cn115035366a、cn115128959a、cn107480194a、ep4080419a1、us20220044105a1所公开的模型训练系统,这些模型训练系统一般包括:数据整理终端、模型训练终端和应用终端;数据整理终端用于获取并整理用于训练多模态模型的原始数据;模型训练终端用于根据原始数据进行模型训练;应用终端用于将训练完成的模型应用至对应的场景。由于上述模型训练系统的数据整理方式较为单一,造成了多模态模型训练效率下降的缺陷。


技术实现思路

1、本专利技术的目的在于,针对上述模型训练系统存在的不足,提出一种基于向量数据库的多模态大模型训练系统及方法。

2、本专利技术采用如下技术方案:

3、一种基于向量数据库的多模态大模型训练系统,包括数据预处理终端、向量数据库终端和模型训练终端;所述数据预处理终端用于将多模态数据转换为向量格式;所述向量数据库终端用于存储和管理经过预处理的向量数据,并提供数据检索功能;所述模型训练终端用于使用所述向量数据库终端中的数据进行多模态模型的训练;

4、所述数据预处理终端包括文本数据向量化模块、图像数据向量化模块和声音数据向量化模块;所述文本数据向量化模块用于将多模态数据中的文本数据转换为向量格式的文本数据向量;所述图像数据向量化模块用于将多模态数据中的图像数据转换为向量格式的图像数据向量;所述声音数据向量化模块用于将多模态数据中的声音数据转换为向量格式的声音数据向量;

5、所述向量数据库终端包括向量数据存储模块和向量数据管理模块;所述向量数据存储模块用于存储经过预处理后的向量数据;所述向量数据管理模块用于对向量数据进行冗余清理操作并提供数据检索功能。

6、可选的,所述模型训练终端包括预处理模块、模型配置模块、模型训练模块、模型测试模块和模型部署模块;所述预处理模块用于从所述向量数据存储模块加载对应的数据并选择对应的深度学习模型;所述模型配置模块用于设置模型的参数;所述模型训练模块用于根据加载的数据训练所选的模型;所述模型测试模块用于对训练完成的模型进行测试;所述模型部署模块用于将训练完成且测试通过的模型部署至对应的场景中。

7、可选的,所述文本数据向量化模块包括预删减子模块、词嵌入子模块和整合词向量子模块;所述预删减子模块用于对文本数据中的噪声进行删除;所述文本数据的噪声包括非文字字符和错位标点符号;所述词嵌入子模块用于根据词嵌入模型将每个词元转换为对应的词元向量;所述词嵌入模型由管理员预先选定;所述词嵌入模型包括word2vec、glove和fasttext;所述整合词向量子模块用于将文本数据中每个文本文件的全部词元向量整合成文本数据向量。

8、可选的,所述文本数据向量化模块还包括检验子模块;所述检验子模块用于对文本数据进行来源分值计算并生成对应的检验信息;所述预删减子模块用于根据检验信息将检验未通过的文本数据进行预删减操作;所述检验子模块包括来源分值计算单元和检验信息生成单元;所述来源分值计算单元用于根据文本数据的来源信息计算文本数据的来源分值;所述检验信息生成单元用于根据文本数据的来源分值生成对应的检验信息;

9、当所述来源分值计算单元工作时,满足以下式子:

10、;

11、 ;

12、 ;

13、其中,表示对应文本数据的来源分值;表示基于文本数据存储容量大小的系数选择函数;表示对应文本数据的文本数据存储容量大小;q1和q2分别表示不同的存储容量阈值,均由管理员根据经验设定;和分别表示第一变换系数和第二变换系数,均由管理员根据经验设定;和分别表示数据录入员工作等级转换系数和数据录入员工作年龄差转换系数,均由管理员根据经验设定;level表示来源信息中数据录入员录入文本数据时产生的人脸识别数据中的数据录入员工作等级;所述数据录入员工作等级由管理员预先对全部数据录入员进行评定;yworker表示来源信息中录入对应文本数据的数据录入员的年龄数值;yref表示年龄参考值,由管理员根据经验设定;

14、timez表示录入时间分值;time表示基准分值,由管理员根据经验设定;ta表示文本数据中全部文本文件中第a个文本文件的录入时长数值;a表示文本数据中全部文本文件的总数;

15、当时,所述检验信息生成单元生成用于表示对应文本数据的来源分值未达标的检验信息,以便于驱使所述预删减子模块将对应的文本数据进行预删减操作;sref表示检验阈值,由管理员根据经验设定。

16、可选的,所述图像数据向量化模块包括预删除子模块、尺寸修改子模块和向量转换子模块;所述预删除子模块用于对图像数据进行预删除操作,以便于删除质量未达标的图像数据;所述尺寸修改子模块用于对质量达标的图像数据进行预设尺寸修改;所述预设尺寸由管理员预先设定;所述向量转换子模块用于根据图像数据的像素矩阵生成对应的图像数据向量。

17、可选的,所述图像数据向量化模块还包括压缩质量评定子模块;所述压缩质量评定子模块用于对图像数据进行压缩质量评定并生成压缩质量评定信息;所述压缩质量评定子模块包括压缩质量评定指数计算单元和压缩质量评定信息生成单元;所述压缩质量评定指数计算单元用于根据图像数据的原始信息和压缩信息计算对应图像数据的压缩质量评定指数;所述压缩质量评定信息生成单元用于根据压缩质量评定指数生成对应的压缩质量评定信息;所述预删除子模块用于根据压缩质量评定信息进行预删除操作;

18、当所述压缩质量评定指数计算单元工作时,满足以下式子:

19、;

20、;

21、其中,photoz表示对应图像数据的压缩质量评定指数;maxi表示对应图像数据中的最大像素值;mse表示对应图像数据的均方误差数值;m表示对应图像数据的长度,即:图像数据的横向方向的像素点总数;n表示对应图像数据的宽度,即:图像数据的纵向方向的像素点总数;b表示图像数据的原始图像;c表示图像数据的压缩图像;所述图像数据向量化模块接收并处理的图像数据均经过压缩处理;b(b,c)表示原始图像在位置(b,c)上的像素点本文档来自技高网...

【技术保护点】

1.一种基于向量数据库的多模态大模型训练系统,其特征在于,包括数据预处理终端、向量数据库终端和模型训练终端;所述数据预处理终端用于将多模态数据转换为向量格式;所述向量数据库终端用于存储和管理经过预处理的向量数据,并提供数据检索功能;所述模型训练终端用于使用所述向量数据库终端中的数据进行多模态模型的训练;

2.如权利要求1所述的一种基于向量数据库的多模态大模型训练系统,其特征在于,所述模型训练终端包括预处理模块、模型配置模块、模型训练模块、模型测试模块和模型部署模块;所述预处理模块用于从所述向量数据存储模块加载对应的数据并选择对应的深度学习模型;所述模型配置模块用于设置模型的参数;所述模型训练模块用于根据加载的数据训练所选的模型;所述模型测试模块用于对训练完成的模型进行测试;所述模型部署模块用于将训练完成且测试通过的模型部署至对应的场景中。

3.如权利要求2所述的一种基于向量数据库的多模态大模型训练系统,其特征在于,所述文本数据向量化模块包括预删减子模块、词嵌入子模块和整合词向量子模块;所述预删减子模块用于对文本数据中的噪声进行删除;所述文本数据的噪声包括非文字字符和错位标点符号;所述词嵌入子模块用于根据词嵌入模型将每个词元转换为对应的词元向量;所述整合词向量子模块用于将文本数据中每个文本文件的全部词元向量整合成文本数据向量。

4.如权利要求3所述的一种基于向量数据库的多模态大模型训练系统,其特征在于,所述文本数据向量化模块还包括检验子模块;所述检验子模块用于对文本数据进行来源分值计算并生成对应的检验信息;所述预删减子模块用于根据检验信息将检验未通过的文本数据进行预删减操作;所述检验子模块包括来源分值计算单元和检验信息生成单元;所述来源分值计算单元用于根据文本数据的来源信息计算文本数据的来源分值;所述检验信息生成单元用于根据文本数据的来源分值生成对应的检验信息;

5.如权利要求4所述的一种基于向量数据库的多模态大模型训练系统,其特征在于,所述图像数据向量化模块包括预删除子模块、尺寸修改子模块和向量转换子模块;所述预删除子模块用于对图像数据进行预删除操作,以便于删除质量未达标的图像数据;所述尺寸修改子模块用于对质量达标的图像数据进行预设尺寸修改;所述预设尺寸由管理员预先设定;所述向量转换子模块用于根据图像数据的像素矩阵生成对应的图像数据向量。

6.如权利要求5所述的一种基于向量数据库的多模态大模型训练系统,其特征在于,所述图像数据向量化模块还包括压缩质量评定子模块;所述压缩质量评定子模块用于对图像数据进行压缩质量评定并生成压缩质量评定信息;所述压缩质量评定子模块包括压缩质量评定指数计算单元和压缩质量评定信息生成单元;所述压缩质量评定指数计算单元用于根据图像数据的原始信息和压缩信息计算对应图像数据的压缩质量评定指数;所述压缩质量评定信息生成单元用于根据压缩质量评定指数生成对应的压缩质量评定信息;所述预删除子模块用于根据压缩质量评定信息进行预删除操作;

7.一种基于向量数据库的多模态大模型训练方法,应用于如权利要求6所述的一种基于向量数据库的多模态大模型训练系统,其特征在于,所述多模态大模型训练方法包括:

...

【技术特征摘要】

1.一种基于向量数据库的多模态大模型训练系统,其特征在于,包括数据预处理终端、向量数据库终端和模型训练终端;所述数据预处理终端用于将多模态数据转换为向量格式;所述向量数据库终端用于存储和管理经过预处理的向量数据,并提供数据检索功能;所述模型训练终端用于使用所述向量数据库终端中的数据进行多模态模型的训练;

2.如权利要求1所述的一种基于向量数据库的多模态大模型训练系统,其特征在于,所述模型训练终端包括预处理模块、模型配置模块、模型训练模块、模型测试模块和模型部署模块;所述预处理模块用于从所述向量数据存储模块加载对应的数据并选择对应的深度学习模型;所述模型配置模块用于设置模型的参数;所述模型训练模块用于根据加载的数据训练所选的模型;所述模型测试模块用于对训练完成的模型进行测试;所述模型部署模块用于将训练完成且测试通过的模型部署至对应的场景中。

3.如权利要求2所述的一种基于向量数据库的多模态大模型训练系统,其特征在于,所述文本数据向量化模块包括预删减子模块、词嵌入子模块和整合词向量子模块;所述预删减子模块用于对文本数据中的噪声进行删除;所述文本数据的噪声包括非文字字符和错位标点符号;所述词嵌入子模块用于根据词嵌入模型将每个词元转换为对应的词元向量;所述整合词向量子模块用于将文本数据中每个文本文件的全部词元向量整合成文本数据向量。

4.如权利要求3所述的一种基于向量数据库的多模态大模型训练系统,其特征在于,所述文本数据向量化模块还包括检验子模块;所述检验子模块用于对文本数据进行来源分值计算并生成对应的检验信...

【专利技术属性】
技术研发人员:张卫平邵胜博王丹王晶丁洋
申请(专利权)人:环球数科集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1