一种垂直领域大模型的构建方法、装置、设备及存储介质制造方法及图纸

技术编号：39406113 阅读：10 留言：0更新日期：2023-11-19 15:58

本发明专利技术涉及垂直领域模型构建技术领域，公开了一种垂直领域大模型的构建方法、装置、设备及存储介质，方法包括：根据垂直领域的各行业场景需求确定指令数据集的结构和形式；根据各行业具有专业表述的文献生成初始指令数据集并对其进行逻辑性审核及数据增强形成高质量指令数据集；基于高质量指令数据集训练精调大模型；构建分级行业知识库及行业知识图谱融入精调大模型；基于各个行业主题或类别训练多个行业小模型，构建精调大模型结合行业小模型的应用框架作为垂直领域大模型用于语义理解和专业内容生成。本发明专利技术通过构建高质量行业数据集及精调大模型+多个专业小模型的应用框架，实现了专业知识的准确引入，提高了垂直领域大模型的综合能力。域大模型的综合能力。域大模型的综合能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种垂直领域大模型的构建方法、装置、设备及存储介质

[0001]本专利技术涉及垂直领域模型构建
，具体涉及一种垂直领域大模型的构建方法。

技术介绍

[0002]通用大模型使用的训练数据大多来自于互联网公开的海量文本数据，这些数据存在着表述不专业、结构不统一、涉及领域多样、知识范围跨度大等特点，与垂直领域对高质量的行业数据要求相距甚远。此外，通用大模型在回答的结构上也往往具有明显的总分总结构，回答的针对性不强。垂直领域大模型应该具备更强的领域专业性和实用性，具有更多的垂直领域知识，在知识输出和结果展示方面，具有更明显的专业领域特征。
[0003]在具体的垂直领域中，拥有或能产生专业数据的各单位之间往往并不共享数据，并且均有自己的数据标准和要求，导致垂直领域的专业数据相较于公开互联网数据而言总是匮乏的。这些专业数据使用范围较小，对处理人员的专业能力要求很高，并且手动整理数据需要消耗大量的时间和人工成本，同时也会因为人为误差导致专业数据质量不高。
[0004]当前，垂直大模型竞赛仍然处于初级阶段，各大企业和各单位均有自己的大模型使用需求。需求的不同决定了在构建专业数据集的时候，必须要使用与自身需求相匹配的标准，这也导致了不同标准的数据无法快速、高效地实现不同来源的专业数据之间的汇聚、共享，难以形成高质量的标准数据。
[0005]以上涉及的构建垂直大模型面临的问题之间不完全独立，会相互影响。因此，如果不能从全局的高度体系化处理这些数据，大模型的生成幻觉、行业知识量不足、专业知识理解难等问题就无法...

【技术保护点】

【技术特征摘要】
1.一种垂直领域大模型的构建方法，其特征在于，所述方法包括：根据垂直领域的各行业场景需求确定涉及的数据范围和数据包括的主题或类别，并基于各行业对应的目标任务输出形式确定指令数据集的结构和形式；将各行业具有专业表述的文献进行拆分形成不同数据形式，并对应生成初始指令数据集；对初始指令数据集按照预设审核规则进行审核使其具有语义逻辑性，并对审核后初始指令数据集进行数据增强，形成高质量指令数据集；基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练，得到精调大模型；构建垂直领域的分级行业知识库及行业知识图谱，并将分级行业知识库及行业知识图谱融入精调大模型；基于各个行业主题或类别训练分类模型和命名实体识别模型，作为多个行业小模型，用于对行业数据进行信息提取和文本分类；构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型，用于垂直领域语义理解和专业内容生成。2.根据权利要求1所述的方法，其特征在于，还包括：构建满足垂直领域模型评估的两级指标评估体系，其包括一级评估指标及二级评估指标；所述一级评估指标用于评估模型生成的文本是否自然流畅，信息准确、全面详尽、在不同输入下的输出是否稳定一致，是否生成重复内容或固定的表达方式，包括自然性和流畅性评估指标、准确性评估指标、信息完整性和稳定性评估指标、多样性和创造性评估指标；所述二级评估指标包括所述一级指标所述包含评估指标的细分指标及对应的具体评价标准，基于具体评价标准的得分得到垂直领域语义理解和专业内容生成模型的评估结果，基于评估结果指导其优化与改进。3.根据权利要求1所述的方法，其特征在于，所述将各行业具有专业表述的文献进行拆分形成不同数据形式，包括：将文献拆分得到的数据分为基于标题或提问生成摘要、基于章节小标题或段落概述生成对应描述和解释、基于提问、概述或摘要生成对应的解决方法、基于上文段落生成合理的下文段落中的至少一种。4.根据权利要求2所述的方法，其特征在于，所述对审核后初始指令数据集进行数据增强的过程，包括：将多个具有递进关系的问题以及多个相互独立的问题设置成一个提问、同义词替换、同语义描述替换、不同形式和结构的问题改写、将指令中的答案作为输入答案输入模型自动生成问题中的至少一种。5.根据权利要求3所述的方法，其特征在于，所述基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练，包括：基于高质量指令数据集中的字符数、词数或句子数指标来衡量指令数据集文本的长度，遍历高质量指令数据集，将每个文本根据其长度归类到相应的长度区间中，根据不同长度区间的文本数量和重要性，制定采样策略来选择用于模型训练的数据样本，并给所有的数据样本添加合理的衔接用语；并设定预设训练步数及预设微调方式对预设模型进行训练，并记录模型在多轮训练中
的阶段性结果和相关参数。6.根据权利要求1所述的方法，其特征在于，所述分级行业知识库，包括：一级知识库以及一级知识库下属的二级知识库；所述一级知识库按照行业知识块所属的主题或类别，建设不同主题或类...

【专利技术属性】
技术研发人员：张天宇，路兴，杜强，郝凯静，王贺娜，史琬滢，胡泽婷，
申请(专利权)人：北京易华录信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人