一种垂直领域大模型的构建方法、装置、设备及存储介质制造方法及图纸

技术编号:39406113 阅读:10 留言:0更新日期:2023-11-19 15:58
本发明专利技术涉及垂直领域模型构建技术领域,公开了一种垂直领域大模型的构建方法、装置、设备及存储介质,方法包括:根据垂直领域的各行业场景需求确定指令数据集的结构和形式;根据各行业具有专业表述的文献生成初始指令数据集并对其进行逻辑性审核及数据增强形成高质量指令数据集;基于高质量指令数据集训练精调大模型;构建分级行业知识库及行业知识图谱融入精调大模型;基于各个行业主题或类别训练多个行业小模型,构建精调大模型结合行业小模型的应用框架作为垂直领域大模型用于语义理解和专业内容生成。本发明专利技术通过构建高质量行业数据集及精调大模型+多个专业小模型的应用框架,实现了专业知识的准确引入,提高了垂直领域大模型的综合能力。域大模型的综合能力。域大模型的综合能力。

【技术实现步骤摘要】
一种垂直领域大模型的构建方法、装置、设备及存储介质


[0001]本专利技术涉及垂直领域模型构建
,具体涉及一种垂直领域大模型的构建方法。

技术介绍

[0002]通用大模型使用的训练数据大多来自于互联网公开的海量文本数据,这些数据存在着表述不专业、结构不统一、涉及领域多样、知识范围跨度大等特点,与垂直领域对高质量的行业数据要求相距甚远。此外,通用大模型在回答的结构上也往往具有明显的总分总结构,回答的针对性不强。垂直领域大模型应该具备更强的领域专业性和实用性,具有更多的垂直领域知识,在知识输出和结果展示方面,具有更明显的专业领域特征。
[0003]在具体的垂直领域中,拥有或能产生专业数据的各单位之间往往并不共享数据,并且均有自己的数据标准和要求,导致垂直领域的专业数据相较于公开互联网数据而言总是匮乏的。这些专业数据使用范围较小,对处理人员的专业能力要求很高,并且手动整理数据需要消耗大量的时间和人工成本,同时也会因为人为误差导致专业数据质量不高。
[0004]当前,垂直大模型竞赛仍然处于初级阶段,各大企业和各单位均有自己的大模型使用需求。需求的不同决定了在构建专业数据集的时候,必须要使用与自身需求相匹配的标准,这也导致了不同标准的数据无法快速、高效地实现不同来源的专业数据之间的汇聚、共享,难以形成高质量的标准数据。
[0005]以上涉及的构建垂直大模型面临的问题之间不完全独立,会相互影响。因此,如果不能从全局的高度体系化处理这些数据,大模型的生成幻觉、行业知识量不足、专业知识理解难等问题就无法解决。

技术实现思路

[0006]有鉴于此,本专利技术提供了一种垂直领域大模型的构建方法、装置、设备及存储介质,以解决现有垂直领域中行业数据不足、质量不高、缺乏统一标准、专业性要求高等数据困难,导致用于垂直领域的大模型生成幻觉、模型本身的行业知识量不足、专业知识理解难的问题。
[0007]第一方面,本专利技术提供了一种垂直领域大模型的构建方法,包括:
[0008]根据垂直领域的各行业场景需求确定涉及的数据范围和数据包括的主题或类别,并基于各行业对应的目标任务输出形式确定指令数据集的结构和形式;
[0009]将各行业具有专业表述的文献进行拆分形成不同数据形式,并对应生成初始指令数据集;
[0010]对初始指令数据集按照预设审核规则进行审核使其具有语义逻辑性,并对审核后初始指令数据集进行数据增强,形成高质量指令数据集;
[0011]基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,得到精调大模型;
[0012]构建垂直领域的分级行业知识库及行业知识图谱,并将分级行业知识库及行业知识图谱融入精调大模型;
[0013]基于各个行业主题或类别训练分类模型和命名实体识别模型,作为多个行业小模型,用于对行业数据进行信息提取和文本分类;
[0014]构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成。
[0015]本实施例提供的垂直领域大模型的构建方法,整合和处理大量的行业内知识和数据,形成知识库和数据库,通过构建精调大模型+多个专业小模型的新型应用框架,实现了专业知识的准确引入,在指令数据集、模型精调策略上的处理实现了与原始模型的意图对齐,在提升大模型专业能力的同时,提高了专业大模型的综合能力。企业和专业人士可以利用这些模型作为智能助手,获取实时的、准确的行业信息,快速解决问题、做出决策和规划战略。
[0016]在一种可选的实施方式中,所述方法还包括:构建满足垂直领域模型评估的两级指标评估体系,其包括一级评估指标及二级评估指标;
[0017]所述一级评估指标用于评估模型生成的文本是否自然流畅,信息准确、全面详尽、在不同输入下的输出是否稳定一致,是否生成重复内容或固定的表达方式,包括自然性和流畅性评估指标、准确性评估指标、信息完整性和稳定性评估指标、多样性和创造性评估指标;
[0018]所述二级评估指标包括所述一级指标所述包含评估指标的细分指标及对应的具体评价标准,基于具体评价标准的得分得到垂直领域语义理解和专业内容生成模型的评估结果,基于评估结果指导其优化与改进。
[0019]本实施例提供的能满足垂直专业大模型评估的两级指标评估体系,给出了一种合理的评估垂直大模型的方式,不仅可以检验垂直大模型在专业领域的应用能力,还可以用于指导模型的优化与改进。
[0020]在一种可选的实施方式中,所述将各行业具有专业表述的文献进行拆分形成不同数据形式,包括:
[0021]将文献拆分得到的数据分为基于标题或提问生成摘要、基于章节小标题或段落概述生成对应描述和解释、基于提问、概述或摘要生成对应的解决方法、基于上文段落生成合理的下文段落中的至少一种。
[0022]在一种可选的实施方式中,所述对审核后初始指令数据集进行数据增强的过程,包括:
[0023]将多个具有递进关系的问题以及多个相互独立的问题设置成一个提问、同义词替换、同语义描述替换、不同形式和结构的问题改写、将指令中的答案作为输入答案输入模型自动生成问题中的至少一种。
[0024]本专利技术实施例提供的数据增强方法对于打造垂直领域行业大模型至关重要,是构建不同领域垂直大模型的技术基础。即从垂直大模型的目标特点出发,制作与目标任务和场景需求相符合的大规模行业数据集。将论文、方案、报告、新闻、书籍等包含大量专业知识的载体通过文本切分及形式转换的方式,构建规模性的高质量行业数据集。
[0025]在一种可选的实施方式中,所述基于预设参数和微调策略利用所述高质量指令数
据集对预设模型进行训练,包括:
[0026]基于高质量指令数据集中的字符数、词数或句子数指标来衡量指令数据集文本的长度,遍历高质量指令数据集,将每个文本根据其长度归类到相应的长度区间中,根据不同长度区间的文本数量和重要性,制定采样策略来选择用于模型训练的数据样本,并给所有的数据样本添加合理的衔接用语;并设定预设训练步数及预设微调方式对预设模型进行训练,并记录模型在多轮训练中的阶段性结果和相关参数。
[0027]本专利技术实施例在指令数据集、模型精调策略上,通过创建数据平衡、添加衔接用语、设置合理长度参数,实现了与原始模型的意图对齐,在提升大模型专业能力的同时,最大程度上保持了其他通用能力。
[0028]在一种可选的实施方式中,所述分级行业知识库,包括:一级知识库以及一级知识库下属的二级知识库;
[0029]所述一级知识库按照行业知识块所属的主题或类别,建设不同主题或类别对应的知识库,所述一级知识库中保存大型知识块的摘要,记录与主题或类别相符合的描述信息;
[0030]所述二级知识库中保存的不同主题或类别细分的知识片段;
[0031]所述行业知识图谱存储各个行业内的专业表述、时间、地点、人物、事件、关系的知识信息,用于记录复杂实体间的关系及引入无法计算语义相似度和约定俗成的专业名称或概念。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种垂直领域大模型的构建方法,其特征在于,所述方法包括:根据垂直领域的各行业场景需求确定涉及的数据范围和数据包括的主题或类别,并基于各行业对应的目标任务输出形式确定指令数据集的结构和形式;将各行业具有专业表述的文献进行拆分形成不同数据形式,并对应生成初始指令数据集;对初始指令数据集按照预设审核规则进行审核使其具有语义逻辑性,并对审核后初始指令数据集进行数据增强,形成高质量指令数据集;基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,得到精调大模型;构建垂直领域的分级行业知识库及行业知识图谱,并将分级行业知识库及行业知识图谱融入精调大模型;基于各个行业主题或类别训练分类模型和命名实体识别模型,作为多个行业小模型,用于对行业数据进行信息提取和文本分类;构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成。2.根据权利要求1所述的方法,其特征在于,还包括:构建满足垂直领域模型评估的两级指标评估体系,其包括一级评估指标及二级评估指标;所述一级评估指标用于评估模型生成的文本是否自然流畅,信息准确、全面详尽、在不同输入下的输出是否稳定一致,是否生成重复内容或固定的表达方式,包括自然性和流畅性评估指标、准确性评估指标、信息完整性和稳定性评估指标、多样性和创造性评估指标;所述二级评估指标包括所述一级指标所述包含评估指标的细分指标及对应的具体评价标准,基于具体评价标准的得分得到垂直领域语义理解和专业内容生成模型的评估结果,基于评估结果指导其优化与改进。3.根据权利要求1所述的方法,其特征在于,所述将各行业具有专业表述的文献进行拆分形成不同数据形式,包括:将文献拆分得到的数据分为基于标题或提问生成摘要、基于章节小标题或段落概述生成对应描述和解释、基于提问、概述或摘要生成对应的解决方法、基于上文段落生成合理的下文段落中的至少一种。4.根据权利要求2所述的方法,其特征在于,所述对审核后初始指令数据集进行数据增强的过程,包括:将多个具有递进关系的问题以及多个相互独立的问题设置成一个提问、同义词替换、同语义描述替换、不同形式和结构的问题改写、将指令中的答案作为输入答案输入模型自动生成问题中的至少一种。5.根据权利要求3所述的方法,其特征在于,所述基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,包括:基于高质量指令数据集中的字符数、词数或句子数指标来衡量指令数据集文本的长度,遍历高质量指令数据集,将每个文本根据其长度归类到相应的长度区间中,根据不同长度区间的文本数量和重要性,制定采样策略来选择用于模型训练的数据样本,并给所有的数据样本添加合理的衔接用语;并设定预设训练步数及预设微调方式对预设模型进行训练,并记录模型在多轮训练中
的阶段性结果和相关参数。6.根据权利要求1所述的方法,其特征在于,所述分级行业知识库,包括:一级知识库以及一级知识库下属的二级知识库;所述一级知识库按照行业知识块所属的主题或类别,建设不同主题或类...

【专利技术属性】
技术研发人员:张天宇路兴杜强郝凯静王贺娜史琬滢胡泽婷
申请(专利权)人:北京易华录信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1