【技术实现步骤摘要】
本申请涉及人工智能领域,更具体的说,是涉及基于层间比对的大语言模型训练和使用方法及相关装置。
技术介绍
1、大语言模型是当前人工智能领域最前沿和引人注目的一个模型,大语言模型通过专注分析大量文本数据来学习语言的复杂模式和结构。随着大数据和人工智能技术的不断发展,大语言模型在各个领域的应用日益广泛,例如,健康医疗领域,凭借其强大的知识编码和存储能力、文本理解和生成能力,以及复杂任务的推理能力,有望推动医工交叉产生新一轮科技变革,在医学知识科普与公众健康素养、循证医学与临床辅助决策、药物研发与效果评估等方面具有重要意义。
2、相关技术中大语言模型在处理复杂的任务时,可能产生不准确、偏离既定事实或完全虚构的输出,即幻觉问题。
技术实现思路
1、有鉴于此,本申请提供了一种基于层间比对的大语言模型训练和使用方法及相关装置。
2、为实现上述目的,本申请提供如下技术方案:
3、根据本公开实施例的第一方面,提供一种基于层间比对的大语言模型训练方法,包括:
4
...【技术保护点】
1.一种基于层间比对的大语言模型训练方法,其特征在于,包括:
2.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q步骤包括:
3.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布步骤包括:
4.根据权利要求3所述基于层间比对的大语言模型训练方法,其特征在于,所述基于所述第二概
...【技术特征摘要】
1.一种基于层间比对的大语言模型训练方法,其特征在于,包括:
2.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述通过所述解码策略模块从前n-1层所述网络模型中确定出与第n层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数q步骤包括:
3.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述基于第q层的所述网络模型输出的所述第一概率分布与第n层所述网络模型输出的所述第一概率分布,确定差异分布步骤包括:
4.根据权利要求3所述基于层间比对的大语言模型训练方法,其特征在于,所述基于所述第二概率分布与所述第三概率分布,确定所述差异分布步骤包括:
5.根据权利要求1至4任一所...
【专利技术属性】
技术研发人员:刘辉,刘宇炀,李晓瑛,
申请(专利权)人:中国医学科学院医学信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。