基于层间比对的大语言模型训练和使用方法及相关装置制造方法及图纸

技术编号:41118642 阅读:24 留言:0更新日期:2024-04-25 14:08
本申请公开了基于层间比对的大语言模型训练和使用方法及相关装置,应用于人工智能领域。本申请的大语言模型包括N层网络模型以及与N层网络模型的输出端分别相连的解码策略模块。通过解码策略模块获取N层网络模型分别输出的第一概率分布。低层级的网络模型的输出错误率较高,高层级的网络模型的输出准确率较高。若第Q层与第N层的网络模型的第一概率分布差异最大,那么第N层的网络模型的输出的准确率比较高,第Q层的网络模型的输出的错误率比较高,本申请利用第N层和第Q层的网络模型的输出之间的差异,确定出第一目标token。大语言模型的输出降低了低层级的网络模型的幻觉认知,增加了高层级网络模型的事实性回答,提高了准确度。

【技术实现步骤摘要】

本申请涉及人工智能领域,更具体的说,是涉及基于层间比对的大语言模型训练和使用方法及相关装置


技术介绍

1、大语言模型是当前人工智能领域最前沿和引人注目的一个模型,大语言模型通过专注分析大量文本数据来学习语言的复杂模式和结构。随着大数据和人工智能技术的不断发展,大语言模型在各个领域的应用日益广泛,例如,健康医疗领域,凭借其强大的知识编码和存储能力、文本理解和生成能力,以及复杂任务的推理能力,有望推动医工交叉产生新一轮科技变革,在医学知识科普与公众健康素养、循证医学与临床辅助决策、药物研发与效果评估等方面具有重要意义。

2、相关技术中大语言模型在处理复杂的任务时,可能产生不准确、偏离既定事实或完全虚构的输出,即幻觉问题。


技术实现思路

1、有鉴于此,本申请提供了一种基于层间比对的大语言模型训练和使用方法及相关装置。

2、为实现上述目的,本申请提供如下技术方案:

3、根据本公开实施例的第一方面,提供一种基于层间比对的大语言模型训练方法,包括:

4、获取样本任务序列{本文档来自技高网...

【技术保护点】

1.一种基于层间比对的大语言模型训练方法,其特征在于,包括:

2.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述通过所述解码策略模块从前N-1层所述网络模型中确定出与第N层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数Q步骤包括:

3.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述基于第Q层的所述网络模型输出的所述第一概率分布与第N层所述网络模型输出的所述第一概率分布,确定差异分布步骤包括:

4.根据权利要求3所述基于层间比对的大语言模型训练方法,其特征在于,所述基于所述第二概率分布与所述第三概率...

【技术特征摘要】

1.一种基于层间比对的大语言模型训练方法,其特征在于,包括:

2.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述通过所述解码策略模块从前n-1层所述网络模型中确定出与第n层所述网络模型输出的所述第一概率分布差异最大的网络模型的层数q步骤包括:

3.根据权利要求1所述基于层间比对的大语言模型训练方法,其特征在于,所述基于第q层的所述网络模型输出的所述第一概率分布与第n层所述网络模型输出的所述第一概率分布,确定差异分布步骤包括:

4.根据权利要求3所述基于层间比对的大语言模型训练方法,其特征在于,所述基于所述第二概率分布与所述第三概率分布,确定所述差异分布步骤包括:

5.根据权利要求1至4任一所...

【专利技术属性】
技术研发人员:刘辉刘宇炀李晓瑛
申请(专利权)人:中国医学科学院医学信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1