基于奖励排序和在线强化学习的疾病辅助诊断方法及装置制造方法及图纸

技术编号：45955555 阅读：10 留言：0更新日期：2025-07-29 17:55

本发明专利技术公开了一种基于奖励排序和在线强化学习的疾病辅助诊断方法及装置，涉及医疗数据处理领域，包括：构建微调数据集和疾病辅助诊断模型，疾病辅助诊断模型采用经过初步微调的预训练的大语言模型，采用微调数据集和奖励排序微调方式对疾病辅助诊断模型进行再次微调，使其能够在无监督条件下，通过自生成数据进行持续学习与改进，得到经微调的疾病辅助诊断模型；获取待预测的患者的多模态医疗数据并输入到经微调的疾病辅助诊断模型，得到对应的诊断建议。本发明专利技术能够解决现有技术在模型对齐性、人类反馈利用、生成结果控制、泛化能力和在线学习能力等方面的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及医学数据处理领域，具体涉及一种基于奖励排序和在线强化学习的疾病辅助诊断方法及装置。

技术介绍

1、随着深度学习和自然语言处理技术的迅猛发展，大型预训练语言模型(largelanguage models，llms)在自然语言理解和生成任务中取得了突破性进展。llms如gpt系列、bert、llama等在处理复杂语言任务方面表现出色，能够理解上下文、生成高质量的文本。

2、在医疗领域，疾病辅助诊断模型有助于提高诊断效率，减轻医生负担。然而，医疗诊断具有高度专业性和复杂性，对模型的准确性、可靠性和可解释性要求极高。传统的医疗诊断模型往往依赖于规则或浅层的机器学习方法，难以处理复杂的医学知识和推理过程。传统医疗诊断模型常受限于单一模态数据处理能力，无法有效整合文本、图像及结构化数据，同时，具备多模态能力的大语言模型往往未经过针对医疗领域的微调，导致诊断结果的准确性、可靠性及泛化能力无法满足临床实际需求。此外，现有的模型微调方法如监督学习或离线强化学习依赖大量高质量的人类标注数据，成本高昂且效率低下。强化学习从人类反馈(reinforcem本文档来自技高网...

【技术保护点】

1.一种基于奖励排序和在线强化学习的疾病辅助诊断方法，其特征在于，包括以下步骤：

2.根据权利要求1的基于奖励排序和在线强化学习的疾病辅助诊断方法，其特征在于，构建经训练的奖励模型，具体包括：

3.根据权利要求2的基于奖励排序和在线强化学习的疾病辅助诊断方法，其特征在于，所述奖励模型包括双塔结构的Transformer模型，所述双塔结构的Transformer模型包括第一Transformer编码器、第二Transformer编码器和匹配分数计算模块；

4.根据权利要求2的基于奖励排序和在线强化学习的疾病辅助诊断方法，其特征在于，所述奖励损失函数采用对...

【技术特征摘要】

1.一种基于奖励排序和在线强化学习的疾病辅助诊断方法，其特征在于，包括以下步骤：

2.根据权利要求1的基于奖励排序和在线强化学习的疾病辅助诊断方法，其特征在于，构建经训练的奖励模型，具体包括：

3.根据权利要求2的基于奖励排序和在线强化学习的疾病辅助诊断方法，其特征在于，所述奖励模型包括双塔结构的transformer模型，所述双塔结构的transformer模型包括第一transformer编码器、第二transformer编码器和匹配分数计算模块；

4.根据权利要求2的基于奖励排序和在线强化学习的疾病辅助诊断方法，其特征在于，所述奖励损失函数采用对比损失函数，表示为：

5.根据权利要求1的基于奖励排...

【专利技术属性】
技术研发人员：陈群，范嘉骏，杨静静，宁万山，顾颖，许睿智，
申请(专利权)人：厦门大学附属第一医院厦门市第一医院，厦门市红十字会医院，厦门市糖尿病研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人