System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向医疗领域的跨表数据生成方法技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

面向医疗领域的跨表数据生成方法技术

技术编号:40709235 阅读:2 留言:0更新日期:2024-03-22 11:10
本发明专利技术提供了一种面向医疗领域的跨表数据生成方法,具有这样的特征,包括以下步骤:步骤S1,根据现有的非结构化的包含少量文档的医学数据集构建结构化的包含大量数据的合成医学数据集;步骤S2,根据合成医学数据集对现有的医学大语言模型依次进行联邦学习和特定训练,得到特定医学大语言模型;步骤S3,将目标疾病基础信息输入特定医学大语言模型,得到目标疾病生化指标。总之,本方法能够对跨表的目标疾病基础信息进行有效处理,生成与真实特征相一致的目标疾病生化指标。

【技术实现步骤摘要】

本专利技术属于医疗领域,具体涉及一种面向医疗领域的跨表数据生成方法


技术介绍

1、前瞻性临床研究作为临床试验领域的一个重要方法,涉及从多样化的数据源中收集病人数据、建立对照组,并对病人数据进行系统性记录。这种方法的优势在于减少偏差、能够在不依赖回顾性数据的情况下确定疾病的发生率,以及在相对风险评估方面显示出高效能。然而,对于罕见疾病的临床试验而言,数据不足常常是一个主要障碍。通过对过去两年在pubmed上的医学文章进行分析,可以发现文中研究通常涉及约2200名参与者,且数据收集过程平均持续三年。因此,为前瞻性临床研究生成充足的数据成为一个迫切的挑战。一个可能的解决方案是从专门设计的临床方案中生成数据,这些方案仅列出病人的基本信息,例如年龄、疾病、性别等,然后进行临床试验。

2、这一数据生成任务并不容易,因为其设置与主流的数据生成设置大相径庭。传统的生成任务通常是表格数据生成也被称为单表生成,主要是在单一表格中生成记录,目的是复制原始数据的底层分布。相比之下,在医学领域的任务是跨表生成任务,它专注于使用现有数据生成与原始数据分布不同的新数据集。

3、最近在合成表格数据生成领域的进展涵盖了多种技术,如生成对抗网络、变分自编码器和基于变换器的模型等。例如,有工作提出了great,用于生成逼真的合成数据。另一项工作强调了ft-transformer在表格数据处理上的强大架构。还有工作引入了vime这一自我和半监督框架,专门用于表格数据处理。还有基于特征损坏的对比学习方法scarf的研究。另一项研究关注于saint,一个处理行和列的注意力机制。此外,还有将加法注意力机制应用于表格任务的工作,专注于全局上下文。还有提出tabnet的研究,使用序列注意力来增强可解释性。而tabtransformer和tabpfn的研究分别强调了快速数据处理的重要性。

4、在跨表任务的迁移学习方面,也有相关的研究。例如,有工作提出了ct-bert,它整合了对比学习,适用于监督和自我监督的设置。还有工作开发了xtab,这是一个预训练表格变换器的框架,适用于包括回归和分类在内的多种任务。此外,还有工作强调了跨不同表格转移知识到特定目标的重要性。

5、但是,上述现有方法在整合多个表格的信息和适应不熟悉的表格方面面临挑战,限制了它们的泛化能力。此外,现有跨表任务的迁移学习方法优先考虑预测和排名而不是生成。总之,现有方法难以生成医疗领域所迫切需求的合成数据。


技术实现思路

1、本专利技术是为了解决上述问题而进行的,目的在于提供一种面向医疗领域的跨表数据生成方法。

2、本专利技术提供了一种面向医疗领域的跨表数据生成方法,用于根据目标疾病基本信息得到对应的目标疾病生化指标,具有这样的特征,包括以下步骤:步骤s1,根据现有的非结构化的包含少量文档的医学数据集构建结构化的包含大量数据的合成医学数据集;步骤s2,根据合成医学数据集对现有的医学大语言模型依次进行联邦学习和特定训练,得到特定医学大语言模型;步骤s3,将目标疾病基础信息输入特定医学大语言模型,得到目标疾病生化指标,其中,步骤s1包括以下子步骤:步骤s1-1,根据医学术语框架对各个文档进行信息提取,得到多条记录作为结构化数据集t,记录包含病人的基本信息和对应的生化指标;步骤s1-2,根据疾病系统将结构化数据集t划分为对应不同特定疾病系统的多个子集作为特定疾病系统子集;步骤s1-3,对各个特定疾病系统子集,将该特定疾病系统子集中各个基本信息分别输入对应的训练好的变分自编码器,得到对应的合成基本信息;步骤s1-4,通过计算合成基本信息中各个实体的加权平均位置,对所有实体进行排序调整,得到对应的增强合成基本信息;步骤s1-5,对各个特定疾病系统子集,将该特定疾病系统子集中各个增强合成基本信息分别输入对应的训练好的自回归语言模型,得到对应的合成生化指标;步骤s1-6,将各个增强合成基本信息和对应的合成生化指标作为合成记录,并将所有合成记录加入到对应的特定疾病系统子集,得到新的结构化数据集t作为合成医学数据集。

3、在本专利技术提供的面向医疗领域的跨表数据生成方法中,还可以具有这样的特征:其中,对变分自编码器进行训练时,变分自编码器的目标函数的表达式为:式中为重建损失,kl(q(z|x)||p(z))为量化潜在变量的假设分布和标准分布之间的差异,x为合成基本信息,z为潜在变量,为变分自编码器的损失函数。

4、在本专利技术提供的面向医疗领域的跨表数据生成方法中,还可以具有这样的特征:其中,在步骤s1-4中,加权平均位置的计算表达式为:式中w(fi)为第i个实体fi的权重,o(fi)为实体fi在医学数据集中的出现频率,n为医学数据集中数据条目的总数,p(fi)为实体fi在每个数据条目中的位置,为实体fi的加权平均位置。

5、在本专利技术提供的面向医疗领域的跨表数据生成方法中,还可以具有这样的特征:其中,在步骤s1-5中,自回归语言模型根据增强合成基本信息通过外推得到合成指标,通过sdv生成指标对合成指标进行评估得到评估结果,并判断评估结果是否大于预设阈值,若是,则将合成指标作为合成生化指标,若否,则自回归语言模型重新外推得到合成指标,合成生化指标包括历史疾病记录、检查、药物、副作用和症状。

6、在本专利技术提供的面向医疗领域的跨表数据生成方法中,还可以具有这样的特征:其中,对自回归语言模型进行训练时,自回归语言模型的目标函数的表达式为:式中x为特定疾病系统子集对应的增强合成基本信息,x'为特定疾病系统子集中除x之外的生化指标集合,oi-1,...o1为进行外推时合成生化指标的顺序,xnext为接下来要生成的生化指标集,为第i个特定疾病系统子集对应的自回归语言模型的损失函数,为第i个特定疾病系统子集对应的自回归语言模型的参数。

7、在本专利技术提供的面向医疗领域的跨表数据生成方法中,还可以具有这样的特征:其中,在步骤s2中,在联邦学习中设置有多个客户端和一个服务端,各个客户端通过对应的本地客户数据对现有的医学大语言模型进行指令调整得到更新参数,服务端将所有更新参数进行整合,得到联邦医学大语言模型,各个客户端的本地客户数据分别为合成医学数据集中的一个特定疾病系统子集,在特定训练中,将目标疾病基本信息对应的疾病系统对应的特定疾病系统子集作为特定训练集,并根据特定训练集对联邦医学大语言模型进行训练,得到特定医学大语言模型。

8、在本专利技术提供的面向医疗领域的跨表数据生成方法中,还可以具有这样的特征:其中,在联邦学习中,对各个客户端的医学大语言模型进行微调的表达式为:oi=llm(ii,x,oi-1,oi-2,...,o1;θ),式中oi为实体si的生成值,ii为当前实体值合成的指令,oi-1,oi-2,...,o1为之前生产的实体的生成值,为损失函数,θ*为优化后的模型参数,θ为优化前的模型参数

9、专利技术的作用与效果

10、根据本专利技术所涉及的面向医疗领域的跨表数据生成方法,因为,对现有的医学数据集进行本文档来自技高网...

【技术保护点】

1.一种面向医疗领域的跨表数据生成方法,用于根据目标疾病基本信息得到对应的目标疾病生化指标,其特征在于,包括以下步骤:

2.根据权利要求1所述的面向医疗领域的跨表数据生成方法,其特征在于:

3.根据权利要求1所述的面向医疗领域的跨表数据生成方法,其特征在于:

4.根据权利要求1所述的面向医疗领域的跨表数据生成方法,其特征在于:

5.根据权利要求1所述的面向医疗领域的跨表数据生成方法,其特征在于:

6.根据权利要求1所述的面向医疗领域的跨表数据生成方法,其特征在于:

7.根据权利要求6所述的面向医疗领域的跨表数据生成方法,其特征在于:

【技术特征摘要】

1.一种面向医疗领域的跨表数据生成方法,用于根据目标疾病基本信息得到对应的目标疾病生化指标,其特征在于,包括以下步骤:

2.根据权利要求1所述的面向医疗领域的跨表数据生成方法,其特征在于:

3.根据权利要求1所述的面向医疗领域的跨表数据生成方法,其特征在于:

4.根据权...

【专利技术属性】
技术研发人员:陈昱妍肖仰华李直旭
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1