当前位置: 首页 > 专利查询>赛诺菲专利>正文

机器学习系统及用于诊断罕见病的方法技术方案

技术编号:38551367 阅读:17 留言:0更新日期:2023-08-22 20:57
本说明书涉及使用机器学习模型来基于医疗数据/病历对患有罕见病的患者进行诊断、以及训练这种模型的方法。根据本说明书的第一方面,描述了一种生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的计算机实施的方法,所述方法包括:使用自然语言处理从与罕见病相关联的医学文献语料库生成与罕见病相关联的多个术语中的每一个的嵌入向量;接收初始数据集,所述初始数据集包括与患有所述罕见病的多个个体有关的医疗数据,每个个体的所述医疗数据包括指示所述个体所经历的所述罕见病的多个特征的数据;将所述初始数据集与包括没有所述罕见病的多个个体的对照数据集组合,以生成所述训练数据集;以及对于训练数据集中的每个个体,基于与个体相关联的特征和与罕见病相关联的所述多个术语的嵌入向量生成表示个体的嵌入向量。成表示个体的嵌入向量。成表示个体的嵌入向量。

【技术实现步骤摘要】
【国外来华专利技术】机器学习系统及用于诊断罕见病的方法


[0001]本说明书涉及使用机器学习模型来基于医疗数据/病历对患有罕见病的患者进行诊断、以及训练这种模型的方法。

技术介绍

[0002]据估计,全世界约有3亿人患有罕见病。罕见病的诊断时间通常比常见疾病更长,其中罕见病的平均诊断时间超过四年。这可能导致治疗罕见病的严重延迟并降低成功治疗罕见病的可能性。许多因素导致了该延迟,包括医学从业者对罕见病的不熟悉、给定罕见病的症状的多样性以及较常见疾病的症状对疾病的掩盖。尽管传统的诊断算法有时可以是有效的,但它们依赖于HCP意识并且需要验证许多临床特性(包括鉴别诊断)。这种条件在现实世界中很少得到满足。

技术实现思路

[0003]根据本说明书的第一方面,描述了一种生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的计算机实施的方法,所述方法包括:使用自然语言处理从与所述罕见病相关联的医学文献语料库生成与所述罕见病相关联的多个术语中的每一个的嵌入向量;接收初始数据集,所述初始数据集包括与患有所述罕见病的多个个体有关的医疗数据,每个个体的所述医疗数据包括指示所述个体所经历的所述罕见病的多个特征的数据;将所述初始的数据集与包括没有所述罕见病的多个个体的对照数据集组合,以生成所述训练数据集;以及对于所述训练数据集中的每个个体,基于与所述个体相关联的特征和与所述罕见病相关联的所述多个术语的所述嵌入向量生成表示所述个体的嵌入向量。
[0004]生成表示个体的嵌入向量可以包括:识别与罕见病相关联的术语的一个或多个嵌入向量,所述术语对应于所述个体所经历的所述罕见病的特征;以及对与罕见病相关联的术语的所识别的嵌入向量求平均,以生成表示所述个体的嵌入向量。
[0005]生成与所述罕见病相关联的多个术语中的每一个的嵌入向量可以包括:使用自然语言处理算法生成医学文献语料库中的多个术语中的每一个的嵌入向量;使用距离度量将所述医学文献语料库中的所述多个术语中的每一个的嵌入向量与已知同所述罕见病相关联的一个或多个预定义术语的嵌入向量进行比较;以及如果所述嵌入向量与已知同罕见病相关联的预定义术语的嵌入向量之间的距离大于阈值,则丢弃医学文献语料库中的术语的嵌入向量。
[0006]所述方法可以进一步包括:使用无监督聚类方法识别所述初始数据集中的多个个体集群;基于所述集群中的个体的所述医疗数据将所述集群中的一个或多个集群识别为最不代表所述罕见病;以及在将所述初始数据集与所述对照数据集组合之前,将所述个体中的一个或多个从基于所述一个或多个个体的医疗数据被识别为最不具有代表性的所述一个或多个集群中移除。
[0007]将集群中的一个或多个集群识别为最不代表所述罕见病可以包括:识别所述多个
集群中的每个集群的所述罕见病的代表性症状;将每个集群的所表示的症状与所述罕见病的预定义的已知症状集合进行比较,所述预定义的已知症状集合包括更具有代表性症状的集合和最不具有代表性症状的集合;以及如果集群的所述代表性症状在所述最不具有代表性症状集合中,则将所述集群识别为最不代表所述罕见病。
[0008]将所述个体中的一个或多个从被识别为最不具有代表性的一个或多个集群中移除可以包括:对于被识别为最不具有代表性的所述集群中的每个个体:确定与所述个体相关联的医疗数据是否满足阈值条件,所述阈值条件基于所述罕见病的症状;以及如果不满足所述阈值条件,则将所述个体从所识别的集群中移除。
[0009]在所述初始数据集中识别多个个体子集可以包括使用分层凝聚式聚类来将所述数据集聚类成预定数量个集群。
[0010]所述方法可以进一步包括:将与所述初始数据集中的个体相关联的医疗数据与同所述对照数据集中的个体相关联的医疗数据进行比较,以识别所述罕见病的一个或多个潜在症状;以及用所述罕见病的所述一个或多个潜在症状增强所述训练数据集。
[0011]对照数据集可以包括没有罕见病的个体,所述个体具有罕见病的至少阈值数量个症状。
[0012]将所述初始数据集与对照数据集组合可以包括以预定义比率将所述对照数据集中的多个个体与所述初始数据集中的每个个体相匹配。所述匹配可以基于所述个体的一个或多个人口统计性质。
[0013]根据本说明书的另一方面,公开了一种训练机器学习模型以基于个体的病历将所述个体分类为患有罕见病的计算机实施的方法,所述方法包括使用监督学习技术来使用标记的训练数据集训练所述机器学习模型,其中,已经使用用于生成训练数据集的本文所述的方法中的任何一种生成了所述训练数据集,并且其中,所述机器学习模型将包括表示个体的所述嵌入向量的数据作为输入。
[0014]可以在所述标记的数据集中的数据的子集上训练所述机器学习模型;所述子集包括对于所述数据集中患有所述罕见病的每个个体在所述个体被诊断为患有所述罕见病前收集的医疗数据。
[0015]根据本说明书的另一方面,公开了一种诊断疾病的计算机实施的方法,所述方法包括:将与个体相关联的医疗数据输入到机器学习模型中,所述医疗数据包括表示所述个体的嵌入向量,所述嵌入向量是基于与所述个体相关联的特征;使用所述机器学习模型处理输入的医疗数据,以生成指示与所述医疗数据相关联的所述个体是否作为所述疾病的数据;以及从所述机器学习模型输出指示与所述医疗数据相关联的所述个体是否患有所述疾病的数据,其中所述机器学习模型已经使用本文所述的训练方法中的任何一种进行了训练。
[0016]根据本说明书的另一方面,公开了一种系统,其包括一个或多个处理器以及存储器,所述存储器包括计算机可读代码,所述计算机可读代码当由所述一个或多个处理器执行时致使所述系统执行本文所述的方法中的任何一种。
[0017]根据本说明书的另一方面,公开了一种计算机程序产品,其包括计算机可读代码,所述计算机可读代码当由计算设备执行时致使所述计算设备执行本文所述的方法中的任何一种的方法。
[0018]如本文所用,术语“罕见病”优选地用于意指影响总人口中不到1/2000的人的疾病。目前已知的罕见病有6,000多种,并且还在不断发现新的罕见病。在以下书面描述中,将描述关于高雪氏病(Gaucher's disease)的示例方法,尽管将理解的是,所述方法同样适用于其他罕见病。
附图说明
[0019]现在将参考附图通过非限制性例子的方式描述实施方案,其中:
[0020]图1示出了用于训练机器学习模型以识别患有罕见病的个体的示例流水线的概述;
[0021]图2示出了用于生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的示例方法的概述;
[0022]图3示出了患有通过聚类算法识别的高雪氏病的患者的集群的身份的例子;
[0023]图4示出了细化患有罕见病的患者的数据集的方法的例子;
[0024]图5示出了将罕见病数据集与对照数据集组合的方法的例子;
[0025]图6示出了用附加特征增强训练数据集的方法的例子;
[0026]图7示出了生成用于训练机器学习模型以识别患有罕见病的个体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的计算机实施的方法,所述方法包括:使用自然语言处理从与所述罕见病相关联的医学文献语料库生成与所述罕见病相关联的多个术语中的每一个的嵌入向量;接收初始数据集,所述初始数据集包括与患有所述罕见病的多个个体有关的医疗数据,每个个体的所述医疗数据包括指示所述个体所经历的所述罕见病的多个特征的数据;将所述初始的数据集与包括没有所述罕见病的多个个体的对照数据集组合,以生成所述训练数据集;以及对于所述训练数据集中的每个个体,基于与所述个体相关联的特征和与所述罕见病相关联的所述多个术语的所述嵌入向量生成表示所述个体的嵌入向量。2.根据权利要求1所述的方法,其中生成表示个体的所述嵌入向量包括:识别与罕见病相关联的术语的一个或多个嵌入向量,所述术语对应于所述个体所经历的所述罕见病的特征;以及对与罕见病相关联的术语的所识别的嵌入向量求平均,以生成表示所述个体的所述嵌入向量。3.根据权利要求1或2中任一项所述的方法,其中,生成与所述罕见病相关联的多个术语中的每一个的嵌入向量包括:使用自然语言处理算法生成医学文献语料库中的多个术语中的每一个的嵌入向量;使用距离度量将所述医学文献语料库中的所述多个术语中的每一个的嵌入向量与已知同所述罕见病相关联的一个或多个预定义术语的嵌入向量进行比较;以及如果所述嵌入向量与已知同罕见病相关联的预定义术语的嵌入向量之间的距离大于阈值,则丢弃医学文献语料库中的术语的嵌入向量。4.根据任一前述权利要求所述的方法,其进一步包括:使用无监督聚类方法识别所述初始数据集中的多个个体集群;基于所述集群中的个体的所述医疗数据将所述集群中的一个或多个集群识别为最不代表所述罕见病;以及在将所述初始数据集与所述对照数据集组合之前,将所述个体中的一个或多个从基于所述一个或多个个体的医疗数据被识别为最不具有代表性的所述一个或多个集群中移除。5.根据权利要求4所述的方法,将集群中的一个或多个集群识别为最不代表所述罕见病包括:识别所述多个集群中的每个集群的所述罕见病的代表性症状;将每个集群的所表示症状与所述罕见病的预定义的已知症状集合进行比较,所述预定义的已知症状集合包括更具有代表性症状的集合和最不具有代表性症状的集合;以及如果所述集群的所述代表性症状在所述最不具有代表性症状的集合中,则将所述集群识别为最不代表所述罕见病。6.根据权利要求4或5中任一项所述的方法,其中将所述个体中的一个或多个从被识别为最不具有代表性的一个或多个集群中移除包括:对于被识别为最不具有代表性的所述集...

【专利技术属性】
技术研发人员:C
申请(专利权)人:赛诺菲
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1