机器学习系统及用于诊断罕见病的方法技术方案

技术编号：38551367 阅读：17 留言：0更新日期：2023-08-22 20:57

本说明书涉及使用机器学习模型来基于医疗数据/病历对患有罕见病的患者进行诊断、以及训练这种模型的方法。根据本说明书的第一方面，描述了一种生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的计算机实施的方法，所述方法包括：使用自然语言处理从与罕见病相关联的医学文献语料库生成与罕见病相关联的多个术语中的每一个的嵌入向量；接收初始数据集，所述初始数据集包括与患有所述罕见病的多个个体有关的医疗数据，每个个体的所述医疗数据包括指示所述个体所经历的所述罕见病的多个特征的数据；将所述初始数据集与包括没有所述罕见病的多个个体的对照数据集组合，以生成所述训练数据集；以及对于训练数据集中的每个个体，基于与个体相关联的特征和与罕见病相关联的所述多个术语的嵌入向量生成表示个体的嵌入向量。成表示个体的嵌入向量。成表示个体的嵌入向量。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】机器学习系统及用于诊断罕见病的方法

[0001]本说明书涉及使用机器学习模型来基于医疗数据/病历对患有罕见病的患者进行诊断、以及训练这种模型的方法。

技术介绍

[0002]据估计，全世界约有3亿人患有罕见病。罕见病的诊断时间通常比常见疾病更长，其中罕见病的平均诊断时间超过四年。这可能导致治疗罕见病的严重延迟并降低成功治疗罕见病的可能性。许多因素导致了该延迟，包括医学从业者对罕见病的不熟悉、给定罕见病的症状的多样性以及较常见疾病的症状对疾病的掩盖。尽管传统的诊断算法有时可以是有效的，但它们依赖于HCP意识并且需要验证许多临床特性(包括鉴别诊断)。这种条件在现实世界中很少得到满足。

技术实现思路

[0003]根据本说明书的第一方面，描述了一种生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的计算机实施的方法，所述方法包括：使用自然语言处理从与所述罕见病相关联的医学文献语料库生成与所述罕见病相关联的多个术语中的每一个的嵌入向量；接收初始数据集，所述初始数据集包括与患有所述罕见病的多个个体有关的医疗数据，每个个体的所述医疗数据包括指示所述个体所经历的所述罕见病的多个特征的数据；将所述初始的数据集与包括没有所述罕见病的多个个体的对照数据集组合，以生成所述训练数据集；以及对于所述训练数据集中的每个个体，基于与所述个体相关联的特征和与所述罕见病相关联的所述多个术语的所述嵌入向量生成表示所述个体的嵌入向量。
[0004]生成表示个体的嵌入向量可以包括：识别与罕见病相关联的术语的一个或多个嵌入向量，所...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的计算机实施的方法，所述方法包括：使用自然语言处理从与所述罕见病相关联的医学文献语料库生成与所述罕见病相关联的多个术语中的每一个的嵌入向量；接收初始数据集，所述初始数据集包括与患有所述罕见病的多个个体有关的医疗数据，每个个体的所述医疗数据包括指示所述个体所经历的所述罕见病的多个特征的数据；将所述初始的数据集与包括没有所述罕见病的多个个体的对照数据集组合，以生成所述训练数据集；以及对于所述训练数据集中的每个个体，基于与所述个体相关联的特征和与所述罕见病相关联的所述多个术语的所述嵌入向量生成表示所述个体的嵌入向量。2.根据权利要求1所述的方法，其中生成表示个体的所述嵌入向量包括：识别与罕见病相关联的术语的一个或多个嵌入向量，所述术语对应于所述个体所经历的所述罕见病的特征；以及对与罕见病相关联的术语的所识别的嵌入向量求平均，以生成表示所述个体的所述嵌入向量。3.根据权利要求1或2中任一项所述的方法，其中，生成与所述罕见病相关联的多个术语中的每一个的嵌入向量包括：使用自然语言处理算法生成医学文献语料库中的多个术语中的每一个的嵌入向量；使用距离度量将所述医学文献语料库中的所述多个术语中的每一个的嵌入向量与已知同所述罕见病相关联的一个或多个预定义术语的嵌入向量进行比较；以及如果所述嵌入向量与已知同罕见病相关联的预定义术语的嵌入向量之间的距离大于阈值，则丢弃医学文献语料库中的术语的嵌入向量。4.根据任一前述权利要求所述的方法，其进一步包括：使用无监督聚类方法识别所述初始数据集中的多个个体集群；基于所述集群中的个体的所述医疗数据将所述集群中的一个或多个集群识别为最不代表所述罕见病；以及在将所述初始数据集与所述对照数据集组合之前，将所述个体中的一个或多个从基于所述一个或多个个体的医疗数据被识别为最不具有代表性的所述一个或多个集群中移除。5.根据权利要求4所述的方法，将集群中的一个或多个集群识别为最不代表所述罕见病包括：识别所述多个集群中的每个集群的所述罕见病的代表性症状；将每个集群的所表示症状与所述罕见病的预定义的已知症状集合进行比较，所述预定义的已知症状集合包括更具有代表性症状的集合和最不具有代表性症状的集合；以及如果所述集群的所述代表性症状在所述最不具有代表性症状的集合中，则将所述集群识别为最不代表所述罕见病。6.根据权利要求4或5中任一项所述的方法，其中将所述个体中的一个或多个从被识别为最不具有代表性的一个或多个集群中移除包括：对于被识别为最不具有代表性的所述集...

【专利技术属性】
技术研发人员：C，
申请(专利权)人：赛诺菲，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人