癌症分类器模型、机器学习系统和使用方法技术方案

技术编号:28880998 阅读:23 留言:0更新日期:2021-06-15 23:18
本文公开了分类器模型、计算机实现的系统、机器学习系统及其方法,以用于将无症状患者分类为患有或患上癌症的风险类别和/或将患有或患上癌症的风险增加的患者分类为基于器官系统的恶性肿瘤类成员和/或分类为特定癌症类成员。

【技术实现步骤摘要】
【国外来华专利技术】癌症分类器模型、机器学习系统和使用方法相关申请的交叉引用本申请要求于2018年6月30日提交的美国临时专利申请号62/692,683的权益,其全部内容通过引用并入本文。
本申请总体上涉及由机器学习系统生成的分类器模型,其用纵向数据进行训练,以用于识别患上癌症风险增加的无症状患者和癌症类型,尤其是在无症状或症状不明确的患者中。
技术介绍
对于许多类型的癌症,如果在肿瘤转移之前就开始手术和其他治疗干预措施,则患者的治疗效果会显著改进。因此,已经将成像和诊断测试引入医疗实践中,以试图帮助医生及早检测癌症。这些包括各种成像模式(诸如乳房X线摄影)以及用来识别血液和其他体液中的癌症特异性“生物标志物”的诊断测试,诸如前列腺特异性抗原(PSA)测试。许多这些测试的价值经常会被质疑,特别是关于与假阳性、假阴性等相关联的成本和风险是否超过了在实际挽救生命方面的潜在利益。此外,为了证明这种价值,必须在现实世界(前瞻性)研究中生成来自大量患者(数以千计或甚至数以万计)的数据,而非对实验室存储的样本进行回顾性分析。遗憾的是,对筛查工具进行大型前瞻性研本文档来自技高网...

【技术保护点】
1.一种在包含至少一个处理器和至少一个存储器的计算机实现的系统中的方法,所述至少一个存储器包含由所述至少一个处理器执行以促使所述至少一个处理器实现一个或多个分类器模型以针对无症状患者预测患有或患上癌症的风险增加的指令,所述方法包含:/na)从所述患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于所述样本中的所述生物标志物的水平;/nb)获得对应于所述患者的包括至少年龄和性别的临床参数;/nc)使用第一分类器模型将所述患者分类为患有或患上癌症的风险类别,其中所述第一分类器模型由机器学习系统使用第一训练数据生成,所述第一训练数据包含针对患者群体的一组至少两个生物标志物、年龄和诊断指标...

【技术特征摘要】
【国外来华专利技术】20180630 US 62/692,6831.一种在包含至少一个处理器和至少一个存储器的计算机实现的系统中的方法,所述至少一个存储器包含由所述至少一个处理器执行以促使所述至少一个处理器实现一个或多个分类器模型以针对无症状患者预测患有或患上癌症的风险增加的指令,所述方法包含:
a)从所述患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于所述样本中的所述生物标志物的水平;
b)获得对应于所述患者的包括至少年龄和性别的临床参数;
c)使用第一分类器模型将所述患者分类为患有或患上癌症的风险类别,其中所述第一分类器模型由机器学习系统使用第一训练数据生成,所述第一训练数据包含针对患者群体的一组至少两个生物标志物、年龄和诊断指标的值;并且,
其中当所述第一分类器模型的输出高于阈值时,所述第一分类器模型使用年龄和来自所述患者的一组生物标志物的所述测量值的输入变量将所述患者分类为风险增加的类别;以及,
d)当所述患者被分类为所述风险增加的类别时,向用户提供通知以对所述患者进行诊断测试。


2.根据权利要求1所述的方法,其中所述第一分类器模型具有灵敏度值至少为0.8并且特异性值至少为0.8的受试者工作特征(ROC)曲线的性能。


3.根据权利要求1所述的方法,其中所述第一训练数据包含来自一组至少六个生物标志物的值。


4.根据权利要求1所述的方法,其中所述输入变量包含来自一组至少六个生物标志物的测量值。


5.根据权利要求3所述的方法,其中所述一组生物标志物选自AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、PSA和SCC。


6.根据权利要求4所述的方法,其中所述一组生物标志物选自AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1、PSA和SCC。


7.根据权利要求1所述的方法,其中男性患者的所述一组生物标志物选自AFP、CEA、CA19-9、CYFRA21-1、PSA和SCC。


8.根据权利要求1所述的方法,其中女性患者的所述一组生物标志物选自AFP、CEA、CA125、CA19-9、CA15-3、CYFRA21-1和SCC。


9.根据权利要求1所述的方法,其中所述机器学习系统进一步包含通过用新的训练数据训练所述第一分类器模型来迭代地重新生成所述第一分类器模型,以改进所述第一分类器模型的性能。


10.根据权利要求9所述的方法,其中所述第一分类器模型具有灵敏度值至少为0.85并且特异性值至少为0.8的受试者工作特征(ROC)曲线的改进的性能。


11.根据权利要求1所述的方法,其中所述风险类别包含低风险、中度风险或高风险。


12.根据权利要求1所述的方法,其中所述风险增加的类别包含中度风险或高风险。


13.根据权利要求1所述的方法,其中所述诊断测试是放射线照相筛查或组织活检。


14.根据权利要求1所述的方法,进一步包含:
(1)从所述诊断测试获得一个或多个测试结果,所述一个或多个测试结果确认或否认所述患者体内癌症的存在;
(2)将所述一个或多个测试结果合并到所述第一训练数据中,以用于进一步训练所述机器学习系统的所述第一分类器模型;以及
(3)由所述机器学习系统生成改进的第一分类器模型。


15.根据权利要求1所述的方法,其中所述第一分类器模型包含支持向量机、决策树、随机森林、神经网络、深度学习神经网络或逻辑回归算法。


16.根据权利要求1所述的方法,其中所述癌症选自由以下项组成的群组:乳腺癌、胆管癌、骨癌、宫颈癌、结肠癌、结肠直肠癌、胆囊癌、肾癌、肝或肝细胞癌、小叶癌、肺癌、黑素瘤、卵巢癌、胰腺癌、前列腺癌、皮肤癌以及睾丸癌。


17.根据权利要求1所述的方法,其中所述第一训练数据包含来自在提供样本后三个或更多个月没有癌症诊断的一组患者的一组数据。


18.根据权利要求1所述的方法,其中所述第一训练数据包含来自在提供样本后三个或更多个月具有癌症诊断的一组患者的一组数据。


19.根据权利要求1所述的方法,其中所述阈值为0.5的概率值。


20.根据权利要求1所述的方法,其中所述第一训练数据包含的没有癌症的患者比患有癌症的患者的人数更多,并且进一步包含:
通过使用分层抽样技术来对所述第一训练数据进行重新处理,以改进对阴性样本的选择。


21.根据权利要求1所述的方法,其中使用第二分类器模型对通过所述第一分类器模型分类为所述风险增加的类别的患者进一步进行分类,其中所述第二分类器模型由所述机器学习系统使用包含来自患者群体的一组至少两个生物标志物和诊断指标的值的第二训练数据生成,其中所述第二分类器模型通过使用来自所述患者的所述一组生物标志物的所述测量值的输入变量指定对应于最可能的器官系统恶性肿瘤的类成员,来预测所述患者的至少一个最可能的器官系统恶性肿瘤。


22.根据权利要求21所述的方法,其中训练数据进一步包含来自所述患者群体的年龄的值。


23.根据权利要求21所述的方法,其中所述输入变量进一步包含年龄。


24.一种在包含至少一个处理器和至少一个存储器的计算机实现的系统中的方法,所述至少一个存储器包含由所述至少一个处理器执行以促使所述至少一个处理器实现一个或多个分类器模型以针对患有或患上癌症的风险增加的患者预测基于器官系统的恶性肿瘤的指令,所述方法包含:
a)从所述患者获得样本中的一组生物标志物的测量值,其中生物标志物的值对应于所述...

【专利技术属性】
技术研发人员:J·科恩V·多西瓦P·施
申请(专利权)人:二零二零基因系统股份有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1