【技术实现步骤摘要】
【国外来华专利技术】用于评估纵向生物特征数据的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求于2020年11月27日提交的美国临时专利申请第62/941,012号的优先权,其全部内容通过引用明确并入本文。
[0003]本公开涉及用于基于对象的基因型特征随时间的变化来评估对象的疾病状态的方法。
技术介绍
[0004]癌症代表了一个突出的全球公共卫生问题。仅美国在2015年就报告了1,658,370例病例。筛查计划和早期诊断对提高癌症患者的无病存活率和降低死亡率具有重要影响。例如,结直肠癌的早期筛查使美国的结直肠癌发病率和死亡率降低了近50%。这种降低与癌症分期相关的存活率相一致,从结直肠癌1期的94%下降到结直肠癌4期的11%。然而,早期癌症检测存在两大挑战:患者依从性和敏感性差。
[0005]有利地,对癌症的分子发病机制的认识的增加和次世代定序技术的快速发展正在推进对涉及体液中癌症发展的早期分子改变的研究。在血浆、血清和尿液中的游离DNA(cfDNA)中发现了与此类癌症发展相关的特定遗传和表观遗传改变。这种改变可能被用作几种癌症的诊断生物标志物。有利的是,非侵入性采样方法,例如所谓的“液体活检(liquid biopsies)”,可以促进患者的依从性,因为它们更容易、更快且执行成本更低。
[0006]可以在血清、血浆、尿液和其他体液中发现游离DNA,从而实现“液体活检”,这代表了对象中许多不同组织(包括患病组织)的基因组组成的快照(snapshot)。cfDNA来源于坏死或凋亡细胞,通 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种确定一测试对象是否具有一疾病状况的方法,其特征在于,所述方法包含:在一计算机系统执行以下步骤,其中所述计算机系统具有一个或多个处理器以及内存,所述内存存储一个或多个程序以供所述一个或多个处理器执行:(A)确定所述测试对象的一第一基因型数据结构,所述第一基因型数据结构包括基于在一第一测试时间点从所述测试对象获得的一第一生物样本中的一第一多个核酸分子的电子形式的一第一多个序列读取的多个基因型特征的多个值;(B)将所述第一基因型数据结构输入到所述疾病状况的一模型中,从而产生所述疾病状况的第一模型得分集;(C)确定所述测试对象的一第二基因型数据结构,所述第二基因型数据结构包括基于在发生在所述第一测试时间之后的一第二测试时间点从所述测试对象获得的一第二生物样本中的一第二多个核酸分子的电子形式的一第二多个序列读取的所述多个基因型特征的多个值;(D)将所述第二基因型数据结构输入到所述模型中,从而产生所述疾病状况的一第二模型得分集;(E)基于所述第一模型得分集与所述第二模型得分集之间的一差异来确定一测试δ得分集;以及(F)对照多个参考δ得分集来评估所述测试δ得分集,从而确定所述测试对象是否具有所述疾病状况,其中在所述多个参考δ得分集中的每个参考δ得分集是针对多个参考对象中的一相应参考对象。2.如权利要求1所述的方法,其特征在于:所述模型评估来自单个时间点的数据。3.如权利要求1或2所述的方法,其特征在于:所述第一模型得分集包括所述测试对象在所述第一测试时间点具有所述疾病状况的一概率;所述第二模型得分集包括所述测试对象在所述第二测试时间点具有所述疾病状况的一概率,以及所述评估(F)包括将所述测试δ得分集与所述多个参考δ得分集的一分布进行比较,其中所述多个参考δ得分中的每个参考δ得分集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:(i)所述相应参考对象具有所述疾病状况的一第一概率,所述第一概率使用包括所述多个基因型特征的多个值的一相应第一参考基因型数据结构通过所述模型来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一相应第一生物样本来获取;以及(ii)所述相应参考对象具有所述疾病状况的一第二概率,所述第二概率使用包括所述多个基因型特征的多个值的一相应第二参考基因型数据结构通过所述模型来提供,所述多个值是使用在所述相应第一时间点之后发生的一相应第二时间点从所述相应参考对象获得的一相应第二生物样本来获取,其中所述相应训练对象至少在所述相应第一时间点以及所述相应第二时间点的期间不具有所述疾病状况。4.如权利要求1或2所述的方法,其特征在于:所述模型的所述第一模型得分集包括具有所述疾病状况的一概率。
5.如权利要求1或2所述的方法,其特征在于:所述模型的所述第一模型得分集包括不具有所述疾病状况的一似然或一概率。6.如权利要求1至3中任一项所述的方法,其特征在于:所述评估(F)包括:确定所述分布的一集中趋势的量数以及所述分布的一散布量数;以及使用所述分布的所述集中趋势的量数以及所述分布的所述散布量数来确定所述测试δ得分集的一显着性。7.如权利要求6所述的方法,其特征在于:所述分布的所述集中趋势的量数是所述分布中的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数。8.如权利要求6或7所述的方法,其特征在于:所述分布的所述散布量数是所述分布的一标准差、一方差或一范围。9.如权利要求6所述的方法,其特征在于:所述分布的所述集中趋势的量数是所述分布的所述平均数;所述分布的所述散布量数是所述分布的所述标准差;以及使用所述分布的所述集中趋势的量数以及所述分布的所述散布量数来确定所述测试δ得分集的所述显着性包括确定多个标准差的数量所述测试δ得分集是来自所述分布的所述平均数。10.如权利要求9所述的方法,其特征在于:当自所述分布的所述平均数的所述多个标准差的数量所述测试δ得分集满足一阈值时,所述测试对象被确定具有所述疾病状况。11.如权利要求1至3中任一项所述的方法,其特征在于:所述评估(F)包括将所述测试δ得分输入到对照所述多个参考δ得分集训练的一分类器中,其中所述多个参考δ得分中的每个参考δ得分集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:(i)所述相应参考对象具有所述疾病状况的一第一概率,所述第一概率使用包括所述多个基因型特征的多个值的一相应第一参考基因型数据结构通过所述模型来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一相应第一生物样本来获取;以及(ii)所述相应参考对象具有所述疾病状况的一第二概率,所述第二概率使用包括所述多个基因型特征的多个值的一相应第二参考基因型数据结构通过所述模型来提供,所述多个值是使用在所述相应第一时间点之后发生的一相应第二时间点从所述相应参考对象获得的一相应第二生物样本来获取,其中所述相应训练对象至少在所述相应第一时间点以及所述相应第二时间点的期间不具有所述疾病状况。12.如权利要求11所述的方法,其特征在于:针对所述多个参考对象的至少一子集中的每个相应训练对象,对照在所述相应第二时间点之后发生的一相应第三时间点的所述相应对象是否具有所述疾病状况的一确定,来对所述分类器进一步进行训练。13.如权利要求11或12所述的方法,其特征在于:所述分类器是一神经网络算法、一支持向量机算法、一朴素贝叶斯分类器算法、一最邻近搜索算法、一提升树算法、一随机森林算法、一决策树算法、一多分类逻辑回归算法或一线性回归算法。14.如权利要求3至10中任一项所述的方法,其特征在于:
将所述多个参考对象中的每个相应参考对象的所述相应第一时间点与所述相应第二时间点之间的一时间量用作计算所述分布的一协变量;以及针对所述测试对象基于表示所述第一测试时间点与所述第二测试时间点之间的一时间差的所述协变量来调整所述测试δ得分集。15.如权利要求14所述的方法,其特征在于:将表示所述第一测试时间点与所述第二测试时间点之间的一时间差的所述协变量应用于所述第一基因型数据结构、所述第二基因型数据结构、每个第一相应参考基因型数据结构或是每个第二相应参考基因型数据结构的所述多个特征中的一个或多个基因型特征。16.如权利要求14所述的方法,其特征在于:将表示所述第一测试时间点与所述第二测试时间点之间的一时间差的所述协变量应用于所述测试δ得分集以及多个参考δ得分的分布中的每个参考δ得分集。17.如权利要求3至10中任一项所述的方法,其特征在于:还包括归一化,其中:针对所述相应对象将所述多个参考δ得分集中的每个相应参考δ得分集归一化所述相应第一时间点与所述相应第二时间点之间的一时间量;以及将所述测试δ得分集归一化所述第一测试时间点与所述第二测试时间点之间的一时间量。18.如权利要求17所述的方法,其特征在于:通过针对所述相应对象对每个第一相应参考基因型数据结构或是每个第二相应参考基因型数据结构的所述多个特征中的一个或多个基因型特征归一化所述相应第一时间点与所述相应第二时间点之间的一时间量,来针对所述相应参考对象将所述多个参考δ得分集中的每个相应参考δ得分集归一化所述相应第一时间点与所述相应第二时间点之间的一时间量;以及通过将所述第一基因型数据结构以及所述第二基因型数据结构中的一个或多个基因型特征归一化所述第一测试时间点与所述第二测试时间点之间的一时间量,来将所述测试δ得分集归一化所述第一测试时间点与所述第二测试时间点之间的一时间量。19.如权利要求17所述的方法,其特征在于:将所述归一化应用于所述测试δ得分集以及所述多个参考δ得分集的分布中的每个参考δ得分集。20.如权利要求3至19中任一项所述的方法,其特征在于:将所述多个参考对象中的每个相应参考对象的一非基因型特征作为计算所述分布中的一协变量;以及所述测试δ得分集是根据所述测试对象的所述非基因型特征来进行调整。21.如权利要求20所述的方法,其特征在于:将所述协变量应用于所述第一基因型数据结构、所述第二基因型数据结构、每个相应第一参考基因型数据结构或是每个相应第二参考基因型数据结构的所述多个特征中的一个或多个基因型特征。22.如权利要求20所述的方法,其特征在于:将所述协变量应用于所述测试δ得分集以及所述多个参考δ得分集的分布中的每个参考δ得分集。23.如权利要求2至19中任一项所述的方法,其特征在于:所述方法还包含:一归一化,其中:针对所述相应参考对象的一非基因型特征将所述多个参考δ得分集中的每个相应参考
δ得分集进行归一化;以及针对所述测试对象的所述非基因型特征将所述测试δ得分集进行归一化。24.如权利要求23所述的方法,其特征在于:通过对所述相应参考对象的所述非基因型特征的每个相应第一参考基因型数据结构或是每个相应第二参考基因型数据结构的所述多个特征中的一个或多个基因型特征归一化,针对所述相应参考对象的所述非基因型特征对所述多个参考δ得分集中的每个相应参考δ得分集归一化;以及针对所述测试对象的所述非基因型特征对所述测试δ得分集归一化。25.如权利要求23所述的方法,其特征在于:所述归一化应用于所述测试δ得分集以及所述多个参考δ得分集的所述分布中的每个参考δ得分集。26.如权利要求20至25中任一项所述的方法,其特征在于:所述非基因型特征包括年龄、饮酒状态、吸烟状态、性别或其一组合。27.如权利要求1至26中任一项所述的方法,其特征在于:所述多个参考对象针对性别、年龄、吸烟状况、饮酒或其一组合进行分段。28.如权利要求1至27中任一项所述的方法,其特征在于:所述疾病状况是一癌症。29.如权利要求1至27中任一项所述的方法,其特征在于:所述疾病状况是一组疾病状况中的一种疾病状况,并且所述模型为所述一组疾病状况中的每种疾病状况提供一概率或一似然。30.如权利要求29所述的方法,其特征在于:所述一组疾病状况包括多种癌症状况。31.如权利要求30所述的方法,其特征在于:所述多种癌症状况包括一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌、一头/颈癌、一肝胆癌、一肾癌、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌、一皮肤癌、一胃癌、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。32.如权利要求30所述的方法,其特征在于:所述多种癌症状况包括以下癌症的一预定阶段:一肾上腺癌、一胆道癌、一膀胱癌、一骨/骨髓癌、一脑癌、一子宫颈癌、一结直肠癌、一食道癌、一胃癌、一头/颈癌、一肝胆癌、一肾癌、一肝癌、一肺癌、一卵巢癌、一胰脏癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一肾癌、一皮肤癌、一胃癌、一睾丸癌、一胸腺癌、一甲状腺癌、一子宫癌、一淋巴瘤、一黑色素瘤、一多发性骨髓瘤或一白血病。33.如权利要求1至中任一项所述的方法,其特征在于:所述疾病状况是一癌症的一预后。34.如权利要求33所述的方法,其特征在于:所述癌症的所述预后是所述癌症的一特定治疗的一预后。35.如权利要求33所述的方法,其特征在于:所述癌症的所述预后是癌症复发的一预后。36.如权利要求1至27中任一项所述的方法,其特征在于:所述疾病状况是一冠状动脉疾病。37.如权利要求1至36中任一项所述的方法,其特征在于:所述测试对象是一人。38.如权利要求1至37中任一项所述的方法,其特征在于:所述测试对象未被诊断为具
有所述疾病状况。39.如权利要求1至38中任一项所述的方法,其特征在于:从所述测试对象获得的所述第一生物样本以及从所述测试对象获得的所述第二生物样本独立地包括所述对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗水、眼泪、胸膜液、心包液或腹膜液。40.如权利要求1至39中任一项所述的方法,其特征在于:从所述测试对象获得的所述第一生物样本以及从所述测试对象获得的所述第二生物样本均为血液样本。41.如权利要求1至39中任一项所述的方法,其特征在于:从所述测试对象获得的所述第一生物样本以及从所述测试对象获得的所述第二生物样本均为血浆样本。42.如权利要求1至41中任一项所述的方法,其特征在于:所述第一测试时间点以及所述第二测试时间点相隔至少6个月、至少10个月或至少1年。43.如权利要求1至42中任一项所述的方法,其特征在于:所述第一多个核酸分子以及所述第二多个核酸分子是游离DNA分子。44.如权利要求1至43中任一项所述的方法,其特征在于:所述多个基因型特征包括从以下群组中选择的一个或多个特征:在一基因座的一单核苷酸变体的支持、在一基因座的一甲基化状态、在一基因座的一相对拷贝数、在一基因座的一等位基因比率、所述多个游离核酸分子的一片段大小度量、在一基因座的一甲基化模式及其一数学组合。45.如权利要求1至43中任一项所述的方法,其特征在于:所述多个基因型特征包括多个相对拷贝数,其中所述多个相对拷贝数中的每个相应相对拷贝数对应于多个基因座中的一不同基因座。46.如权利要求1至43中任一项所述的方法,其特征在于:所述多个基因型特征包括多个甲基化状态,其中所述多个甲基化状态中的每个甲基化状态对应于多个基因座中的一不同基因座。47.如权利要求1至43中任一项所述的方法,其特征在于:所述第一基因型数据结构的所述多个基因型特征包括一第一多个箱值,所述第一多个箱值中的每个相应箱值代表多个箱中的一对应箱;所述第一多个箱值中的每个相应箱值代表使用映射到多个箱中的所述对应箱的所述第一多个序列读取中的多个序列读取来鉴定的具有一预定甲基化模式的多个独特核酸片段的一数量;所述第二基因型数据结构的所述多个基因型特征包括一第二多个箱值,所述第二多个箱值中的每个相应箱值代表所述多个箱中的一对应箱;所述第二多个箱值中的每个相应箱值代表映射到所述多个箱中的所述对应箱的所述第二多个序列读取中的多个序列读取来鉴定的具有一预定甲基化模式的多个独特核酸片段的一数量;以及所述多个箱中的每个箱代表所述测试对象的一物种的一参考基因组的一非重叠区域。48.如权利要求47所述的方法,其特征在于:所述方法还包含对所述第一多个箱值中的每个相应箱值以及所述第二多个箱值中的每个相应箱值归一化。49.如权利要求48所述的方法,其特征在于:所述归一化至少部分地包括:确定所述第一多个箱值的一第一集中趋势量数;确定所述第二多个箱值的一第二集中趋势量数;
将所述第一多个箱值中的每个相应箱值替换为所述相应箱值除以所述第一集中趋势量数;以及将所述第二多个箱值中的每个相应箱值替换为所述相应箱值除以所述第二集中趋势量数。50.如权利要求49所述的方法,其特征在于:所述第一集中趋势量数是所述第一多个箱值的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数;以及所述第二集中趋势量数是所述第二多个箱值的一算术平均数、一加权平均数、一中程数、一中枢纽、一三均值、一极端值调整平均数、一平均数或一众数。51.如权利要求48所述的方法,其特征在于:所述归一化至少部分地包括:将所述第一多个箱值中的每个相应箱值替换为针对所述第一多个箱值中的一相应第一GC偏差校正的所述相应箱值;以及将所述第二多个箱值中的每个相应箱值替换为针对所述第二多个箱值中的一相应第二GC偏差校正的所述相应箱值。52.如权利要求51所述的方法,其特征在于:所述相应第一GC偏差由拟合到一第一多个二维点的一曲线或一直线的一第一方程定义,其中所述第一多个二维点中的每个相应二维点包括:(i)一第一值,所述第一值是所述参考基因组的对应区域的相应GC含量,由对应于所述相应二维点的所述第一多个箱中的所述相应箱代表;以及(ii)一第二值,所述第二值是所述相应箱的所述第一多个箱值中的所述箱值;将所述第一多个箱值中的每个相应箱值替换为针对所述第一多个箱值中的一相应第一GC偏差校正的所述相应箱值包括从所述相应箱值减去所述相应箱的一GC校正,所述GC校正源自由所述相应箱以及所述第一方程代表的所述多个物种的所述参考基因组的所述对应区域的所述GC含量;所述相应第二GC偏差由拟合到一第二多个二维点的一曲线或一直线的一第二方程定义,其中所述第二多个二维点中的每个相应二维点包括:(i)一第三值,所述第三值是所述多个物种的所述参考基因组的对应区域的相应GC含量,由对应于所述相应二维点的所述第二多个箱中的所述相应箱代表;以及(ii)一第四值,所述第四值是所述相应箱的所述第二多个箱值中的所述箱值;以及将所述第二多个箱值中的每个相应箱值替换为针对所述第二多个箱值中的一相应第二GC偏差校正的所述相应箱值包括从所述相应箱值减去所述相应箱的一GC校正,所述GC校正源自由所述相应箱以及所述第二方程代表的所述多个物种的所述参考基因组的所述对应区域的所述GC含量。53.如权利要求1至52中任一项所述的方法,其特征在于:所述第一多个核酸分子是DNA。54.如权利要求1至53中任一项所述的方法,其特征在于:所述第一多个核酸分子通过使用多个探针的一靶向DNA甲基化定序获得。55.如权利要求54所述的方法,其特征在于:所述多个探针与所述人类基因组中的100个或更多个基因座杂交。56.如权利要求54所述的方法,其特征在于:所述靶向DNA甲基化定序检测所述第一多
个核酸中的一个或多个5
‑
甲基胞嘧啶及/或5
‑
羟甲基胞嘧啶。57.如权利要求54所述的方法,其特征在于:所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶。58.如权利要求57所述的方法,其特征在于:所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个未甲基化胞嘧啶转化为对应的一个或多个尿嘧啶;以及所述DNA甲基化定序将所述一个或多个尿嘧啶读出为一个或多个对应的胸腺嘧啶。59.如权利要求57所述的方法,其特征在于:所述靶向DNA甲基化定序包括将所述第一多个核酸中的一个或多个甲基化胞嘧啶转化为对应的一个或多个尿嘧啶;以及所述DNA甲基化定序将所述一个或多个5
‑
甲基胞嘧啶或5
‑
羟甲基胞嘧啶读出为一个或多个对应的胸腺嘧啶。60.如权利要求59所述的方法,其特征在于:一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的转化包括一化学转化、一酶促转化或其组合。61.如权利要求1至60中任一项所述的方法,其特征在于:所述模型是在一组对象中进行训练的,其中在所述一组对象中的一第一部分具有所述疾病状况,并且在所述一组对象中的一第二部分不具有所述疾病状况。62.如权利要求1至61中任一项所述的方法,其特征在于:所述模型是一神经网络算法、一支持向量机算法、一朴素贝叶斯分类器算法、一最邻近搜索算法、一提升树算法、一随机森林算法、一决策树算法、一多分类逻辑回归算法或一线性回归算法。63.如权利要求1至61中任一项所述的方法,其特征在于:所述模型包括:(i)一输入层,用于接收所述多个基因型特征的多个值,其中所述多个基因型特征包括一第一数量的维度;(ii)一嵌入层,包括一组权重,其中所述嵌入层直接或间接接收所述输入层的输出,并且所述嵌入层的一输出是具有一第二数量的维度的一模型得分集,所述第二数量的维度小于所述第一数量的维度;以及(iii)一输出层,直接或间接从所述嵌入层接收所述模型得分集,其中所述第一模型得分集是在将所述第一基因型数据结构输入到所述输入层时所述嵌入层的所述模型得分集;并且所述第二模型得分集是在将所述第二基因型数据结构输入到所述输入层时所述嵌入层的所述模型得分集。64.如权利要求63所述的方法,其特征在于:所述评估(F)包括对照所述多个参考δ得分集通过逻辑回归训练使用一逻辑函数来评估所述测试δ得分集,其中所述多个参考δ得分中的每个参考δ得分集是基于以下(i)与(ii)之间的一差异针对在所述多个参考对象中的一相应参考对象:(i)一第一得分集,使用包括所述多个基因型特征的多个值的一第一相应参考基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在一相应第一时间点从所述相应参考对象获得的一第一相应生物样本来获取;以及
(ii)一第一二得分集,使用包括所述多个基因型特征的多个值的一第二相应基因型数据结构由所述模型的所述嵌入层来提供,所述多个值是使用在不同于所述第一相应时间点的一相应第二时间点从所述相应参考对象获得的一第二相应生物样本来获取。65.如权利要求63或64所述的方法,其特征在于:所述模型是一卷积神经网络。66.如权利要求63至65中任一项所述的方法,其特征在于:所述多个参考对象...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。