公开了一种利用液体活检数据的癌症诊断装置及计算机可读记录介质。癌症诊断装置包括:DNA分析部,从提取至血液的血浆获取ctDNA的序列信息,基于所获取的序列信息提取染色体的片段长度及拷贝数变异,使用获取的序列信息提取短臂及长臂的片段长度,并使用获取的序列信息提取线粒体的拷贝数变异;控制部,将染色体的片段长度及拷贝数变异、短臂及长臂的片段长度及线粒体的拷贝数变异中的至少一个作为预先学习的算法的输入值而输入,并将是否发生癌症作为输出值而输出,控制部将染色体的片段长度及拷贝数变异、短臂及长臂的片段长度以及线粒体的拷贝数变异中的至少一个作为人工智能算法的输入值而输入,并将癌症的阶段以及起源作为输出值而输出。源作为输出值而输出。源作为输出值而输出。
【技术实现步骤摘要】
利用液体活检数据的癌症诊断装置及计算机可读记录介质
[0001]本专利技术涉及一种利用液体活检(liquid biopsy)数据的癌症诊断(cancer diagnosis)装置及癌症诊断方法。
技术介绍
[0002]随着科技的发展,人们虽然生活在舒适区(in a comfort zone),然而并不具备基于他们个人特征的癌症的个性化治疗策略。微阵列和下一代测序是针对基因表达、DNA拷贝数变异(DNA copy number variations)以及微小RNA活性进行定量化的研究癌症的主要工具(carter)。
[0003]由于癌症是遗传疾病(inherited disease),因此进行基因的变异数据和表达数据的综合检查是理解致癌的机理、预测和预防癌症的发生、寻找可能的治疗方法的最佳手段之一。90年代初期,为了基因表达数据(gene expression data)的信息处理、数据分析、知识表征以及管理,科学家们开始对应用人工智能(artificial intelligence)进行研究。利用人工智能的分类(Classification)是数据分析的一种,其目的在于提供医生对癌症的更好的理解,以通过从基因表达数据中提取知识来进行临床决策。
[0004]一方面,虽然专家能够追踪知识,但是针对高维基因表达数据的追踪,仍是困难且耗时的。另一方面,算法可用于在没有专家的情况下提取知识,但不适合旨在获得良好的系统成果的情况。制定某种规则(Rule),即,在人工智能中,规则(Rule)是表达知识的良好方法,因此,基于规则的方法在癌症诊断中具有动量(gains momentum)。
[0005]尽管决策树(decision tree)敏感到以至于训练样本(training samples)内的小偏差(low bias)会导致树结构内出现严重错误(serious error),但仍被广泛用于生成包含在生物学上具有意义的单词(term)的规则。分类树(Classification Tree)的集成模型也像决策树一样敏感。基于数据算法而产生的规则更简单,但这些规则未能在不确定的情况下考虑基因表达的重复行为。
[0006]由小森(Komori)等提出的基于规则的系统可以应用于通过从基因表达数据生成直观知识来预测癌症,但是该方法在自我学习方面非常脆弱。混合模糊方法(hybrid fuzzy method)通过固定隶属(membership)函数的点而仅表现基因种群内的规则集合,因此无法完美地对模糊系统进行建模。
[0007]虽然遗传群算法(Swarm algorithm)具有更好的分类准确性,但由此产生的if
‑
then规则具有更多的输入(input)基因和语言学变量而让医生难以理解。蚁群蜂群(AntBee)算法可以通过产生可读性更强的规则集合来处理可解释性
‑
准确性的权衡关系(tradeoff),但是使用了利用更多的可调控制参数的更多的复杂运算,使得这种方法消耗了大量的CPU时间。
[0008]虽然模糊本体(fuzzy ontology)可以快速提取知识,但会根据在超高维基因表达数据中发现的不足的数据分布而劣化。模糊专业系统构建中的框架利用随机性全局优化过程(global optimization procedure)将crisp规则转换为模糊规则,然而利用各种癌症专
家来生成crisp规则也很困难。为了保持对基因表达数据分析的令人信服(convincing)的关注,最好处理多类别诊断。
[0009]在这样的方面,这期间的研究尝试了试图结合利用多数表决或模糊集成来导出最终决策的分类器。大部分集成分类法(ensemble classification method)将焦点仅对准基于分类成果的黑盒测试法而针对医学的基本问题的理解没有提供任何措施。
[0010]最近,为了利用由模糊系统提供的可解释性的重要优点,提出了利用结合方法的基于模糊规则的多重分类系统(FRBMS)。然而,相对少量的患者,存在大量基因组变量,因此理解数据变得困难。为了同时执行分类器的融合和选择,试图将遗传算法(genetical gorithm)利用于FRBMS,但未能满足基因表达数据的偏斜度(skewness)。
[0011]并且,当因实验不充分而导致未优化的鲁棒系统(robust system)的多重分类时,应避免欠拟合。为了构建虚假的多次遭遇诸如不正确且非线性的多类别值的有效(fruitful)的癌症诊断系统,必须要考虑利用严密的(rigorous)数据分析原则的理想且合适的技术。这些多种多样的算法只有在应用于合适的数据集时才能获得最优化的结果。
[0012]ctDNA的全基因组测序数据(whole genome sequencing data)包含许多分子的信息。
[0013]在大部分的分析中,大部分情况只解释了DNA突变信息或拷贝数变异(copy number variations)的差异,其余信息大多被丢弃,因此在大部分情况下没有关注线粒体(mitochondria)或短臂/长臂(P/Q
‑
arm)的拷贝数变异变化、总拷贝数变异的比较、片段的长度信息等。
技术实现思路
[0014]本专利技术的一个目的是提供一种能够通过优化的方法从液体活检数据确定癌症是否存在,并且判别癌症的起源以及阶段的癌症诊断装置以及癌症诊断方法。
[0015]本专利技术所要解决的技术问题并不局限于以上提及的技术问题,未提及的其他技术问题,本专利技术所属
的普通技术人员可从以下记载明确理解。
[0016]为了解决上述技术问题,利用液体活检数据并借由根据本专利技术的一实施例的装置来执行的癌症诊断方法包括以下步骤:a)从提取至血液的血浆获取ctDNA的序列信息(sequence information),并根据所获取的序列信息提取染色体的片段长度(fragment size)以及拷贝数变异(copy number variations);b)利用所获取的序列信息提取短臂以及长臂的片段长度;c)利用所获取的序列信息提取线粒体(mitochondria)的拷贝数变异;d)将所述染色体的片段长度及拷贝数变异、短臂的片段长度、长臂的片段长度以及线粒体的拷贝数变异中的至少一个作为预先学习的算法的输入值而输入,并且将是否发生癌症作为输出值而输出;以及e)将所述染色体的片段长度及拷贝数变异、短臂的片段长度、长臂的片段长度以及线粒体的拷贝数变异中的至少一个作为人工智能算法的输入值而输入,并将癌症的阶段以及起源作为输出值而输出。
[0017]在一实施例中,所述步骤a)包括以下步骤:从所述血浆中获取ctDNA的序列信息,并利用人类参照基因组数据(human reference genome data)进行序列整理;通过从所述序列信息中去除序列的质量信息、映射信息以及冗余信息(duplication)来进行整理;以及利用所述经整理的序列信息(sequence alignme本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种利用液体活检数据的癌症诊断装置,其特征在于,包括:DNA分析部,从提取至血液的血浆获取ctDNA的序列信息,基于所获取的序列信息提取染色体的片段长度以及拷贝数变异,使用所述获取的序列信息提取短臂及长臂的片段长度,并使用所述获取的序列信息提取线粒体的拷贝数变异;以及控制部,将所述染色体的片段长度以及拷贝数变异、短臂的片段长度、长臂的片段长度以及线粒体的拷贝数变异中的至少一个作为预先学习的算法的输入值而输入,并将是否发生癌症作为输出值而输出,并且,所述控制部将所述染色体的片段长度以及拷贝数变异、短臂的片段长度、长臂的片段长度以及线粒体的拷贝数变异中的至少一个作为人工智能算法的输入值而输入,并将癌症的阶段以及起源作为输出值而输出。2.根据权利要求1所述的癌症诊断设备,其特征在于,所述DNA分析部,从所述血浆获取ctDNA的序列信息,并利用人类参照基因组数据进行序列整理,通过从所述序列信息去除序列的质量信息、映射信息以及冗余信息来进行整理,利用所述经整理的序列信息提取常染色体以及性染色体的片段的第一长度至第二长度的长度。3.根据权利要求2所述的癌症诊断设备,其特征在于,所述DNA分析部以所述染色体的着丝粒为基准提取短臂及长臂的片段长度。4.根据权利要求2所述的癌症诊断设备,其特征在于,所述DNA分析部,利用所述经整理的序列信息提取GC含量和映射率为参考值以上的序列信息,将各个染色体区域划分为特定尺寸以上的bin区域以归一化各个区间的量,利用各个bin区域的平均值和标准偏差计算Z分数,通过将所述Z分数数值化来提取拷贝数变异。5.根据权利要求2所述的癌症诊断设备,其特征在于,所述DNA分析部,计算线粒体的拷贝数变异,计算常染色体的平均拷贝数变异,通过将线粒体的拷贝数变异除以常染色体的平均拷贝数变异来提取线粒体的拷贝数。6.根据权利要求1所述的癌症诊断设备,其特征在于,所述预先学习的算法包括:随机森林、支持向量机、额外梯度提升、决策树分类器、K
‑
最邻近分类算法、高...
【专利技术属性】
技术研发人员:权昌赫,
申请(专利权)人:起源自我株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。