System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法技术_技高网

使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法技术

技术编号:41097824 阅读:3 留言:0更新日期:2024-04-25 13:55
本发明专利技术涉及一种通过使用细胞游离核酸片段的末端序列基序频率和大小来诊断癌症和预测癌症类型的方法,更具体地,涉及一种通过使用从生物样品中提取核酸,基于通过获得和比对序列信息获得的读段,导出核酸片段的末端序列基序频率和核酸片段的大小,将其生成矢量化数据,将所述数据输入经训练的人工智能模型,并分析计算值来诊断癌症和预测癌症类型的方法。因为根据本发明专利技术,通过使用细胞游离核酸片段的末端序列基序频率和大小来诊断癌症和预测癌症类型的方法产生矢量化数据并通过使用AI算法来分析数据,所以该方法即使在读取覆盖率低的情况下也显示出高灵敏度和准确性,因此是有用的。

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及一种使用细胞游离核酸(cell-free nucleic acid)的片段末端基序频率和大小来诊断癌症和预测癌症类型的方法,更优选地,涉及一种通过从生物样品中提取核酸以获得序列信息(读段(read)),基于比对的读段获得核酸片段的末端基序频率和大小,将核酸片段的末端基序频率和大小转换成矢量化数据,将矢量化数据输入到经训练的人工智能模型中并分析所得计算值来诊断癌症和预测癌症类型的方法。


技术介绍

1、临床实践中的癌症诊断通常在病史检查、体格检查和临床评估后通过组织活检来进行。只有当癌细胞的数量为10亿或更多且癌的直径为1cm或更大时,基于临床试验的癌症诊断才是可行的。在这种情况下,癌细胞已经具有转移的潜力,并且其中至少一半已经转移。此外,组织活检是侵入性的,这不利地引起患者相当大的不适,并且通常无法适应癌症治疗。此外,用于监测由癌直接或间接产生的物质的肿瘤标志物用于癌症筛查。然而,肿瘤标志物的准确度有限,因为即使在存在癌的情况下超过一半的肿瘤标志物筛查结果也显示正常,并且即使在不存在癌的情况下肿瘤标志物筛查结果也通常显示阳性。

2、最近,响应于对癌症诊断方法的要求,诸如相对容易、非侵入性、高灵敏度和高特异性,使用来自患者的体液的液体活检已经广泛用于癌症诊断和随访复查。液体活检是一种非侵入性的诊断方法,其作为传统侵入性诊断和检查方法的替代方法引起了极大的关注。

3、最近,已经开发了一种使用从液体活检获得的细胞游离dna来诊断癌症和确定癌症类型的方法(美国专利号10975431,zhou,xionghui et al.,biorxiv,2020.07.16.201350)。具体地,已知一种分析细胞游离核酸末端序列的基序频率信息并将该信息用于癌症诊断、产前诊断或器官移植监测的方法(wo 2020-125709,peiyong jianget al.,cancer discovery,vol.10,2020,pp.664-673)。

4、同时,人工神经网络是在软件或硬件中实现的计算模型,其使用通过连接线连接的大量人工神经元来模拟生物系统的计算能力。人工神经网络使用人工神经元,其以简化的形式表示生物神经元的功能。人工神经网络通过具有相应连接强度的连接线互连人工神经元来进行人类认知或学习过程。术语“连接强度”可与“连接权重”互换,是指连接线的预定值。人工神经网络学习可以分类为监督学习和无监督学习。监督学习是一种向神经网络提供输入数据和与其对应的输出数据,并更新连接线的连接强度,从而输出与输入数据对应的输出数据的方法。代表性的学习算法包括δ规则和反向传播学习。无监督学习是一种其中人工神经网络仅使用输入数据独立地学习连接强度而没有目标值的方法。无监督学习基于输入模式之间的相关性更新连接权重。

5、将大量数据应用于机器学习会导致所谓的“维数灾难”问题,这是由于复杂性的增加和更多维数的增加。换句话说,当所需数据的维数趋近于无穷大时,任意两点之间的距离也趋近于无穷大,并且数据量(即,密度)在高维空间中变得更低,从而无法正确反映数据的特征(richard bellman,dynamic programming,2003,chapter 1)。最近发展的深度学习具有在输入层和输出层之间存在隐藏层的结构,并且已经报道通过用非线性函数处理从输入层传输的变量值的线性组合,极大地提高了分类器在高维数据诸如图像、视频和信号数据方面的性能(hinton,geoffrey,等人,ieee signal processing magazine vol.29.6,pp.82-97,2012)。

6、各个专利(kr 10-2018-124550、kr 10-2019-7038076、kr 10-2019-0003676和kr10-2019-0001741)描述了人工神经网络在生物领域中的用途,但是缺乏通过基于血液中细胞游离dna(cfdna)测序信息的人工神经网络分析来预测癌症类型的方法的研究。

7、因此,作为解决上述问题和开发基于人工智能以高灵敏度和准确度诊断癌症和预测癌症类型的方法的广泛和认真努力的结果,本专利技术人发现,通过基于细胞游离核酸片段的末端基序和长度的信息生成矢量化数据并使用训练的人工智能模型分析该数据可以以高灵敏度和准确度实现癌症诊断和癌症类型预测,并且基于该发现完成了本专利技术。


技术实现思路

1、因此,本专利技术的一个目的是提供一种使用细胞游离核酸片段的末端基序频率和大小来诊断癌症和预测癌症类型的方法。

2、本专利技术的另一个目的是提供一种使用细胞游离核酸片段的末端基序频率和大小来诊断癌症和预测癌症类型的装置。

3、本专利技术的另一个目的是提供一种计算机可读存储介质,其包括配置为由处理器执行的指令,用于通过上述方法诊断癌症和预测癌症类型。

4、根据本专利技术的一方面,提供了一种提供信息用于诊断癌症和预测癌症类型的方法,所述方法包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断(cut-off)值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。

5、根据本专利技术的另一方面,提供了一种诊断癌症和预测癌症类型的方法,所述方法包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢量化数据,(e)将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将分析的输出值与截断值进行比较,以确定癌症是否发生,以及(f)通过比较输出值来预测癌症类型。

6、根据本专利技术的另一方面,提供了一种诊断癌症和预测癌症类型的装置,所述装置包括:解码器,配置成从生物样品中提取核酸并解码序列信息;比对器,配置成将解码的序列与参考基因组数据库进行比对;核酸片段分析器,配置成基于比对的序列获得核酸片段的末端基序频率和大小;数据生成器,配置成使用核酸片段的末端基序频率和大小生成矢量化数据;癌症诊断单元,配置成将所生成的矢量化数据输入到经训练的人工智能模型中,分析所述数据,并将所得的输出值与截断值进行比较,从而确定癌症是否发生;以及癌症类型预测器,配置成分析输出值并且从而预测癌症类型。

7、根据本专利技术的另一方面,提供了一种计算机可读存储介质,其包括被配置为由处理器执行的指令,用于通过以下步骤诊断癌症和预测癌症类型,所述步骤包括(a)从生物样品中提取核酸以获得序列信息,(b)将序列信息(读段)与参考基因组数据库进行比对,(c)基于比对的序列信息(读段)获取核酸片段的末端基序频率和大小,(d)使用核酸片段的基序频率和大小生成矢本文档来自技高网...

【技术保护点】

1.一种提供信息用于诊断癌症和预测癌症类型的方法,所述方法包括:

2.一种用于诊断癌症和预测癌症类型的方法,所述方法包括:

3.根据权利要求1或2所述的方法,其中,步骤(a)包括:

4.根据权利要求1所述的方法,其中,步骤(c)中各个所述核酸片段的末端基序在所述核酸片段的两端处具有2至30个碱基的序列模式。

5.根据权利要求1或2所述的方法,其中,步骤(c)中所述核酸片段的末端基序的频率对应于在所有所述核酸片段中检测到的基序数量。

6.根据权利要求1或2所述的方法,其中,步骤(c)中各个所述核酸片段的大小对应于所述核酸片段从5'端到3'端的碱基数量。

7.根据权利要求1或2所述的方法,其中,步骤(d)中的所述矢量化数据由绘制在X轴上的所述核酸片段的末端基序的类型和绘制在Y轴上的所述核酸片段的大小来表示。

8.根据权利要求7所述的方法,其中,所述矢量化数据还包括所述核酸片段的末端基序的频率总和以及所述核酸片段的大小的频率总和。

9.根据权利要求1或2所述的方法,其中,步骤(e)中的所述人工智能模型被训练以区分健康受试者的矢量化数据和癌症患者的矢量化数据。

10.根据权利要求9所述的方法,其中,所述人工智能模型选自由以下组成的组:卷积神经网络(CNN)、深度神经网络(DNN)和循环神经网络(RNN)。

11.根据权利要求10所述的方法,其中,当所述人工智能模型是CNN时,用于执行二分类的损失函数由下面的方程式1表示,并且用于执行多类分类的损失函数由下面的方程式2表示:

12.根据权利要求1或2所述的方法,其中,步骤(e)中由所述人工智能模型从分析输入的矢量化数据所得的输出值是深度概率指数(DPI)。

13.根据权利要求1或2所述的方法,其中,步骤(d)的所述截断值是0.5,并且当所述输出值是0.5或更大时,确定癌症已经发生。

14.根据权利要求1或2所述的方法,其中,通过比较所述输出值来预测所述癌症类型的步骤(f)包括将在为各个癌症类型计算的DPI中显示最高DPI的癌症类型确定为所述样品的所述癌症类型。

15.一种用于诊断癌症和预测癌症类型的装置,所述装置包括:

16.一种计算机可读存储介质,包括配置成由处理器执行的指令,用于通过包括以下的步骤诊断癌症和预测癌症类型:

...

【技术特征摘要】
【国外来华专利技术】

1.一种提供信息用于诊断癌症和预测癌症类型的方法,所述方法包括:

2.一种用于诊断癌症和预测癌症类型的方法,所述方法包括:

3.根据权利要求1或2所述的方法,其中,步骤(a)包括:

4.根据权利要求1所述的方法,其中,步骤(c)中各个所述核酸片段的末端基序在所述核酸片段的两端处具有2至30个碱基的序列模式。

5.根据权利要求1或2所述的方法,其中,步骤(c)中所述核酸片段的末端基序的频率对应于在所有所述核酸片段中检测到的基序数量。

6.根据权利要求1或2所述的方法,其中,步骤(c)中各个所述核酸片段的大小对应于所述核酸片段从5'端到3'端的碱基数量。

7.根据权利要求1或2所述的方法,其中,步骤(d)中的所述矢量化数据由绘制在x轴上的所述核酸片段的末端基序的类型和绘制在y轴上的所述核酸片段的大小来表示。

8.根据权利要求7所述的方法,其中,所述矢量化数据还包括所述核酸片段的末端基序的频率总和以及所述核酸片段的大小的频率总和。

9.根据权利要求1或2所述的方法,其中,步骤(e)中的所述人工智能模型被训练以区分健康受试者的矢量化数据...

【专利技术属性】
技术研发人员:赵银海李泰林朴淑莲
申请(专利权)人:GC基因组株式会社
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1