一种癌症驱动基因预测方法技术

技术编号:30408824 阅读:13 留言:0更新日期:2021-10-20 11:22
本发明专利技术公开了一种癌症驱动基因预测方法。该方法包括:构建第一数据集和第二数据集,第一数据集表征基因特征和驱动基因突变类型之间的关联关系,第二数据集表征基因特征和驱动功能类型之间的关联关系;利用第一数据集训练第一机器学习分类模型,并预测新驱动基因;将第一机器学习分类模型预测出的新驱动基因对应的数据确认为第二预测数据集;利用第二数据集训练第二机器学习分类模型,并利用经训练的第二机器学习分类模型,对第二预测数据集进行预测,预测出的新驱动基因的驱动功能。利用本发明专利技术能有效提升预测准确度和模型应用的泛化能力。能力。能力。

【技术实现步骤摘要】
一种癌症驱动基因预测方法


[0001]本专利技术涉及机器学习
,更具体地,涉及一种癌症驱动基因预测方法。

技术介绍

[0002]驱动基因是与癌症发生发展相关的重要基因,基于驱动基因的精准医学是治疗癌症的重要方向。通过分析癌症形成过程中细胞内基因表达水平的变化,可以发现有些基因能够对肿瘤起控制作用,如果抑制这些基因表达或基因通路,就可以终止肿瘤发展的相关事件,这些基因被称为癌症驱动基因。驱动基因是决定癌症的最主要内部原因,针对驱动基因靶向治疗,癌症治疗就可能事半功倍。在精准医疗时代,识别患者肿瘤细胞的驱动突变是一项中心任务。
[0003]在现有技术中,基于TCGA数据库的基因突变信息,利用算法将导致基因突变的类型分为驱动基因和非驱动基因。这种基因分类算法相对简单,并缺乏实际验证,且没有进一步细化预测驱动基因的功能,预测的正确率无法满足临床需求。

技术实现思路

[0004]本专利技术的目的是克服上述现有技术的缺陷,提供一种癌症驱动基因预测方法,该方法包括以下步骤:
[0005]获取肿瘤基因信息并构建第一数据集,该第一数据集表征基因特征和驱动基因突变类型之间的关联关系;
[0006]针对所述第一数据集,将已知的驱动基因突变类型对应的数据划分为第一训练数据集和第一测试数据集,并将未知的驱动基因突变类型对应的数据确认为第一预测数据集;
[0007]利用所述第一训练数据集和所述第一测试数据集,训练第一机器学习分类模型;
[0008]利用经训练的第一机器学习分类模型,对第一预测数据集进行预测,预测出的新驱动基因;
[0009]获取肿瘤驱动基因信息并构建第二数据集,该第二数据集表征基因特征和驱动功能类型之间的关联关系;
[0010]针对所述第二数据集,将已知的驱动功能对应的数据划分为第二训练数据集和第二测试数据集;将第一机器学习分类模型预测出的新驱动基因对应的数据确认为第二预测数据集;
[0011]利用所述第二训练数据集和所述第二测试数据集,训练第二机器学习分类模型;
[0012]利用经训练的第二机器学习分类模型,对第二预测数据集进行预测,预测出的新驱动基因的驱动功能。
[0013]与现有技术相比,本专利技术的优点在于,根据基因突变的信息,利用两个机器学习分类模型对癌症驱动基因进行预测,预测出哪些突变基因为癌症驱动基因,并对预测出的各个驱动基因及其功能进行假设检验,判断该基因是否为肿瘤抑制驱动基因或者致癌驱动基
因。进一步地,可将各驱动基因与具体某类癌症联系起来,提高了预测准确率,能够促进肿瘤预先诊断的发展。
[0014]通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。
附图说明
[0015]被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。
[0016]图1是根据本专利技术一个实施例的癌症驱动基因预测方法的流程图;
[0017]图2是根据本专利技术一个实施例的癌症驱动基因预测方法的过程示意图;
[0018]图3是根据本专利技术一个实施例的实验结果示意图;
[0019]图4是根据本专利技术一个实施例的实验结果示意图。
具体实施方式
[0020]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。
[0021]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0022]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0023]在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
[0024]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0025]结合图1和图2所示,本专利技术所提供的癌症驱动基因预测方法包括以下步骤。
[0026]步骤S110,获取肿瘤基因信息,并构建第一数据集和第二数据集,其中,第一数据集表征基因特征和驱动基因突变类型之间的关联关系,第二数据集表征基因特征和驱动功能类型之间的关联关系。
[0027]具体地,该步骤S110包括以下子步骤:
[0028]步骤S111,从TCGA数据库获取肿瘤基因信息。
[0029]例如,肿瘤基因信息包括但不限于染色体位置,突变起点位置,突变终点位置,突变类型,突变方式等。
[0030]在一个实施例中,利用从TCGA数据库获取的肿瘤基因信息,生成下表1的数据格式。
[0031]表1基因特征
[0032][0033]在表1中,序号用于标识各条记录的顺序,可从1开始顺序编号。基因特征可包括染色体位置,突变起点位置,突变终点位置,突变类型,突变方式等。在实际应用中,为提高后续模型预测的精确度,可选择更多的基因特征。
[0034]步骤S112,获取驱动基因分类信息。
[0035]例如,从现有文献中获取确定(即已知的)的驱动突变和非驱动突变的基因突变,并整合数据格式,如下表2。
[0036]表2基因特征和驱动突变类型
[0037][0038]在表2中,驱动基因类型标记为0,表示非驱动突变,标记为1表示驱动突变。
[0039]步骤S113,获取驱动基因功能信息。
[0040]例如,从现有文献中获取确定(即已知的)的驱动基因突变的功能类型,用于表征属于肿瘤抑制基因或致癌基因。首先,将表2中确定基因驱动类型为1,也即驱动突变的基因筛选出来,整合成如表3所示。其次,将从文献中获取的已知驱动功能填加到表3的最后一列。
[0041]表3基因特征和驱动功能
[0042][0043]在表3中,驱动基因类型为1,即是现有文献已经确定的驱动基因。驱动功能标记为0表示肿瘤抑制基因,标记为1表示致癌基因。
[0044]步骤S120,构建第一贝叶斯机器学习分类模型,利用获得的第一数据集进行训练,预测驱动基因。
[0045]在该步骤中,构建机器学习分类算法模型,根据上述获取的表2数据集分析以下各项:
[0046]1)哪些基因特征使其成为非驱动突变(驱动基因标记为0);
[0047]2)哪些基因特征使其成为驱动突变(驱动基因标记为1);
[0048]具体地,在一个实施例中,该步骤S120包括以下子步骤:
[0049]步骤S121,建立训练数据集和测试数据集
[0050]根据表2,将驱动基因类型标记为0和1的基因特征数据分别随机筛选出75%,合并作为训练数据集;同时,将剩余数据合并作为测试数据集。
[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种癌症驱动基因预测的方法,包括以下步骤:获取肿瘤基因信息并构建第一数据集,该第一数据集表征基因特征和驱动基因突变类型之间的关联关系;针对所述第一数据集,将已知的驱动基因突变类型对应的数据划分为第一训练数据集和第一测试数据集,并将未知的驱动基因突变类型对应的数据确认为第一预测数据集;利用所述第一训练数据集和所述第一测试数据集,训练第一机器学习分类模型;利用经训练的第一机器学习分类模型,对第一预测数据集进行预测,预测出的新驱动基因;获取肿瘤驱动基因信息并构建第二数据集,该第二数据集表征基因特征和驱动功能类型之间的关联关系;针对所述第二数据集,将已知的驱动功能对应的数据划分为第二训练数据集和第二测试数据集;将第一机器学习分类模型预测出的新驱动基因对应的数据确认为第二预测数据集;利用所述第二训练数据集和所述第二测试数据集,训练第二机器学习分类模型;利用经训练的第二机器学习分类模型,对第二预测数据集进行预测,预测出的新驱动基因的驱动功能。2.根据权利要求1所述的方法,其中,所述第一机器学习分类模型和所述第二机器学习分类模型为朴素贝叶斯模型。3.根据权利要求2所述的方法,其中,根据以下步骤训练所述第一机器学习分类模型:通过对第一训练数据集的基因特征进行分析,建立似然表,该似然表反映基因特征与各驱动基因类型之间的关联程度;利用所述似然表,对每个基因...

【专利技术属性】
技术研发人员:代小勇苏明
申请(专利权)人:海南精准医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1