一种癌症驱动基因预测方法技术

技术编号：30408824 阅读：13 留言：0更新日期：2021-10-20 11:22

本发明专利技术公开了一种癌症驱动基因预测方法。该方法包括：构建第一数据集和第二数据集，第一数据集表征基因特征和驱动基因突变类型之间的关联关系，第二数据集表征基因特征和驱动功能类型之间的关联关系；利用第一数据集训练第一机器学习分类模型，并预测新驱动基因；将第一机器学习分类模型预测出的新驱动基因对应的数据确认为第二预测数据集；利用第二数据集训练第二机器学习分类模型，并利用经训练的第二机器学习分类模型，对第二预测数据集进行预测，预测出的新驱动基因的驱动功能。利用本发明专利技术能有效提升预测准确度和模型应用的泛化能力。能力。能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种癌症驱动基因预测方法

[0001]本专利技术涉及机器学习
，更具体地，涉及一种癌症驱动基因预测方法。

技术介绍

[0002]驱动基因是与癌症发生发展相关的重要基因，基于驱动基因的精准医学是治疗癌症的重要方向。通过分析癌症形成过程中细胞内基因表达水平的变化，可以发现有些基因能够对肿瘤起控制作用，如果抑制这些基因表达或基因通路，就可以终止肿瘤发展的相关事件，这些基因被称为癌症驱动基因。驱动基因是决定癌症的最主要内部原因，针对驱动基因靶向治疗，癌症治疗就可能事半功倍。在精准医疗时代，识别患者肿瘤细胞的驱动突变是一项中心任务。
[0003]在现有技术中，基于TCGA数据库的基因突变信息，利用算法将导致基因突变的类型分为驱动基因和非驱动基因。这种基因分类算法相对简单，并缺乏实际验证，且没有进一步细化预测驱动基因的功能，预测的正确率无法满足临床需求。

技术实现思路

[0004]本专利技术的目的是克服上述现有技术的缺陷，提供一种癌症驱动基因预测方法，该方法包括以下步骤：
[0005]获取肿瘤基因信息并构建第一数据集，该第一数据集表征基因特征和驱动基因突变类型之间的关联关系；
[0006]针对所述第一数据集，将已知的驱动基因突变类型对应的数据划分为第一训练数据集和第一测试数据集，并将未知的驱动基因突变类型对应的数据确认为第一预测数据集；
[0007]利用所述第一训练数据集和所述第一测试数据集，训练第一机器学习分类模型；
[0008]利用经训练的第一机器学习分类模型，对...

【技术保护点】

【技术特征摘要】
1.一种癌症驱动基因预测的方法，包括以下步骤：获取肿瘤基因信息并构建第一数据集，该第一数据集表征基因特征和驱动基因突变类型之间的关联关系；针对所述第一数据集，将已知的驱动基因突变类型对应的数据划分为第一训练数据集和第一测试数据集，并将未知的驱动基因突变类型对应的数据确认为第一预测数据集；利用所述第一训练数据集和所述第一测试数据集，训练第一机器学习分类模型；利用经训练的第一机器学习分类模型，对第一预测数据集进行预测，预测出的新驱动基因；获取肿瘤驱动基因信息并构建第二数据集，该第二数据集表征基因特征和驱动功能类型之间的关联关系；针对所述第二数据集，将已知的驱动功能对应的数据划分为第二训练数据集和第二测试数据集；将第一机器学习分类模型预测出的新驱动基因对应的数据确认为第二预测数据集；利用所述第二训练数据集和所述第二测试数据集，训练第二机器学习分类模型；利用经训练的第二机器学习分类模型，对第二预测数据集进行预测，预测出的新驱动基因的驱动功能。2.根据权利要求1所述的方法，其中，所述第一机器学习分类模型和所述第二机器学习分类模型为朴素贝叶斯模型。3.根据权利要求2所述的方法，其中，根据以下步骤训练所述第一机器学习分类模型：通过对第一训练数据集的基因特征进行分析，建立似然表，该似然表反映基因特征与各驱动基因类型之间的关联程度；利用所述似然表，对每个基因...

【专利技术属性】
技术研发人员：代小勇，苏明，
申请(专利权)人：海南精准医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人