一种基于集成特征选择的癌症甲基化数据分类方法技术

技术编号:27414313 阅读:25 留言:0更新日期:2021-02-21 14:30
本发明专利技术属于数据处理技术领域,具体涉及一种基于集成特征选择的癌症甲基化数据分类方法,包括下列步骤:输入甲基化位点的癌症和正常样本数据集,所述数据集中,每行表示被测个体,并被标注为正常或者癌症,每列表示特征位点;数据预处理,滤除所述数据集中的各种缺失值;通过集成特征选择方法来实现稳固的差异甲基化位点的选取;基于稳固的差异甲基化位点训练多分类器模型,根据每个分类器的预测结果进行投票,得到最终的分类判别结果;输出最终的分类结果。本发明专利技术能有效解决高通量的甲基化数据的差异位点识别以及对于潜在不确定性样本的分类。本发明专利技术用于癌症甲基化数据的分类。本发明专利技术用于癌症甲基化数据的分类。

【技术实现步骤摘要】
一种基于集成特征选择的癌症甲基化数据分类方法


[0001]本专利技术属于数据处理
,具体涉及一种基于集成特征选择的癌症甲基化数据分类方法。

技术介绍

[0002]随着计算机和测序技术的发展,产生了越来越多的大规模生物学数据,如何挖掘其中蕴含的价值是进一步发展精准医疗的重要手段之一。DNA甲基化作为一种广泛研究的表观遗传标记,在肿瘤发生中起着至关重要的作用。高通量测序技术的进步,如Infinium 450K平台,使得以单CpG位点分辨率提供基因组规模的DNA甲基化数据成为可能。在此基础上,如何鉴别在正常和癌症样本中具有差异化表达的位点并且借此区分癌症和正常人的表观遗传差异能够提升人类对癌症早期的发现和预防。但是,针对目前能够获得的数据,其样本和位点数量之间极不平衡(大约1:1000),这就况导致大规模分析癌症病人与正常人之间的甲基化数据变得尤为困难。目前已有基于大规模甲基化数据区分癌症和正常样本的方法,大多基于简单特征预处理加单个分类器,使得难以精确地区别癌症和正常样本,并且难以获得对于区分癌症和正常样本至关重要的差异甲基化位点。

技术实现思路

[0003]针对上述现有的基于大规模甲基化数据区分癌症和正常样本的方法难以精确地区别癌症和正常样本的技术问题,本专利技术提供了一种分类准确度高、识别能力强、效率高的基于集成特征选择的癌症甲基化数据分类方法。
[0004]为了解决上述技术问题,本专利技术采用的技术方案为:
[0005]一种基于集成特征选择的癌症甲基化数据分类方法,包括下列步骤
[0006]S1、输入甲基化位点的癌症和正常样本数据集,所述数据集中,每行表示被测个体,并被标注为正常或者癌症,每列表示特征位点;
[0007]S2、数据预处理,滤除所述数据集中的各种缺失值;
[0008]S3、通过集成特征选择方法来实现稳固的差异甲基化位点的选取;
[0009]S4、基于稳固的差异甲基化位点训练多分类器模型,根据每个分类器的预测结果进行投票,得到最终的分类判别结果;
[0010]S5、输出最终的分类结果。
[0011]所述S2中数据预处理的方法为:包括下列步骤:
[0012]S2.1、查找数据中的缺失值,若原数据中存在缺失值,滤除包含该缺失值的列或者特征;
[0013]S2.2、对不含缺失值的数据进行批次效应的校正;
[0014]S2.3、滤除方差最小的位点集,通过计算位点在所有测得的样本中甲基化值的方差,对所有位点按照方差从大到小进行排序,然后舍去排在末尾的1/3左右的位点。
[0015]所述S2.2中采用经验贝叶斯EB方法消除批次效应的影响。
[0016]所述S3中集成特征选择方法为:包括下列步骤:
[0017]S3.1、引入样本多样性,所述样本多样性通过对原始数据进行等比列的多次随机采样,得到不同的样本子集,然后在样本子集上应用特征选择方法以获得不同的特征位点集合;
[0018]S3.2、引入函数多样性,即通过在同一个样本子集上应用不同的特征选择方法以获得不同的差异甲基化位点集合;
[0019]S3.3、采用多种特征选择方法提取上述两种差异位点集合,每一个样本子集,得到上述两个特征位点子集,取二者的并集,得到每个样本子集对应的特征子集,最后将所有样本子集对应的特征子集再求交集得到稳固的差异位点集合。
[0020]所述S4中得到最终的分类判别结果的方法为:包括下列步骤:
[0021]S4.1、根据集成特征选择方法的结果,训练逻辑回归,逻辑回归分类器通过最大化似然函数并由sigmoid函数将输出整合到关于{0,1}概率的分布,从而实现对样本的划分;
[0022]S4.2、通过支持向量机对于样本的分类,所述支持向量机通过搜寻样本中的支持向量,最大化两类样本的距离实现对样本的划分;
[0023]S4.3、通过随机森林分类器对于样本的分类,所述随机森林分类器通过树的结构,根据特征参数的取值大小,逐步实现对样本的划分;
[0024]S4.4、针对上述三种分类器的预测结果,通过投票的方式进行整合。
[0025]本专利技术与现有技术相比,具有的有益效果是:
[0026]本专利技术能有效解决高通量的甲基化数据的差异位点识别以及对于潜在不确定性样本的分类。通过集成特征选择方法,能够有效识别输入甲基化数据中稳固的差异甲基化位点,并且基于这些稳固的差异甲基化位点实现对于样本的分类。相比传统基于单一特征选择和单一分类器的方法,本专利技术在差异位点识别过程中引入集成特征选择,能够获得更可靠且更具区分度的差异甲基化位点,同时多分类器的投票融合方式也能有效提升对于待评估样本的分类准确度。
附图说明
[0027]图1为本专利技术的工作流程图;
[0028]图2为本专利技术的主要步骤示意图;
[0029]图3为本专利技术的集成特征选择方法流程示意图。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]一种基于集成特征选择的癌症甲基化数据分类方法,如图1所示,包括下列步骤:
[0032]步骤1、以Infinium 450K平台数据为例,输入包含大规模甲基化位点的癌症和正常样本数据集,其中行表示样本即被测个体,并被标注为正常或者癌症,列表示特征即位点;
[0033]步骤2、输入数据后,首先进行预处理。第一步为查找数据中的缺失值,若原数据中存在缺失值,考虑到数据维度较高,通过包含几十万个测量位点,因此则滤除包含该缺失值的列或者特征;第二步为对不含缺失值的数据进行批次效应的校正。其中批次效应是指现实中一次测量的样本是有限的,可能要相隔几天或几个月才能测量更多样品,于是系统“批量效应”或非生物差异,使得不同批次的样品不直接可比,这种与生物学无关因素的变异可能会导致的数据误差。这里我们使用一种经验贝叶斯(EB)方法,来消除批次效应的影响。EB方法在微阵列问题中表现非常好,因为它们在样品尺寸小时能够鲁棒地处理高维数据。通过EB方法处理过的数据就可以用于后续的计算分析。第三步为滤除方差最小的位点集。这里通过计算每一列特征或者说位点在所有测得的样本中甲基化值的方差,对所有位点按照方差从大到小进行排序,然后舍去排在末尾的1/3左右的位点。一方面,对于方差小的位点,它们在正常和癌症样本中均难以表现出差异,因此无法指导后续的分类;另一方面,滤除方差小的位点可以减少数据的维度,从而在后续的计算分析中节省计算资源。
[0034]步骤3、在完成上述的预处理之后,如图3所示,我们通过集成特征选择方法来实现稳固的差异甲基化位点的选取。集成特征选择方法从两个角度出发实现稳固的特征选择,首先,我们引入“样本多样性”,即通过对原始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成特征选择的癌症甲基化数据分类方法,其特征在于:包括下列步骤:S1、输入甲基化位点的癌症和正常样本数据集,所述数据集中,每行表示被测个体,并被标注为正常或者癌症,每列表示特征位点;S2、数据预处理,滤除所述数据集中的各种缺失值;S3、通过集成特征选择方法来实现稳固的差异甲基化位点的选取;S4、基于稳固的差异甲基化位点训练多分类器模型,根据每个分类器的预测结果进行投票,得到最终的分类判别结果;S5、输出最终的分类结果。2.根据权利要求1所述的一种基于集成特征选择的癌症甲基化数据分类方法,其特征在于:所述S2中数据预处理的方法为:包括下列步骤:S2.1、查找数据中的缺失值,若原数据中存在缺失值,滤除包含该缺失值的列或者特征;S2.2、对不含缺失值的数据进行批次效应的校正;S2.3、滤除方差最小的位点集,通过计算位点在所有测得的样本中甲基化值的方差,对所有位点按照方差从大到小进行排序,然后舍去排在末尾的1/3左右的位点。3.根据权利要求2所述的一种基于集成特征选择的癌症甲基化数据分类方法,其特征在于:所述S2.2中采用经验贝叶斯EB方法消除批次效应的影响。4.根据权利要求1所述的一种基于集成特征选择的癌症甲基化数据分类方法,其特征在于:所述S3中集成特征选择方法为:包括下列...

【专利技术属性】
技术研发人员:潘晓光田奇董虎弟陈智娇白丽霞
申请(专利权)人:山西三友和智慧信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1