基于重采样的特征选择方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36408538 阅读:55 留言:0更新日期:2023-01-18 10:17
本发明专利技术提供一种基于重采样的特征选择方法、装置、电子设备和存储介质,其中方法包括:数据获取步骤:获取多个样本甲基化数据;特征选择步骤:采用有放回的重采样方式从多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对采样甲基化数据进行统计分析,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合采样甲基化数据对多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将多个候选甲基化位点置于特征池中;特征确认步骤:重复执行特征选择步骤预设次数后,基于特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。本发明专利技术增加了特征选择的鲁棒性和下游任务的性能。征选择的鲁棒性和下游任务的性能。征选择的鲁棒性和下游任务的性能。

【技术实现步骤摘要】
基于重采样的特征选择方法、装置、电子设备和存储介质


[0001]本专利技术涉及生物数据处理
,尤其涉及一种基于重采样的特征选择方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机和测序技术的发展,产生了越来越多的大规模生物学数据,DNA甲基化作为一种广泛研究的表观遗传标记,在肿瘤发现中起着至关重要的作用。在此基础上,如何鉴别在正常和癌症样本中具有差异化表达的位点并且借此区分癌症和正常人的表观遗传差异能够提升人类对癌症早期的发现和预防。
[0003]然而,目前能够获得的甲基化数据存在样本量和甲基化位点数量极不均衡的情况,尤其是甲基化位点数量数以几十万计,而样本数量的数量级仅在百例,导致过多的甲基化位点的位点数据扰乱了分类模型的训练方向,分类模型无从从众多的甲基化位点中学习对于区分癌症样本和正常样本的关键特征。因此,对众多的甲基化位点进行特征选择,剔除不相关或冗余的甲基化位点,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。可惜的是,对于生物信息学领域的甲基化数据而言,存在小样本而特征量特别大的情况,在这种情况下,单纯的统计学方法或模型方法往往会存在一定的过拟合,从而难以获取泛化性良好的特征。

技术实现思路

[0004]本专利技术提供一种基于重采样的特征选择方法、装置、电子设备和存储介质,用以解决现有技术中存在过拟合现象,从而难以获取泛化性良好的甲基化位点的缺陷。
[0005]本专利技术提供一种基于重采样的特征选择方法,包括:数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。
[0006]根据本专利技术提供的一种基于重采样的特征选择方法,所述基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点,具体包括:针对任一甲基化位点,将所述采样甲基化数据中所述任一甲基化位点对应的位点数据划分为正样本组和负样本组;其中,所述正样本组由所述采样甲基化数据中的正样本
数据中所述任一甲基化位点对应的位点数据构成,所述负样本组由所述采样甲基化数据中的负样本数据中所述任一甲基化位点对应的位点数据构成;计算所述任一甲基化位点的正样本组和负样本组对应的组间方差和组内方差;若所述任一甲基化位点的正样本组和负样本组对应的组间方差大于组内方差,则确定所述任一甲基化位点为初筛甲基化位点。
[0007]根据本专利技术提供的一种基于重采样的特征选择方法,所述基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,具体包括:获取所述采样甲基化数据中所述初筛甲基化位点对应的位点数据;对所述采样甲基化数据中所述初筛甲基化位点对应的位点数据进行Lasso回归分析,构建特征选择模型;基于构建得到的特征选择模型中回归系数不为0的初筛甲基化位点,确定所述候选甲基化位点。
[0008]根据本专利技术提供的一种基于重采样的特征选择方法,所述获取多个样本甲基化数据,具体包括:获取多个初始甲基化数据,并对所述多个初始甲基化数据进行数据预处理,去除所述多个初始甲基化数据中与单核苷酸多态性相关、与性别相关或为空值的甲基化位点及其对应的位点数据,得到多个预处理甲基化数据;对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据;其中,所述样本甲基化数据中不包含所述辨别度不满足预设条件的甲基化位点对应的位点数据。
[0009]根据本专利技术提供的一种基于重采样的特征选择方法,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,具体包括:基于所述预处理甲基化数据中各个甲基化位点对应的位点数据,分别计算各个甲基化位点对应的绝对中位差;对所述各个甲基化位点对应的绝对中位差排序后,筛选预设个数的绝对中位差最小的甲基化位点,并从所述预处理甲基化数据中删除所述预设个数的绝对中位差最小的甲基化位点及其对应的位点数据,得到多个样本甲基化数据。
[0010]根据本专利技术提供的一种基于重采样的特征选择方法,所述对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据,之后还包括:从所述多个样本甲基化数据中随机划分出特征选择数据集、训练数据集、测试数据集;其中,所述特征选择数据集中的样本甲基化数据用于执行所述特征选择步骤;所述训练数据集中的样本甲基化数据及其对应的分类标签用于在所述特征确认步骤之后训练分类模型;所述测试数据集中的样本甲基化数据及其对应的分类标签用于评估所述分类模型的性能指标,并基于所述分类模型的性能指标确定所述靶点甲基化位点的有效性。
[0011]根据本专利技术提供的一种基于重采样的特征选择方法,所述重复执行所述特征选择
步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点,之后还包括:对待分类目标的所述靶点甲基化位点进行聚合酶链式反应或者靶向测序,得到所述待分类目标对应所述靶点甲基化位点的位点数据。
[0012]本专利技术还提供一种基于重采样的特征选择装置,包括:数据获取单元,用于执行数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;特征选择单元,用于执行特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;特征确认单元,用于执行特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。
[0013]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于重采样的特征选择方法。
[0014]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于重采样的特征选择方法,其特征在于,包括:数据获取步骤:获取多个样本甲基化数据;其中,多个样本甲基化数据中包含正样本数据和负样本数据,每个样本甲基化数据中包括多个甲基化位点对应的位点数据;特征选择步骤:采用有放回的重采样方式从所述多个样本甲基化数据中抽取多个采样甲基化数据;基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点;基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,并将所述多个候选甲基化位点置于特征池中;特征确认步骤:重复执行所述特征选择步骤预设次数后,基于所述特征池中各个甲基化位点的出现频率,确定靶点甲基化位点。2.根据权利要求1所述的基于重采样的特征选择方法,其特征在于,所述基于统计学方法,对所述采样甲基化数据进行统计分析,检验所述多个甲基化位点在正样本数据和负样本数据中的数值差异,得到数值差异满足预设条件的多个初筛甲基化位点,具体包括:针对任一甲基化位点,将所述采样甲基化数据中所述任一甲基化位点对应的位点数据划分为正样本组和负样本组;其中,所述正样本组由所述采样甲基化数据中的正样本数据中所述任一甲基化位点对应的位点数据构成,所述负样本组由所述采样甲基化数据中的负样本数据中所述任一甲基化位点对应的位点数据构成;计算所述任一甲基化位点的正样本组和负样本组对应的组间方差和组内方差;若所述任一甲基化位点的正样本组和负样本组对应的组间方差大于组内方差,则确定所述任一甲基化位点为初筛甲基化位点。3.根据权利要求1所述的基于重采样的特征选择方法,其特征在于,所述基于特征选择模型,结合所述采样甲基化数据对所述多个初筛甲基化位点进行特征选择,得到多个候选甲基化位点,具体包括:获取所述采样甲基化数据中所述初筛甲基化位点对应的位点数据;对所述采样甲基化数据中所述初筛甲基化位点对应的位点数据进行Lasso回归分析,构建特征选择模型;基于构建得到的特征选择模型中回归系数不为0的初筛甲基化位点,确定所述候选甲基化位点。4.根据权利要求1至3任一项所述的基于重采样的特征选择方法,其特征在于,所述获取多个样本甲基化数据,具体包括:获取多个初始甲基化数据,并对所述多个初始甲基化数据进行数据预处理,去除所述多个初始甲基化数据中与单核苷酸多态性相关、与性别相关或为空值的甲基化位点及其对应的位点数据,得到多个预处理甲基化数据;对所述多个预处理甲基化数据中的甲基化位点进行初筛,去除辨别度不满足预设条件的甲基化位点,得到多个样本甲基化数据;其中,所述样本甲基化数据中不包含所述辨别度不满足预设条件的甲基化位点对应的位点数据。5.根据权利要求4所述的基于重采样的特征选择方法,其特征在于,所述对所述多个预处理甲基化数...

【专利技术属性】
技术研发人员:吕行邝英兰叶莘黄萌
申请(专利权)人:珠海圣美生物诊断技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1