【技术实现步骤摘要】
一种基于甲基化数据筛选疾病标志物的方法
[0001]本申请属于分子生物学领域,涉及基因检测,具体的是涉及一种基于甲基化数据筛选疾病标志物的方法
。
技术介绍
[0002]根据世界卫生组织癌症研究机构
(IARC)
发布的
2020
年世界癌症报告
(World Cancer Report)
,
2020
年全球新发癌症
1930
万例,死亡近
1000
万例;每5人中就有1人将在其一生中患癌症;每8名男性
、
每
11
名女性中就有1人将因癌症而死亡;癌症诊断后5年生存人数约为
5060
万;预计到
2040
年,全球新发癌症将达到
2840
万例
。
[0003]根据
IARC
发布的数据,
2020
年癌症新发病例中肺癌
(17.9
%
)
占比最高,其次为结直肠癌
(12.2
%
)、
胃癌
(10.5
%
)、
乳腺癌
(9.1
%
)、
肝癌
(9
%
)
和膀胱癌
(7.1
%
)。
死亡率方面,肺癌依旧是死亡病例数占比
(23.8
%
)
最高的癌种,其次 ...
【技术保护点】
【技术特征摘要】
1.
一种基于甲基化数据筛选疾病标志物的方法,其中,包括如下步骤:获得
a
个甲基化检测平台的多个样本的甲基化数据;对甲基化数据进行预处理;基于所述
a
个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间;基于所述差异区间存在的所述甲基化检测平台的个数,对差异区间进行分类,将其分成
w
个类型;计算所述
w
个类型的特征值并基于该特征值来选取疾病标志物;所述
a
为大于等于2的正整数,其中
a
个甲基化检测平台的测序深度分别为
M1~
M
a
,测序广度分别为
L1~
L
a
,在
M1~
M
a
中的最大值所在的甲基化检测平台与
L1~
L
a
中的最大值所在的甲基化检测平台为不同的平台;多个样本包括疾病组样本和正常组样本
。2.
根据权利要求1所述的方法,其中,对甲基化数据进行预处理包括如下步骤:对所述甲基化数据进行:数据质量预处理和评估
(fastp
软件
)、
基因组比对
(Bismark
软件
)、
去除样本或实验技术等带来的重复数据
(deduplicate_bismark
软件
)
或利用
champ.norm
函数做标准化
。3.
根据权利要求1所述的方法,其中,基于所述
a
个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间是指通过以下指标中的一种或两种来从待选定的差异区间中确定差异区间:以待选定的差异区间作为检测目标时的疾病组样本检测
AUC、
以待选定的差异区间作为检测目标时的疾病组样本与正常组样本在该待选定的差异区间的甲基化水平的均值或中位数的差值
|delta|。4.
根据权利要求3所述的方法,其中,选取
delta
值在不同甲基化检测平台中同时为正,或者同时为负的待选定差异区间作为差异区间
。5.
根据权利要求3所述的方法,其中,选取不同甲基化检测平台中的
|AUC
‑
0.5|>0.2
的差异区间
。6.
根据权利要求1‑5任一项所述的方法,其中,所述
w
个类型的差异区间的特征值为
X
,
X
满足如下公式:
n
代表在
w
个类型的差异区间中,每一种类型中具有的差异区间的个数,其中
Δβ
i
表示差异区间
i
在某一样本中的甲基化水平与该样本所在样本组的甲基化水平的平均值的差异
。7.
...
【专利技术属性】
技术研发人员:吴宁宁,韩晓亮,刘栓平,郭媛媛,杨亚东,李永君,
申请(专利权)人:博尔诚北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。