一种基于甲基化数据筛选疾病标志物的方法技术

技术编号:39805348 阅读:13 留言:0更新日期:2023-12-22 02:39
本申请提供一种基于甲基化数据筛选疾病标志物的方法,包括:获得

【技术实现步骤摘要】
一种基于甲基化数据筛选疾病标志物的方法


[0001]本申请属于分子生物学领域,涉及基因检测,具体的是涉及一种基于甲基化数据筛选疾病标志物的方法


技术介绍

[0002]根据世界卫生组织癌症研究机构
(IARC)
发布的
2020
年世界癌症报告
(World Cancer Report)

2020
年全球新发癌症
1930
万例,死亡近
1000
万例;每5人中就有1人将在其一生中患癌症;每8名男性


11
名女性中就有1人将因癌症而死亡;癌症诊断后5年生存人数约为
5060
万;预计到
2040
年,全球新发癌症将达到
2840
万例

[0003]根据
IARC
发布的数据,
2020
年癌症新发病例中肺癌
(17.9

)
占比最高,其次为结直肠癌
(12.2

)、
胃癌
(10.5

)、
乳腺癌
(9.1

)、
肝癌
(9

)
和膀胱癌
(7.1

)。
死亡率方面,肺癌依旧是死亡病例数占比
(23.8

)
最高的癌种,其次分别为肝癌
(13

)、
胃癌
(12.4

)、
膀胱癌
(10

)
和结直肠癌
(9.5

)
,早期筛查与诊断有利于即早干预治疗,提升患者生存率

[0004]cfDNA(cell

free DNA)
是外周血中游离的核酸小片段
DNA
,源于正常细胞或肿瘤细胞与代谢,包含体细胞突变和
DNA
甲基化等遗传信息

目前,
DNA
甲基化已被证明具有组织特异性
,
可用于早期癌症检测,并可根据循环肿瘤
DNA(ctDNA)
甲基化特征追踪到肿瘤原发部位

[0005]常规的检测甲基化的测序方法包括
WGBS(whole genome bisulfite sequencing)

450K/850K
芯片,
RRBS(Reduced representation bisulfite sequencing)
,靶向
Panel
定向捕获等方法

每种方式都各有优缺点,例如,
WGBS
虽然覆盖的基因组范围大,但是测序深度低,不能高分辨样本的甲基化水平

定制的
panel
虽然可以做到高深度测序,但是覆盖基因组的范围小,因此,得到的可用标志物范围少

如何有效利用不同平台的优缺点,最大限度的利用数据成为研究的关键点


技术实现思路

[0006]基于现有中存在的问题,本申请的目的在于提供一种利用血液中的游离
DNA
的甲基化信号,从整合不同平台数据出发,开发出一套针对癌症标志物的筛选方法,最大限度的利用了不同平台数据的优势,从而提高筛选出来的标志物的准确性,所述标志物具有非常高的灵敏度

[0007]本申请具体技术方案如下:
[0008]1、
一种基于甲基化数据筛选疾病标志物的方法,其中,包括如下步骤:
[0009]获得
a
个甲基化检测平台的多个样本的甲基化数据;
[0010]对甲基化数据进行预处理;
[0011]基于所述
a
个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间;
[0012]基于所述差异区间存在的所述甲基化检测平台的个数,对差异区间进行分类,将其分成
w
个类型;
[0013]计算所述
w
个类型的特征值并基于该特征值来选取疾病标志物;
[0014]所述
a
为大于等于2的正整数,
[0015]其中
a
个甲基化检测平台的测序深度分别为
M1~
M
a
,测序广度分别为
L1~
L
a

[0016]在
M1~
M
a
中的最大值所在的甲基化检测平台与
L1~
L
a
中的最大值所在的甲基化检测平台为不同的平台;
[0017]多个样本包括疾病组样本和正常组样本

[0018]2、
根据项1所述的方法,其中,对甲基化数据进行预处理包括如下步骤:
[0019]对所述甲基化数据进行:数据质量预处理和评估
(fastp
软件
)、
基因组比对
(Bismark
软件
)、
去除样本或实验技术等带来的重复数据
(deduplicate_bismark
软件
)
或利用
champ.norm
函数做标准化

[0020]3、
根据项1所述的方法,其中,基于所述
a
个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间是指通过以下指标中的一种或两种来从待选定的差异区间中确定差异区间:以待选定的差异区间作为检测目标时的疾病组样本检测
AUC、
以待选定的差异区间作为检测目标时的疾病组样本与正常组样本在该待选定的差异区间的甲基化水平的均值或中位数的差值
|delta|。
[0021]4、
根据项3所述的方法,其中,选取
delta
值在不同甲基化检测平台中同时为正,或者同时为负的待选定差异区间作为差异区间

[0022]5、
根据项3所述的方法,其中,选取不同甲基化检测平台中的
|AUC

0.5|>0.2
的差异区间

[0023]6、
根据项1‑5任一项所述的方法,其中,所述
w
个类型的差异区间的特征值为
X

X
满足如下公式:
[0024][0025]n
代表在
w
个类型的差异区间中,每一种类型中具有的差异区间的个数,其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于甲基化数据筛选疾病标志物的方法,其中,包括如下步骤:获得
a
个甲基化检测平台的多个样本的甲基化数据;对甲基化数据进行预处理;基于所述
a
个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间;基于所述差异区间存在的所述甲基化检测平台的个数,对差异区间进行分类,将其分成
w
个类型;计算所述
w
个类型的特征值并基于该特征值来选取疾病标志物;所述
a
为大于等于2的正整数,其中
a
个甲基化检测平台的测序深度分别为
M1~
M
a
,测序广度分别为
L1~
L
a
,在
M1~
M
a
中的最大值所在的甲基化检测平台与
L1~
L
a
中的最大值所在的甲基化检测平台为不同的平台;多个样本包括疾病组样本和正常组样本
。2.
根据权利要求1所述的方法,其中,对甲基化数据进行预处理包括如下步骤:对所述甲基化数据进行:数据质量预处理和评估
(fastp
软件
)、
基因组比对
(Bismark
软件
)、
去除样本或实验技术等带来的重复数据
(deduplicate_bismark
软件
)
或利用
champ.norm
函数做标准化
。3.
根据权利要求1所述的方法,其中,基于所述
a
个甲基化检测平台的经预处理后的甲基化数据,通过计算并筛选出每个甲基化检测平台中的差异区间是指通过以下指标中的一种或两种来从待选定的差异区间中确定差异区间:以待选定的差异区间作为检测目标时的疾病组样本检测
AUC、
以待选定的差异区间作为检测目标时的疾病组样本与正常组样本在该待选定的差异区间的甲基化水平的均值或中位数的差值
|delta|。4.
根据权利要求3所述的方法,其中,选取
delta
值在不同甲基化检测平台中同时为正,或者同时为负的待选定差异区间作为差异区间
。5.
根据权利要求3所述的方法,其中,选取不同甲基化检测平台中的
|AUC

0.5|>0.2
的差异区间
。6.
根据权利要求1‑5任一项所述的方法,其中,所述
w
个类型的差异区间的特征值为
X

X
满足如下公式:
n
代表在
w
个类型的差异区间中,每一种类型中具有的差异区间的个数,其中
Δβ
i
表示差异区间
i
在某一样本中的甲基化水平与该样本所在样本组的甲基化水平的平均值的差异
。7.
...

【专利技术属性】
技术研发人员:吴宁宁韩晓亮刘栓平郭媛媛杨亚东李永君
申请(专利权)人:博尔诚北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1