【技术实现步骤摘要】
甲基化特征筛选方法及装置
[0001]本专利技术涉及生物数据处理
,尤其涉及一种甲基化特征筛选方法及装置。
技术介绍
[0002]随着基因测序和计算机技术的发展,越来越多的生物学数据可用于相关疾病的发现,DNA甲基化作为一种广泛研究的表观遗传标记,在肿瘤发现中起着至关重要的作用。
[0003]对DNA甲基化检测的方法有基于重亚硫酸盐转化或酶转化后通过测序或PCR(Polymerase Chain Reaction,聚合酶链式反应)的方法进行区分,也有基于限制性内切酶对甲基化敏感性不同进行选择性切割后的扩增产物进行区分。对少量位点的甲基化检测以基于重亚硫酸盐转化的qPCR(Quantitative Real
‑
time PCR,实时荧光定量PCR)为主。转化后,非甲基化的C碱基(胞嘧啶)被转换为U碱基(尿嘧啶),根据PCR扩增互补配对原则与T碱基(胸腺嘧啶)配对,甲基化的C碱基保持不变与G碱基配对。针对甲基化转化后的模板进行引物探针设计,通过Ct(Cycle Threshold,循环阈值)值判断
【技术保护点】
【技术特征摘要】
1.一种甲基化特征筛选方法,其特征在于,包括:通过移窗法对各目标甲基化差异区域的核酸序列数据进行目标长度的窗口分割,并确定分割后各个窗口的起始位点和终止位点坐标数据;所述目标甲基化差异区域的核酸序列数据为基于不同类型样本的核酸序列数据并按照目标条件筛选得到的;所述目标条件用于筛选不同类型样本的核酸序列数据中差异绝对值大于目标阈值的甲基化差异区域;所述目标长度是基于下游检测场景所需的长度确定的;基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第一目标窗口的核酸序列数据;从所述第一目标窗口的核酸序列数据中过滤存在核酸序列片段断点的窗口或窗口内的断点区域,得到第二目标窗口的坐标数据,所述第二目标窗口的坐标数据用于进行下游检测。2.根据权利要求1所述的甲基化特征筛选方法,其特征在于,所述基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第一目标窗口的核酸序列数据,包括:基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第三目标窗口的核酸序列数据;根据特征分数差值,在所述第三目标窗口的核酸序列数据筛选得到第四目标窗口的核酸序列数据;将所述第四目标窗口的核酸序列数据确定为所述第一目标窗口的核酸序列数据;或者,基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第三目标窗口的核酸序列数据和第四目标窗口的核酸序列数据;将所述第三目标窗口的核酸序列数据和所述第四目标窗口的核酸序列数据确定为所述第一目标窗口的核酸序列数据;其中,所述第三目标窗口的核酸序列数据是将单个CpG位点的甲基化百分数作为特征分数来进行筛选得到的;所述第四目标窗口的核酸序列数据是将单个核酸序列片段上的连续CpG位点甲基化状态进行统计的分数作为特征分数来进行筛选得到的。3.根据权利要求2所述的甲基化特征筛选方法,其特征在于,所述第三目标窗口的核酸序列数据通过以下方式确定:将不同类型样本在各个窗口的核酸序列数据中单个CpG位点的甲基化百分数确定为特征分数,并得到不同类型样本在各个窗口内对应的所述特征分数差值;将各特征分数差值对应的窗口按照所述特征分数差值由大到小的顺序进行排序,并筛选出排在前第一数量的窗口,得到所述第三目标窗口的核酸序列数据。4.根据权利要求2所述的甲基化特征筛选方法,其特征在于,所述第四目标窗口的核酸序列数据通过以下方式确定:基于不同类型样本在各个窗口所覆盖的测序片段,将单个核酸序列分子片段上的连续CpG位点甲基化状态进行统计的分数确定为单条核酸序列的特征分数,并得到不同类型样本在各个窗口内对应的所述特征分数差值;将各特征分数差值对应的窗口按照所述特征分...
【专利技术属性】
技术研发人员:叶莘,黄萌,
申请(专利权)人:珠海圣美生物诊断技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。