本发明专利技术提供一种甲基化特征筛选方法及装置,属于生物数据处理技术领域,所述方法包括:通过移窗法对各目标甲基化差异区域的核酸序列数据进行目标长度的窗口分割,进而根据特征分数差值以及基因片段断点位置筛选得到用于下游检测场景的第二目标窗口。本发明专利技术的甲基化特征筛选方法,通过对各目标甲基化差异区域的核酸序列数据进行目标长度的窗口分割,可以确定出适合下游检测场景的甲基化差异区域,再按照不同类型样本的特征分数差值对各目标甲基化差异区域在各个窗口内的基因数据进一步筛选,滤除低连续甲基化位点检出概率的窗口后进而得到长度适宜且准确的窗口来进行下游检测。而得到长度适宜且准确的窗口来进行下游检测。而得到长度适宜且准确的窗口来进行下游检测。
【技术实现步骤摘要】
甲基化特征筛选方法及装置
[0001]本专利技术涉及生物数据处理
,尤其涉及一种甲基化特征筛选方法及装置。
技术介绍
[0002]随着基因测序和计算机技术的发展,越来越多的生物学数据可用于相关疾病的发现,DNA甲基化作为一种广泛研究的表观遗传标记,在肿瘤发现中起着至关重要的作用。
[0003]对DNA甲基化检测的方法有基于重亚硫酸盐转化或酶转化后通过测序或PCR(Polymerase Chain Reaction,聚合酶链式反应)的方法进行区分,也有基于限制性内切酶对甲基化敏感性不同进行选择性切割后的扩增产物进行区分。对少量位点的甲基化检测以基于重亚硫酸盐转化的qPCR(Quantitative Real
‑
time PCR,实时荧光定量PCR)为主。转化后,非甲基化的C碱基(胞嘧啶)被转换为U碱基(尿嘧啶),根据PCR扩增互补配对原则与T碱基(胸腺嘧啶)配对,甲基化的C碱基保持不变与G碱基配对。针对甲基化转化后的模板进行引物探针设计,通过Ct(Cycle Threshold,循环阈值)值判断甲基化水平高低。
[0004]相关技术中,通过在甲基化差异区域(Differentiate Methylated Region,DMR)进行甲基化分析,并进行相关检测区域的设计,从而实现对特定基因组的检测。然而现有各种DMR选择方法找出的DMR长度范围从百到千甚至上万碱基不等,不适用于下游检测场景,同一个DMR内不同位点的甲基化差异大小也高低不一,且忽略了因核小体缠绕问题所引起的核酸片段的断点位置对连续甲基化位点检测概率的影响,从而降低了下游甲基化检测场景的检测精度。
技术实现思路
[0005]本专利技术提供一种甲基化特征筛选方法及装置,用以解决现有技术中进行引物探针设计的DMR长度不适合也不够准确的缺陷,实现能找到合适长度且又准确的窗口。
[0006]本专利技术提供一种甲基化特征筛选方法,包括:通过移窗法对各目标甲基化差异区域的核酸序列数据进行目标长度的窗口分割,并确定分割后各个窗口的起始位点和终止位点的坐标数据;所述目标甲基化差异区域的核酸序列数据为基于不同类型样本的核酸序列数据并按照目标条件筛选得到的;所述目标条件用于筛选不同类型样本的核酸序列数据中差异绝对值大于目标阈值的甲基化差异区域;所述目标长度是基于下游检测场景所需的长度确定的;基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第一目标窗口的核酸序列数据;从所述第一目标窗口的核酸序列数据中过滤存在核酸序列片段断点的窗口或窗口内的断点区域,得到第二目标窗口的坐标数据,所述第二目标窗口的坐标数据用于进行下游检测。
[0007]根据本专利技术提供的一种甲基化特征筛选方法,所述基于各个窗口的起始位点和终
止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第一目标窗口的核酸序列数据,包括:基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第三目标窗口的核酸序列数据;根据特征分数差值,在所述第三目标窗口的核酸序列数据筛选得到第四目标窗口的核酸序列数据;将所述第四目标窗口的核酸序列数据确定为所述第一目标窗口的核酸序列数据;或者,基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第三目标窗口的核酸序列数据和第四目标窗口的核酸序列数据;将所述第三目标窗口的核酸序列数据和所述第四目标窗口的核酸序列数据确定为所述第一目标窗口的核酸序列数据;其中,所述第三目标窗口的核酸序列数据是将单个CpG位点的甲基化百分数作为特征分数来进行筛选得到的;所述第四目标窗口的核酸序列数据是将单个核酸序列分子片段上的连续CpG位点甲基化状态进行统计的分数作为特征分数来进行筛选得到的。
[0008]根据本专利技术提供的一种甲基化特征筛选方法,所述第三目标窗口的核酸序列数据通过以下方式确定:将不同类型样本在各个窗口的核酸序列数据中单个CpG位点的甲基化百分数确定为特征分数,并得到肿瘤样本以及非肿瘤样本在各个窗口内对应的所述特征分数差值;将各特征分数差值对应的窗口按照所述特征分数差值由大到小的顺序进行排序,并筛选出排在前第一数量的窗口,得到所述第三目标窗口的核酸序列数据。
[0009]根据本专利技术提供的一种甲基化特征筛选方法,所述第四目标窗口的核酸序列数据通过以下方式确定:基于不同类型样本在各个窗口所覆盖的测序片段,将单个核酸序列分子片段上的连续CpG位点甲基化状态进行统计的分数确定为单条核酸序列的特征分数,并得到不同类型样本在各个窗口内对应的所述特征分数差值;将各特征分数差值对应的窗口按照所述特征分数差值由大到小的顺序进行排序,并筛选出排在前第二数量的窗口,得到所述第四目标窗口的核酸序列数据。
[0010]根据本专利技术提供的一种甲基化特征筛选方法,所述目标条件包括以下至少一项:甲基化差异区域的核酸序列数据矫正后的差异显著性值小于第一阈值;甲基化差异区域的核酸序列数据中至少包括第三数量的CpG位点;甲基化差异区域的核酸序列长度大于预设长度。
[0011]根据本专利技术提供的一种甲基化特征筛选方法,所述目标条件还包括:第一类型样本的核酸序列数据对应的甲基化差异区域甲基化水平大于第二类型样本的核酸序列数据,其中,所述第二类型样本的核酸序列数据对应的甲基化差异区域中CpG位点甲基化分数小于或者等于第二阈值;或者,所述第一类型样本的核酸序列数据对应的甲基化差异区域甲基化水平小于或者等于所述第二类型样本的核酸序列数据,其中,所述第二类型样本的核酸序列数据对应的甲基化差异区域中CpG位点甲基化分数大于或者等于第三阈值。
[0012]根据本专利技术提供的一种甲基化特征筛选方法,所述从所述第一目标窗口的核酸序
列数据中过滤存在核酸序列片段断点的窗口或窗口内的断点区域,得到第二目标窗口的坐标数据,包括:通过核小体定位算法从所述第一目标窗口的核酸序列数据中确定核小体的位置;基于所述核小体的位置,确定所述核酸序列片段断点所在的目标范围;从所述第一目标窗口的核酸序列数据中过滤所述目标范围对应的窗口区域或者过滤包含所述目标范围的窗口,得到所述第二目标窗口的坐标数据。
[0013]本专利技术还提供一种甲基化特征筛选装置,包括:分割模块,用于通过移窗法对各目标甲基化差异区域的核酸序列数据进行目标长度的窗口分割,并确定分割后各个窗口的起始位点和终止位点的坐标数据;所述目标甲基化差异区域的核酸序列数据为基于不同类型样本的核酸序列数据并按照目标条件筛选得到的;所述目标条件用于筛选不同类型样本的核酸序列数据中差异绝对值大于目标阈值的甲基化差异区域;所述目标长度是基于下游检测场景所需的长度确定的;第一处理模块,用于基于各个窗口的起始位点坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第一目标窗本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种甲基化特征筛选方法,其特征在于,包括:通过移窗法对各目标甲基化差异区域的核酸序列数据进行目标长度的窗口分割,并确定分割后各个窗口的起始位点和终止位点坐标数据;所述目标甲基化差异区域的核酸序列数据为基于不同类型样本的核酸序列数据并按照目标条件筛选得到的;所述目标条件用于筛选不同类型样本的核酸序列数据中差异绝对值大于目标阈值的甲基化差异区域;所述目标长度是基于下游检测场景所需的长度确定的;基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第一目标窗口的核酸序列数据;从所述第一目标窗口的核酸序列数据中过滤存在核酸序列片段断点的窗口或窗口内的断点区域,得到第二目标窗口的坐标数据,所述第二目标窗口的坐标数据用于进行下游检测。2.根据权利要求1所述的甲基化特征筛选方法,其特征在于,所述基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第一目标窗口的核酸序列数据,包括:基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第三目标窗口的核酸序列数据;根据特征分数差值,在所述第三目标窗口的核酸序列数据筛选得到第四目标窗口的核酸序列数据;将所述第四目标窗口的核酸序列数据确定为所述第一目标窗口的核酸序列数据;或者,基于各个窗口的起始位点和终止位点的坐标数据,确定各目标甲基化差异区域在各个窗口内的特征分数差值,并根据特征分数差值筛选得到第三目标窗口的核酸序列数据和第四目标窗口的核酸序列数据;将所述第三目标窗口的核酸序列数据和所述第四目标窗口的核酸序列数据确定为所述第一目标窗口的核酸序列数据;其中,所述第三目标窗口的核酸序列数据是将单个CpG位点的甲基化百分数作为特征分数来进行筛选得到的;所述第四目标窗口的核酸序列数据是将单个核酸序列片段上的连续CpG位点甲基化状态进行统计的分数作为特征分数来进行筛选得到的。3.根据权利要求2所述的甲基化特征筛选方法,其特征在于,所述第三目标窗口的核酸序列数据通过以下方式确定:将不同类型样本在各个窗口的核酸序列数据中单个CpG位点的甲基化百分数确定为特征分数,并得到不同类型样本在各个窗口内对应的所述特征分数差值;将各特征分数差值对应的窗口按照所述特征分数差值由大到小的顺序进行排序,并筛选出排在前第一数量的窗口,得到所述第三目标窗口的核酸序列数据。4.根据权利要求2所述的甲基化特征筛选方法,其特征在于,所述第四目标窗口的核酸序列数据通过以下方式确定:基于不同类型样本在各个窗口所覆盖的测序片段,将单个核酸序列分子片段上的连续CpG位点甲基化状态进行统计的分数确定为单条核酸序列的特征分数,并得到不同类型样本在各个窗口内对应的所述特征分数差值;将各特征分数差值对应的窗口按照所述特征分...
【专利技术属性】
技术研发人员:叶莘,黄萌,
申请(专利权)人:珠海圣美生物诊断技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。