当前位置: 首页 > 专利查询>东南大学专利>正文

一种细胞特异性基因组G-四链体的预测方法技术

技术编号:29407624 阅读:45 留言:0更新日期:2021-07-23 22:47
本发明专利技术公开了一种细胞特异性的G4‑DNA预测方法,属于基因技术领域。该方法包括以下步骤:(1)产生给定物种所有潜在的G4‑DNA序列集合;(2)收集该物种实验检测所获得的细胞特异性G4‑DNA数据;(3)计算对应细胞全基因组范围的染色质开放结构信号和甲基化分布信号;(4)建立G4‑DNA的细胞特异性染色质环境特征向量;(5)建立正负训练样本集合;(6)通过样本训练,建立细胞特异性的G4‑DNA预测分类器,其输入是潜在序列的特征向量,输出是正负样本分类结果。现有G4‑DNA预测方法只能识别体外形成的G4‑DNA或者具有体内活性的G4‑DNA,而本方法能够识别特定细胞中存在的G4‑DNA。

【技术实现步骤摘要】
一种细胞特异性基因组G-四链体的预测方法
本专利技术属于基因
,具体涉及一种细胞特异性的G4-DNA预测方法,实现对特定细胞或组织中G4-DNA的识别和鉴定,可应用于肿瘤的基因调控研究和细胞群体的分类研究。
技术介绍
研究基因组结构与重大疾病之间的关系是国际基因技术发展的前沿,现有研究进展表明G4-DNA结构与肿瘤关系的发展和发展存在联系,但是,直接检测细胞中的G4-DNA结构非常困难,需要发展新的方法,去预测特定细胞或组织中是否存在G4-DNA体结构以及它们在基因组中的准确位置,进而研究这些G4-DNA结构与疾病之间的关系。基因组DNA大多是双螺旋结构,但是也存在一种特殊的二级结构,即G-四链体(G-quadruplex)。G-四链体是由单链核酸上四段连续的鸟嘌呤(G)所构成,不同区段上的G构成正方形平面,该平面中相邻的G通过Hoogsteen碱基配对形成两两相互作用。三层或更多的G4平面堆积在一起,形成G-四链体结构。每个G的电负性羧基指向平面中心,可以容纳单价金属离子(如Na+、K+),以稳定G-四链体结构。G-四链体可以在本文档来自技高网...

【技术保护点】
1.一种细胞特异性的G4-DNA预测方法,其特征在于,包括以下步骤:/n(1)产生给定物种所有潜在的G4-DNA序列集合:所述潜在的G4-DNA序列包括:规则的G4-DNA序列和奇异的G4-DNA序列;/n(2)收集该物种实验检测所获得的体内细胞特异性G4-DNA数据:体内细胞特异性G4-DNA数据由G4 ChIP-seq测序实验提供,收集利用该技术检测不同细胞所获得的原始实验数据,得到细胞特异性G4-DNA集合,本方法滤去长度小于15bp的序列,细胞特异性G4-DNA集合以BED文件形式存储,条目形式为“chrom,chromStart,chromEnd”;/n(3)收集细胞特异的染色质开放...

【技术特征摘要】
1.一种细胞特异性的G4-DNA预测方法,其特征在于,包括以下步骤:
(1)产生给定物种所有潜在的G4-DNA序列集合:所述潜在的G4-DNA序列包括:规则的G4-DNA序列和奇异的G4-DNA序列;
(2)收集该物种实验检测所获得的体内细胞特异性G4-DNA数据:体内细胞特异性G4-DNA数据由G4ChIP-seq测序实验提供,收集利用该技术检测不同细胞所获得的原始实验数据,得到细胞特异性G4-DNA集合,本方法滤去长度小于15bp的序列,细胞特异性G4-DNA集合以BED文件形式存储,条目形式为“chrom,chromStart,chromEnd”;
(3)收集细胞特异的染色质开放结构数据和DNA甲基化数据:
所述细胞特异的染色质开放结构数据的分析方法如下:处理对应细胞由染色质可及性检测技术ATAC-seq所获得的测序数据,其数据形式为BedGraph形式,包含每一开放区域的坐标信息与开放程度值,具体表示为“chrom,chromStart,chromEnd,value”,即每一区域为所在染色体、区域起始坐标、区域结束坐标及开放程度值构成的四元组;将所有未在原始文件中出现的基因组区域条目添加到文件中,并将上述添加条目的开放程度值赋值为0,得到以BedGraph形式文件呈现的全基因组染色质开放程度信息;
所述细胞特异的DNA甲基化数据的分析方法如下:处理对应细胞的由DNA甲基化检测技术WGBS-seq所获得的测序数据,其数据形式以BedGraph形式保存,包含每一高甲基化区域的坐标信息与甲基化程度值,具体表示为“chrom,chromStart,chromEnd,value”,即每一区域为所在染色体、区域起始坐标、区域结束坐标及开放程度值构成的四元组;将所有未在原始文件中出现的基因组区域,条目添加到文件中,并将上述添加条目的甲基化程度值赋值为0,得到以BedGraph形式文件呈现的全基因组染色质甲基化程度信息;
(4)建立G4-DNA序列细胞特异性染色质环境特征向量:选定每一G4-DNA条目坐标中点为中心,向上游、下游分别扩展,最终构成定长区域,作为对应每个G4-DNA条目的染色体环境背景考察区域,采用滑窗法计算区域均值的方法压缩数据特征;
所述的滑窗法的计算方法如下:
采用一定长滑窗对区域以一定步长进行扫描,每步均计算窗口内染色体开放程度值/甲基化程度值的平均值,作为该滑窗包含区域的染色体环境背景数值;
若按照缺省值计算,最终将得到一个20维的染色体开放程度数值序列和一个20维的甲基化程度数值序列;
对于每一条G4-DNA序列,都可以得到一组这样的数值特征条目,每一条目均由维度为(1,40)的浮点数特征向量表示:(o1,o2,…o20,m1,m2,…m20),其中oi和mi分别表示滑窗第i步扫描区域内染色质开放程度区域均值及甲基化程度区域均值;
(5)建立细胞特异性的G4-DNA训练样本集合:潜在的G4-DNA如果在特定细胞中形成真正的G4-DNA,那么该G4-DNA就是这个细胞的正样本;相反,如果一个潜在的G4-DNA在特定细胞中不形成G4-DNA,则是一个负样本;
(6)建立细胞特异性的G4-DNA预测分类器模型:所述分类器模型以潜在的G4-DNA的染色质环境特征向量为输入,判断其是否会在特定细胞环境中形成G4-DNA;记TP,TN,FP,FN分别为真阳性样本、真阴性样本、假阳性样本及假阴性样本数目,得到三个指标表示如下:









其中,Accuracy、Precision和Recall分别指准确率、查准率和查全率;
在步骤(5)得到的细胞特异性的G4-DNA训练样本集合上进行五折交叉验证:即将细胞特异性的G4-DNA训练样本集合随机分成五等份,每次训练取其中四份为训练集,余下一份为测试集进行五次验证,计算与评估评价指标;交叉验证后,利用完整训练集对Xgboost模型进行训练,并在完整测试集上进行测试,评估评价指标,最终得到细胞特异性的G4-D...

【专利技术属性】
技术研发人员:孙啸张卓凡居胜红杨婧刘宏德
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1