当前位置: 首页 > 专利查询>云南大学专利>正文

基于多特征的CTCF介导染色质环预测方法技术

技术编号:33632356 阅读:27 留言:0更新日期:2022-06-02 01:38
本发明专利技术公开了一种基于多特征的CTCF介导染色质环预测方法,对于待预测的细胞系收集蛋白质数据和样本DNA序列,在样本DNA序列中确定4个关键位点及对应的CTCF motif数据,根据所有样本DNA序列的CTCF motif数据训练Word2Vec模型和Doc2Vec模型,对于每个样本DNA序列分别提取其序列特征和蛋白质特征,然后拼接得到该样本DNA序列的特征向量,将样本DNA序列的特征向量作为输入、将CTCF介导染色质环是否存在的样本标签作为期望输出,对构建的CTCF介导染色质环预测模型进行训练,当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时,采用相同方法得到特征向量,输入训练好的CTCF介导染色质环预测模型得到预测结果。本发明专利技术可有效提高CTCF介导染色质环的预测准确率。质环的预测准确率。质环的预测准确率。

【技术实现步骤摘要】
基于多特征的CTCF介导染色质环预测方法


[0001]本专利技术属于生物信息
,更为具体地讲,涉及一种基于多特征的CTCF介导染色质环预测方法。

技术介绍

[0002]人类基因组中染色体的三维结构对于理解基因调控原理和疾病机制至关重要,随着Hi

C、CHIA

PET等用于染色质高维映射方法的出现,揭示了高阶基因组组织中含有比我们之前认为的更复杂的全局染色质相互作用。全基因组分析表明,在染色质环的转点处富集CTCF(CCCTC binding factor)转录因子,普遍认为,CTCF具有形成染色质环的能力。
[0003]在目前染色质环的预测研究工作中,研究者通过不同的特征去预测某个细胞系的染色质环。例如可以利用基因组和表观基因组特征,基于随机森林分类器的机器学习框架来预测CTCF介导的染色质环,这一种方法针对同一种细胞系进行预测时,精度很高,针对不同细胞系的染色质环预测时,效果却不够好。还可以基于序列的特征,使用word2vec和XGBoost预测一对收敛的CTCF基序是否会形成一个染色质环本文档来自技高网...

【技术保护点】

【技术特征摘要】
motif数据基于Doc2vec的序列相似度为绝对小值,否则根据训练好的Doc2Vec模型得到每条CTCF motif数据的语句向量,计算两个语句向量的相似度作为该对CTCF motif数据基于Doc2vec的序列相似度;S3.5:对于每个样本DNA序列,将位点Loop Start和位点Loop End位点对应的CTCF motif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,计算每对CTCF motif数据基于序列模式的相似度M
Loop
、M
CTCF
,具体计算方法如下:对于一对CTCF motif数据,分别获取每条CTCF motif数据中定义基因位于染色体正负链的信息strand,strand为“+”代表正链,strand为
“‑”
代表负链,strand为“.”代表没有链的信息,然后比较两条CTCF motif数据的strand信息:如果两条CTCF motif数据的strand信息均为“.”,则该对CTCF motif数据基于序列模式的相似度为0;如果两条CTCF motif数据有其中一条的strand信息为“.”,另一条的strand信息不为“.”,则该对CTCF motif数据基于序列模式的相似度为1;如果两条CTCF motif数据的strand信息均不为“.”且相同时,则该对CTCF motif数据基于序列模式的相似度为2;如果两条CTCF motif数据的strand信息均不为“.”且不相同时,则该对CTCF motif数据基于序列模式的相似度为3;S3.6:对于每个样本DNA序列,获取位点Left CTCF site到位点Loop Start的长度L
Left
,获取位点Loop End到位点Right CTCF site的长度L
Right
;S3.7:对于每个样本DNA序列,将其提取得到的64维的序列双核苷酸数向量S,基于皮尔森的序列相似度P
Loop
、P
CTCF
,基于Word2vec的序列相似度W
Loop
、W
CTCF
,基于Doc2Vec的序列相似度D
Loop
、D
CTCF
,基于序列模式的相似度M
Loop
、M
CTCF
以及长度L
Left
、L
Right
拼接得到74维的特征向量作为该样本DNA序列的序列特征;S4:对每个样本DNA序列提取得到蛋白质特征,具体方法包括以下步骤:S4.1:对于每个样本DNA序列,在其左侧CTCF位点Left CTCF site、CTCF介导染色质环起始位点Loop Start、CTCF介导染色质环结束位点Loop End、右侧CTCF位点Right CTCF site的两侧分别根据预设偏移值确定两个位点,左侧CTCF位点Left CTCF site的两侧位点分别记为位点Left CTCF start、位点Left CTCF end,CTCF介导染色质环起始位点Loop Start的两侧位点分别记为位点Left Loop start、位点Right Loop start,CTCF介导染色质环结束位点Loop End的两侧位点分别记为位点Left Loop end、位点Right Loop end,右侧CTCF位点Right CTCF site的两侧位点分别记为位点Right CTCF start、位点Right CTCF e...

【专利技术属性】
技术研发人员:罗静彭文钰于小娟林国亮颜培祺
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1