【技术实现步骤摘要】
基于多特征的CTCF介导染色质环预测方法
[0001]本专利技术属于生物信息
,更为具体地讲,涉及一种基于多特征的CTCF介导染色质环预测方法。
技术介绍
[0002]人类基因组中染色体的三维结构对于理解基因调控原理和疾病机制至关重要,随着Hi
‑
C、CHIA
‑
PET等用于染色质高维映射方法的出现,揭示了高阶基因组组织中含有比我们之前认为的更复杂的全局染色质相互作用。全基因组分析表明,在染色质环的转点处富集CTCF(CCCTC binding factor)转录因子,普遍认为,CTCF具有形成染色质环的能力。
[0003]在目前染色质环的预测研究工作中,研究者通过不同的特征去预测某个细胞系的染色质环。例如可以利用基因组和表观基因组特征,基于随机森林分类器的机器学习框架来预测CTCF介导的染色质环,这一种方法针对同一种细胞系进行预测时,精度很高,针对不同细胞系的染色质环预测时,效果却不够好。还可以基于序列的特征,使用word2vec和XGBoost预测一对收敛的CTCF基序是 ...
【技术保护点】
【技术特征摘要】
motif数据基于Doc2vec的序列相似度为绝对小值,否则根据训练好的Doc2Vec模型得到每条CTCF motif数据的语句向量,计算两个语句向量的相似度作为该对CTCF motif数据基于Doc2vec的序列相似度;S3.5:对于每个样本DNA序列,将位点Loop Start和位点Loop End位点对应的CTCF motif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,计算每对CTCF motif数据基于序列模式的相似度M
Loop
、M
CTCF
,具体计算方法如下:对于一对CTCF motif数据,分别获取每条CTCF motif数据中定义基因位于染色体正负链的信息strand,strand为“+”代表正链,strand为
“‑”
代表负链,strand为“.”代表没有链的信息,然后比较两条CTCF motif数据的strand信息:如果两条CTCF motif数据的strand信息均为“.”,则该对CTCF motif数据基于序列模式的相似度为0;如果两条CTCF motif数据有其中一条的strand信息为“.”,另一条的strand信息不为“.”,则该对CTCF motif数据基于序列模式的相似度为1;如果两条CTCF motif数据的strand信息均不为“.”且相同时,则该对CTCF motif数据基于序列模式的相似度为2;如果两条CTCF motif数据的strand信息均不为“.”且不相同时,则该对CTCF motif数据基于序列模式的相似度为3;S3.6:对于每个样本DNA序列,获取位点Left CTCF site到位点Loop Start的长度L
Left
,获取位点Loop End到位点Right CTCF site的长度L
Right
;S3.7:对于每个样本DNA序列,将其提取得到的64维的序列双核苷酸数向量S,基于皮尔森的序列相似度P
Loop
、P
CTCF
,基于Word2vec的序列相似度W
Loop
、W
CTCF
,基于Doc2Vec的序列相似度D
Loop
、D
CTCF
,基于序列模式的相似度M
Loop
、M
CTCF
以及长度L
Left
、L
Right
拼接得到74维的特征向量作为该样本DNA序列的序列特征;S4:对每个样本DNA序列提取得到蛋白质特征,具体方法包括以下步骤:S4.1:对于每个样本DNA序列,在其左侧CTCF位点Left CTCF site、CTCF介导染色质环起始位点Loop Start、CTCF介导染色质环结束位点Loop End、右侧CTCF位点Right CTCF site的两侧分别根据预设偏移值确定两个位点,左侧CTCF位点Left CTCF site的两侧位点分别记为位点Left CTCF start、位点Left CTCF end,CTCF介导染色质环起始位点Loop Start的两侧位点分别记为位点Left Loop start、位点Right Loop start,CTCF介导染色质环结束位点Loop End的两侧位点分别记为位点Left Loop end、位点Right Loop end,右侧CTCF位点Right CTCF site的两侧位点分别记为位点Right CTCF start、位点Right CTCF e...
【专利技术属性】
技术研发人员:罗静,彭文钰,于小娟,林国亮,颜培祺,
申请(专利权)人:云南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。