System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机生物学,尤其是涉及一种黏连蛋白介导的细胞特异性染色质环的预测方法。
技术介绍
1、染色质环化对基因转录调控至关重要。黏连蛋白cohesin通过环挤压介导染色质环的形成。cohesin介导的染色质环受染色质状态的影响而具有强烈的细胞类型特异性,这给染色质环的预测带来挑战。现有预测染色质环的技术依据所用特征不同可分为两类:第一类,基于基因组序列特征识别染色质环的方法,第二类,基于基因组表观修饰特征识别染色质环的方法,但是这两类方法均存在缺陷:
2、第一类方法仅考虑序列信息,忽视了表观遗传修饰的影响,对染色质环的细胞特异性解释不够;
3、第二类方法结合了多组学表观修饰信号,能够进行跨细胞系的预测,但该方法需要用到大量的表观修饰数据(很少有细胞系能够得到足够的表观修饰特征信号)使其难以推广。
4、另外,现在还缺乏专门针对细胞特异性的染色质环的预测方法。
技术实现思路
1、本专利技术的目的是针对目前缺乏专门针对细胞特异性的染色质环的预测方法,提供一种基于机器学习的细胞特异性的染色质环的预测方法。
2、为达到上述目的,本专利技术采用了下列技术方案:
3、一种黏连蛋白介导的细胞特异性染色质环的预测方法,该方法包括:
4、s1.获取多组染色质样本作为训练数据,这里的训练数据包括了训练模型的样本数据和测试模型的样本数据,每组染色质样本包含一个正样本和一个负样本,且每组正负样本组合具有同一对目标位点,正样本的该
5、s2.对染色质样本提取染色质状态特征得到染色质状态后验概率矩阵;
6、对染色质样本提取chip-seq峰数据;
7、将峰数据与染色质状态后验概率矩阵作为输入特征;
8、s3.将输入特征输入预测模型以训练所述的预测模型。当然,训练模型时,同时将每个染色质样本的标签输入预测模型以使模型的参数依据预测结果和标签进行更新。
9、本方案的样本数据成组存在,以两个细胞系间特异性的染色质环为样本数据进行训练,实现针对细胞特异性的染色质环的预测方法,同时,本方案分别以染色质状态和关键因子出现的频数作为特征,使用机器学习模型对细胞类型特异性染色质环进行预测,对染色质环的细胞特异性具有一定的可解释性且具有较高的预测性能。
10、在上述的黏连蛋白介导的细胞特异性染色质环的预测方法中,步骤s2中,仅对染色质样本提取染色质状态特征得到染色质状态后验概率矩阵,且以染色质状态后验概率矩阵作为输入特征。
11、在上述的黏连蛋白介导的细胞特异性染色质环的预测方法中,对于一待测位点对,通过如下方式预测其在目标细胞系中是否成环;
12、s41.以待测位点对在目标细胞系中的两个位点分别为两个目标位点;
13、s42.对目标位点进行修剪得到一对取自目标细胞系的待测染色质;
14、s43.对待测染色质提取染色质状态特征得到相应细胞系的染色质状态后验概率矩阵;
15、对待测染色质提取chip-seq峰数据;
16、将峰数据与染色质状态后验概率矩阵作为输入特征;
17、s44.将输入特征输入至训练好的预测模型,预测模型输出预测结果。
18、在上述的黏连蛋白介导的细胞特异性染色质环的预测方法中,步骤s43中,仅对待测染色质提取染色质状态特征得到染色质状态后验概率矩阵,且以染色质状态后验概率矩阵作为输入特征。
19、在上述的黏连蛋白介导的细胞特异性染色质环的预测方法中,步骤s1中,利用已检测出来的细胞特异性染色质环获取所述的训练数据,且每组染色质样本的获取方法如下:
20、获取细胞系相关染色质环的基因组位置坐标;
21、对染色质环的两个锚点分别进行修剪得到设定长度的两段染色质为正样本;
22、在其他细胞系中找到所述两个锚点的同一位点得到其他细胞系的两个目标位点;
23、使用同样的方式分别对其他细胞系的两个目标位点进行修剪,得到设定长度的两段染色质为负样本。
24、假设使用了四个细胞系,k562细胞系中两个锚点成环,gm12878细胞系、h1-hesc细胞系、hepg2细胞系两个锚点对应的相应位点均不成环,那么k562细胞系中对两个锚点修剪得到的染色质正样本分别与gm12878细胞系、h1-hesc细胞系、hepg2细胞系中对两个目标位点修剪得到的染色质负样本组成一组染色质样本,即,具有三组染色质样本。
25、在上述的黏连蛋白介导的细胞特异性染色质环的预测方法中,通过如下方式对染色质样本/待测染色质提取染色质状态特征:
26、将染色质分bin;
27、根据每个bin所在的染色质位置信息,对比chromhmm模型中相应细胞系同一位置的染色质,以得到相应bin中染色质状态的相关信息;
28、最终得到染色质2×m×n的状态后验概率矩阵,m表示每个bin包含的m种状态的概率,n表示每段染色质所划分的bin的数量,2表示2段染色质。
29、在上述的黏连蛋白介导的细胞特异性染色质环的预测方法中,每个bin的长度大小为200bp;
30、对每个染色质按照染色质状态数据进行“200取整”分割。
31、在上述的黏连蛋白介导的细胞特异性染色质环的预测方法中,所述的设定长度为3000bp,每个染色质将被分割成16个bin。理论上整好对齐时会出现15个bin,但实际没有整好对齐的情况,故这里为16个bin。
32、在上述的黏连蛋白介导的细胞特异性染色质环的预测方法中,s2或s43中,对染色质样本/待测染色质提取chip-seq峰数据以计算目标位点及目标位点之间的ctcf、rad21、yy1、h3k27ac峰的个数;
33、将目标位点及目标位点之间的ctcf、rad21、yy1、h3k27ac峰的个数与染色质状态后验概率矩阵作为输入特征。
34、在上述的黏连蛋白介导的细胞特异性染色质环的预测方法中,所述的预测模型采用随机森林模型。
35、本专利技术的优点在于:
36、1、本专利技术提出了一种专门针对细胞特异性的染色质环的预测方法,基于表观修饰组学数据提取特征作为输入,且仅需使用少量的组蛋白修饰数据即可,最终使用随机森林算法实现精确预测同一对基因组位点间是否能形成染色质环;
37、2、本专利技术训练模型所使用的数据由多组样本构成,每组样本中包含正样本和负样本,每组正负样本组本文档来自技高网...
【技术保护点】
1.一种黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,该方法包括:
2.根据权利要求1所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,步骤S2中,仅对染色质样本提取染色质状态特征得到染色质状态后验概率矩阵,且以染色质状态后验概率矩阵作为输入特征。
3.根据权利要求1所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,对于一待测位点对,通过如下方式预测其在目标细胞系中是否成环;
4.根据权利要求3所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,步骤S43中,仅对待测染色质提取染色质状态特征得到染色质状态后验概率矩阵,且以染色质状态后验概率矩阵作为输入特征。
5.根据权利要求1-4任意一项所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,步骤S1中,利用已检测出来的细胞特异性染色质环获取所述的训练数据,且每组染色质样本的获取方法如下:
6.根据权利要求5所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,通过如下方式对染色质样本/待测染色质提取染色质状态特
7.根据权利要求6所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,每个bin的长度大小为200bp;
8.根据权利要求7所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,所述的设定长度为3000bp,每个染色质将被分割成16个bin。
9.根据权利要求3所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,S2或S43中,对染色质样本/待测染色质提取ChIP-seq峰数据以计算目标位点及目标位点之间的CTCF、RAD21、YY1、H3K27ac峰的个数;
10.根据权利要求1-4任意一项所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,所述的预测模型采用随机森林模型。
...【技术特征摘要】
1.一种黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,该方法包括:
2.根据权利要求1所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,步骤s2中,仅对染色质样本提取染色质状态特征得到染色质状态后验概率矩阵,且以染色质状态后验概率矩阵作为输入特征。
3.根据权利要求1所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,对于一待测位点对,通过如下方式预测其在目标细胞系中是否成环;
4.根据权利要求3所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,步骤s43中,仅对待测染色质提取染色质状态特征得到染色质状态后验概率矩阵,且以染色质状态后验概率矩阵作为输入特征。
5.根据权利要求1-4任意一项所述的黏连蛋白介导的细胞特异性染色质环的预测方法,其特征在于,步骤s1中,利用已检测出来的细胞特异性染色质环获取所述的训练数据,且每组染色质样本的...
【专利技术属性】
技术研发人员:刘利,邹权,郏然然,崔益智,
申请(专利权)人:电子科技大学长三角研究院衢州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。