当前位置: 首页 > 专利查询>清华大学专利>正文

染色质相互作用差异的分析方法和系统技术方案

技术编号:18289765 阅读:62 留言:0更新日期:2018-06-24 04:35
本发明专利技术涉及一种不同状态的样品中染色质相互作用差异的分析方法,更具体涉及一种结合近邻相互作用的信息进行差异性染色质相互作用分析的方法。

【技术实现步骤摘要】
染色质相互作用差异的分析方法和系统
本专利技术涉及一种不同状态的样品中染色质相互作用差异的分析方法,更具体涉及一种结合近邻相互作用的信息进行差异性染色质相互作用分析的方法。
技术介绍
伴随着人类基因组计划的完成,染色质一维结构的信息即DNA序列信息逐步被破解与完善。大量开展的全基因组或外显子组测序等工作,为基因组的序列信息、SNV、功能元件等基因组的研究奠定基础。进一步的,ATAC-seq、ChIP-exo、ChIRP-seq等技术的出现则能够有效的揭示基因组开放程度、转录因子结合情况等信息,推动研究者构建起包含基因-基因、基因-蛋白质相互作用在内的二维调控网络。基于近端连接技术的3C、4C、5C、Hi-C、ChIA-PET和DamID等技术的出现,揭示了蛋白质介导的染色质长程相互作用信息,打开了3D基因组结构研究的大门。而singlecellHi-C、DilutionHi-C、insituHi-C、DNaseHi-C、Capture-C等技术的演变,又使得三维基因组研究的信噪比和精度不断提。在很多生物学过程中,例如细胞分化、病变,染色质三维结构或者构象均发生了巨大的改变,这就需要对不同时间下和/或状态下所出现的差异染色质相互作用进行分析。但是目前染色质相互作用信号的分析方法,从准确度到精度都有所不足,例如最简单也是最常用的策略之一是使用染色质相互作用频率的变化倍数作为检测的标准,这常常会导致分析结果出现较高数量的假阳性或假阴性。因此本领域迫切需要一种新的方法,能够更加有效的识别染色质相互作用的差异。
技术实现思路
专利技术人经过长期的研究,专利技术了一个染色质相互作用差异分析的新方法,该方法基于线性距离相隔较远的两个染色质区段位置在空间上发生相互作用(或者相互靠近)时,这个两个DNA位置各自周边的染色质区段位置也会出现相互靠近的因素,将周边染色质区段的相互接触强度也纳入了分析范围,并通过合理的模型构建从而识别染色质相互作用的差异。结果发现本专利技术的方法能够更好的符合染色质相互作用的特点。通过模拟和实际实验数据的分析表明,本专利技术方法相对目前广泛应用的count-based算法(假设相互作用的DNA位置与其附近的其他DNA位置是相对孤立的),具有更好的检出效果。本专利技术至少包括下列实施方案:1、一种用于分析不同状态的样品中染色质相互作用差异的方法,其包括下列步骤:(1)分别对处于第一状态和第二状态的样品进行染色质相互作用的分析,(2)根据作用染色质区段对在第一状态和第二状态的样品间的接触强度差异以及邻居染色质区段对之间的接触强度差异,分析得到在不同状态的样品中具有差异的染色质相互作用,所述作用染色质区段对是指经过染色质相互作用分析被鉴定实际发生染色质相互作用的染色质区段对,其包括至少两个作用染色质区段;所述邻居染色质区段对是由邻居染色质区段两两组合形成的,所述邻居染色质区段是指发生相互作用的两个染色质区段各自所临近的染色质区段,由于作用染色质区段对的关系,作用染色质区段附近的染色质区段之间的空间距离也被拉近而产生染色质接触的信号。优选的,步骤(1)的染色质相互作用分析重复进行nc次实验,其中c=1或2,n1表示针对第一状态的样品重复的次数,n2表示针对第二状态的样品重复的次数,n1和n2相等或不相等,nc是1-100之间的自然数,例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20,优选2、3、4或5。其中,优选的,步骤(1)的分析能够获得全基因组范围内或者目标区域范围内所存在的一个或更多个染色质相互作用,更优选的,步骤(1)的分析能够获得全基因组范围内或者目标区域范围内所存在的染色质相互作用位置和强度,2、根据实施方案1所述的方法,其中所述步骤(2)中获得染色质相互作用的差异包括下列步骤:a)计算处于第一状态的样品中,每一个或感兴趣的作用染色质区段对在n1次重复实验中的平均染色质作用强度;和/或处于第二状态的样品中,每一个或感兴趣的作用染色质区段对在n2次重复实验中的平均染色质作用强度;b)以步骤a)获得的处于第一状态的样品或处于第二状态的样品的平均染色质作用强度为基准强度,并为该基准强度赋予与所述作用染色质区段相同的空间位置信息,分别计算每一次重复实验中,处于第一状态和第二状态的样品中每一个或者感兴趣的作用染色质区段对及其邻居染色质区段对相对于基准强度的排序,所述排序综合了相对空间位置和相对染色质接触强度的信息,优选的,所述排序是基于各染色质区段对相对于基准强度的欧式距离而确定的,c)分别获得针对每个样品在不同次的实验中具有相同排序的染色质区段对的集合,建立上述集合相对于基准强度的分布,分析每一排序下的所述分布在处于第一状态的样品和第二状态的样品之间是否具有显著性差异,优选的,步骤c)中的分布是利用数学模型计算获得,更优选的,所述数学模型是空间泊松点过程(空间泊松分布),更优选的,基于该空间泊松点过程计算得到该分布下观察到具有该排序的染色质接触强度的概率,并分析上述概率值在第一状态的样品和第二状态的样品之间是否具有显著性差异。3、根据实施方案2所述的方法,其中分别以处于第一状态和第二状态的样品的平均染色质作用强度为基准强度,各进行一次空间泊松点过程的计算。4、根据实施方案2或3所述的方法,其中分析所述分布之间是否具有显著性差异时采用Fisher检验,获得p值,随后将由各个排序下的分布获得的p值集合进行rOP统计(r-thorderedp-valuestatistics),从而确定处于第一状态的样品和第二状态的样品中在每一个或者感兴趣的染色质相互作用处是否存在差异。5、根据实施方案1至4中任一项所述的方法,所述邻居染色质区段对由位于作用染色质区段两侧各1-10个位置的邻居染色质区段之间两两组合形成,优选1个位置、2个位置或3个位置,更优选1个或2个位置。6、根据实施方案1至5中任一项所述的方法,其中步骤(2)按照下述步骤进行:i)为一个作用染色质区段对赋予坐标信息(i,j),其中i表示发生相互作用的两个染色质区段中,位于基因组序列上游的染色质区段位置,j表示位于基因组序列下游的染色质区段位置;以(i,j)为平面中心建立一个二维平面窗口,宽度为W,所述窗口共包含W2个染色质区段对,用w表示位于与i或j的坐标距离,则上述窗口内各染色质区段对的横坐标可表示为(i+w)、i、和(i-w),纵坐标为(j+w)、j和(j-w),除了中心位置(i,j)外,其他位置作为邻居位置,表示为(i[w],j[w]);其中w<=(W-1)/2,W为3-19之间的奇数,例如3、5、7、9、11、13、15、17、19,优选3、5或7。ii)将第m次重复试验中(i,j)位置的染色质相互作用频率记做Z(i,j)m,其中m是自然数,并且m<=nc;将位置坐标(i,j)以及该位置的频率值转换为一个三维坐标系的点(i,j,Z(i,j)m);同时将窗口内其他位置的染色质接触强度记做Z(i[w],j[w])m,进一步结合位置坐标将染色质区段对转换为多个三维坐标系的点(i[w],j[w],Z(i[w],j[w])m);iii)计算在处于第一种状态的样品中(i,j)位置上n本文档来自技高网...
染色质相互作用差异的分析方法和系统

【技术保护点】
1.一种用于分析不同状态的样品中染色质相互作用差异的方法,其包括下列步骤:(1)分别对处于第一状态和第二状态的样品进行染色质相互作用的分析;(2)根据作用染色质区段对在第一状态和第二状态的样品间的接触强度差异以及邻居染色质区段对之间的接触强度差异,分析得到在不同状态的样品中具有差异的染色质相互作用,所述作用染色质区段对是指经过染色质相互作用分析被鉴定实际发生染色质相互作用的染色质区段对,其包括至少两个作用染色质区段;所述邻居染色质区段对是由邻居染色质区段两两组合形成的,所述邻居染色质区段是指发生相互作用的两个染色质区段各自所临近的染色质区段,由于作用染色质区段对的关系,作用染色质区段附近的染色质区段之间的空间距离也被拉近而产生染色质接触的信号;优选的,步骤(1)的染色质相互作用分析重复进行nc次实验,其中c=1或2,n1表示针对第一状态的样品重复的次数,n2表示针对第二状态的样品重复的次数,n1和n2相等或不相等,nc是1‑100之间的自然数,例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20,优选2、3、4或5。

【技术特征摘要】
1.一种用于分析不同状态的样品中染色质相互作用差异的方法,其包括下列步骤:(1)分别对处于第一状态和第二状态的样品进行染色质相互作用的分析;(2)根据作用染色质区段对在第一状态和第二状态的样品间的接触强度差异以及邻居染色质区段对之间的接触强度差异,分析得到在不同状态的样品中具有差异的染色质相互作用,所述作用染色质区段对是指经过染色质相互作用分析被鉴定实际发生染色质相互作用的染色质区段对,其包括至少两个作用染色质区段;所述邻居染色质区段对是由邻居染色质区段两两组合形成的,所述邻居染色质区段是指发生相互作用的两个染色质区段各自所临近的染色质区段,由于作用染色质区段对的关系,作用染色质区段附近的染色质区段之间的空间距离也被拉近而产生染色质接触的信号;优选的,步骤(1)的染色质相互作用分析重复进行nc次实验,其中c=1或2,n1表示针对第一状态的样品重复的次数,n2表示针对第二状态的样品重复的次数,n1和n2相等或不相等,nc是1-100之间的自然数,例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20,优选2、3、4或5。2.根据权利要求1所述的方法,其中所述步骤(2)中获得染色质相互作用的差异包括下列步骤:a)计算处于第一状态的样品中,每一个或感兴趣的作用染色质区段对在n1次重复实验中的平均染色质作用强度;和/或处于第二状态的样品中,每一个或感兴趣的作用染色质区段对在n2次重复实验中的平均染色质作用强度;b)以步骤a)获得的处于第一状态的样品或处于第二状态的样品的平均染色质作用强度为基准强度,并为该基准强度赋予与所述作用染色质区段相同的空间位置信息,分别计算每一次重复实验中,处于第一状态和第二状态的样品中每一个或者感兴趣的作用染色质区段对及其邻居染色质区段对相对于基准强度的排序,所述排序综合了相对空间位置和相对染色质接触强度的信息,优选的,所述排序是基于各染色质区段对相对于基准强度的欧式距离而确定的,c)分别获得针对每个样品在不同次的实验中具有相同排序的染色质区段对的集合,建立上述集合相对于基准强度的分布,分析每一排序下的所述分布在处于第一状态的样品和第二状态的样品之间是否具有显著性差异,优选的,步骤c)中的分布是利用数学模型计算获得,更优选的,所述数学模型是空间泊松点过程(空间泊松分布),更优选的,基于该空间泊松点过程计算得到该分布下观察到具有该排序的染色质接触强度的概率,并分析上述概率值在第一状态的样品和第二状态的样品之间是否具有显著性差异。3.根据权利要求2所述的方法,其中分别以处于第一状态和第二状态的样品的平均染色质作用强度为基准强度,各进行一次空间泊松点过程的计算。4.根据权利要求2或3所述的方法,其中分析所述分布之间是否具有显著性差异时采用Fisher检验,获得p值,随后将由各个排序下的分布获得的p值集合进行rOP统计(r-thorderedp-valuestatistics),从而确定处于第一状态的样品和第二状态的样品中在每一个或者感兴趣的染色质相互作用处是否存在差异。5.根据权利要求1至4中任一项所述的方法,所述邻居染色质区段对由位于作用染色质区段两侧各1-10个位置的邻居染色质区段之间两两组合形成,优选1个位置、2个位置或3个位置,更优选1个或2个位置。6.根据权利要求1至5中任一项所述的方法,其中步骤(2)按照下述步骤进行:i)为一个作用染色质区段对赋予坐标信息(i,j),其中i表示发生相互作用的两个染色质区段中,位于基因组序列上游的染色质区段位置,j表示位于基因组序列下游的染色质区段位置;以(i,j)为平面中心建立一个二维平面窗口,宽度为W,所述窗口共包含W2个染色质区段对,用w表示位于与i或j的坐标距离,则上述窗口内各染色质区段对的横坐标可表示为(i+w)、i、和(i-w),纵坐标为(j+w)、j和(j-w),除了中心位置(i,j)外,其他位置作为邻居位置,表示为(i[w],j[w]);其中w<=(W-1)/2,W为3-19之间的奇数,例如3、5、7、9、11、13、15、17、19,优选3、5或7;ii)将第m次重复试验中(i,j)位置的染色质相互作用频率记做Z(i,j)m,其中m是自然数,并且m<=nc;将位置坐标(i,j)以及该位置的频率值转换为一个三维坐标系的点(i,j,Z(i,j)m);同时将窗口内其他位置的染色质接触强度记做Z(i[w],j[w])m,进一步结合位置坐标将染色质区段对转换为多个三维坐标系的点(i[w],j[w],Z(i[w],j[w])m);iii)计算在处于第一种状态的样品中(i,j)位置上nc次重复试验中得到的相互作用频率的平均值,记做mean(Z(i,j)n(1)),并在前述三维坐标系中指定一个新的点值μ1,其坐标为[i,j,mean(Z(i,j)n(1))];和/或计算处于第二种状态下的样品中(i,j)位置上nc次重复试验中得到的相互作用频率的平均值,记做mean(Z(i,j)n(2)),并在前述三维坐标系中指定一个新的点值μ2,其坐标为[i,j,mean(Z(i,j)n(2))];iv)分别计算处于第一种状态和第二次状态下的样品的第m次重复实验中,包含中心位置(i,j,Z(i,j)m)以及邻居位置(i[w],j[w],Z(i[w],j[w])m)在内的点到μ1或μ2的欧式空间距离,从而获得第一状态和第二状态下分别与点μ1或μ2的欧式空间距离最近的点,称作第一邻居点,空间距离第二近的点称作第二邻居点,以此类推,空间距离第W2近的点称作第W2邻居点,将第一状态下第m次重复实验中的第k邻居点指定为Pmk(1)、将第二状态下第m次重复实验中的第k邻居点被记做Pmk(2),其中k<=W2;v)基于第一种状态下每一次重复试验中得到的μ1到第k邻居点Pmk(1)的欧式空间距离,使用空间泊松分布模型分析获得在第一种状态下观察到第k邻居点的概率值;同时基于第二种状态下每一次重复试验中得到的μ1到第k邻居点Pmk(2)的欧氏空间距离,获得在第二种状态下观察到第k邻居点的概率值,利用Fisher检验比较上述概率值获得判定标准pk,从而获得W2个判定标准pk;和/或基于第一种状态下每一次重复试验中得到的μ1到第k邻居点Pmk(1)的欧式空间距离,使用空间泊松分布模型分析获得在第一种状态下观察到第k邻居点的概率值;同时基于第二种状态下每一次重复试验中μ2到第k邻居点Pmk(2)的欧氏空间距离,获得在第二种状态下观察到第k邻居点的概率值,利用Fisher检验比较上述概率值获得判定标准pk’,从而获得W2个判定标准pm’;vi)利用rOP统计上述(W)2个pm值和/或(W)2个pm’值,从而确定处于第一状态的样品和第二状态的样品中在每一个或者感兴趣的染色质相互作用处是否存在差异。7.根据权利要求6所述的方法,其中所述的空间泊松分布模型的分析如下:将点Pmk(1)与Pmk(2)的接触强度分别使用和表示,其中如果比值明显偏离整体分布,可认为在μ1处第k邻居点的强度发生变化。在零假设的情况下,比率Rk(μ1)分别遵循具有2n1k和2n2k自由度的Fisher分布。8.根据权利要求6或7所述的方法,其中所述rOP检验基于以下假设:其中,θk是检验k的有效大小.Sr是p值的第r阶统计量,并且Sr~Beta(r,2W2-r+1),其中r值为小于p*W2的最大整数值,其中p∈(0,1],具体含义表示两个条件之间一个染色质相互作用被视为差异性染色质相互作用时,所含有的产生显著变化的第k邻居的百分比。9.一种鉴定调控染色质相互作用的试剂的方法,其包括将使样本与一种或多种试剂接触,利用权利要求1至8中任一项所述的方法分析染色质相互作用差异,以及鉴定相比于不添加调控试剂的对照组能够改变相互作用的试剂。10.一种分析细胞分化、发育或病变过程中遗传物质高级结构改变的方法,其包括权利要求1-8任一项所述的步骤。11.一种鉴定染色质结构变异的方法,其包括权利要求1至8中任一项所述的步骤。12.一种鉴定能够调控遗传物质高级结构或引起染色质结构变异的调控试剂的方法,其包括将使样本与一种或多种试剂接触,利用权利要求1至8中任一项所述的方法分析染色质相互作用差异,以及以及鉴定相比于不添加调控试...

【专利技术属性】
技术研发人员:陈阳那第尔张奇伟
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1