应用于组织样本中染色体上转录因子结合位点的检测方法技术

技术编号：17994866 阅读：67 留言：0更新日期：2018-05-19 12:02

本发明专利技术涉及应用于组织样本中染色体上转录因子结合位点的检测方法，包括数据预处理、分割DNA短序列、均值检测和概率检测。与己有的检测算法相比，提高了ChIP‑seq数据的转录因子结合位点识别算法的性能，算法消耗的时间更少，并能准确的识别已有的和新的转录因子结合位点，为转录因子的研究提供了新的技术手段和重要工具。

Detection of transcription factor binding sites on chromosomes in tissue samples

The present invention relates to the detection methods of chromosomal transcription factor binding sites used in tissue samples, including data preprocessing, segmentation of DNA short sequences, mean detection and probability detection. Compared with the existing detection algorithms, the performance of the ChIP SEQ data is improved by the transcription factor binding site identification algorithm. The algorithm consumes less time and can accurately identify the existing and new transcription factor binding sites, and provides new technical hand and important tools for the research of transcription factors.

全部详细技术资料下载

【技术实现步骤摘要】
应用于组织样本中染色体上转录因子结合位点的检测方法
本专利技术属于免疫检测
，尤其涉及应用于组织样本中染色体上转录因子结合位点的检测方法。
技术介绍
近些年来，“大数据”这个词汇已经成为当下最常见的词汇之一，而自从上世纪90年代开始，生物信息学经过多年的发展，已经从最初的DNA序列分析和蛋白质序列分析，扩展到生物学的各个领域，使得生物学数据的增长惊人，生物学现在也已经进入了“大数据”时代。转录是基因表达的第一阶段，也是基因调节的主要阶段，通过转录因子与特异的序列结合，对基因的表达起抑制或增强的作用。识别序列的中的这些结合区域，即转录因子结合位点识别，对了解基因的转录活性及理解基因表达有着重要意义，是现今生物信息学中最为广泛研究的问题之一。转录因子结合位点识别问题的难点在于，与大量长度几百或上千碱基的背景噪声序列相比，长度为十几或几十的模体信号相对较短，并且同一转录因子的模体实例还有可能部分发生变异。同时，随着序列长度和数量的增加，解空间大小也会飞速巨增，计算开销往往不切实际。此外，识别结合区域中的多个转录因子结合位点、寻找特定的共调控转录因子结合位点组合以及...

【技术保护点】
应用于组织样本中染色体上转录因子结合位点的检测方法，其特征在于，包括以下步骤：步骤一：数据预处理：首先，读取样本的ChIP‑seq数据，并将其比对到参考基因组上，寻找出转录因子结合位点富集的特征峰和峰顶点的位置信息；然后，以所述峰顶点为中心分别向左右两侧延展500bp，延伸后的数据中，每一个DNA序列的中心均为所述峰顶点；最后，将所述DNA序列提取出来并去掉其中重复的序列得到DNA短序列；步骤二：分割DNA短序列：将所述DNA短序列中前N‑4个碱基分别依次作为头碱基，将所述头碱基及其之后连续的四个碱基划分为一个子序列，并将所述头碱基在所述DNA短序列的次序作为所述子序列的编号，所述子序列的编号...

【技术特征摘要】
1.应用于组织样本中染色体上转录因子结合位点的检测方法，其特征在于，包括以下步骤：步骤一：数据预处理：首先，读取样本的ChIP-seq数据，并将其比对到参考基因组上，寻找出转录因子结合位点富集的特征峰和峰顶点的位置信息；然后，以所述峰顶点为中心分别向左右两侧延展500bp，延伸后的数据中，每一个DNA序列的中心均为所述峰顶点；最后，将所述DNA序列提取出来并去掉其中重复的序列得到DNA短序列；步骤二：分割DNA短序列：将所述DNA短序列中前N-4个碱基分别依次作为头碱基，将所述头碱基及其之后连续的四个碱基划分为一个子序列，并将所述头碱基在所述DNA短序列的次序作为所述子序列的编号，所述子序列的编号为正整数；所述N是所述DNA短序列中的碱基数量，所述N为正整数；所述子序列中包括五个碱基，所述头碱基是所述子序列中的第一个碱基，所述DNA短序列可以划分出N-4个所述子序列；步骤三：均值检测：分别对四种碱基计算当前碱基均值，所述四种碱基包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)：(1)正在计算的碱基为当前碱基，按照所述子序列的编号，依次统计当前碱基在...

【专利技术属性】
技术研发人员：李旦，
申请(专利权)人：上海嘉因生物科技有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人