一种基于SparkStreaming的转录因子结合位点识别发现方法及装置制造方法及图纸

技术编号：27315798 阅读：25 留言：0更新日期：2021-02-10 09:47

本发明专利技术公开了一种基于Spark Streaming的转录因子结合位点识别发现方法和装置，根据转录因子结合位点的长度在转录因子中提取第一基因片段，根据每个第一基因片段确定其对应的候选基因片段集；将基因序列群分割为多个比较组；将每个第二基因片段与每个单位基因序列同时进行比较，当每个单位基因序列均具有第三基因片段时，根据第二基因片段确定转录因子的预测结合位点；遍历候选基因片段集，生成转录因子的结合位点集；本发明专利技术通过将基因序列群分为多个比较组，且结合Spark Streaming理论，同时将每个比较组中的每个单位基因序列与根据转录因子确定的第二基因片段进行比较，可以有效地提升整个方法的执行效率，减少转录因子结合位点识别过程中所消耗的时间。位点识别过程中所消耗的时间。位点识别过程中所消耗的时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark Streaming的转录因子结合位点识别发现方法及装置

[0001]本专利技术属于信息处理
，尤其涉及一种基于Spark Streaming的转录因子结合位点识别发现方法及装置。

技术介绍

[0002]转录作为基因调节的一个重要阶段，它通过转录因子与特异的DNA序列进行结合，从而产生相应的基因表达。转录因子结合位点的识别发现问题即识别DNA序列中的结合区域，该工作对于发现DNA调控信号和破解基因组中的调控编码有重要意义。
[0003]更具体来说，转录因子结合位点识别发现问题是寻找一系列功能相近且形式相似的核苷酸片段，这些核苷酸片段也被称为结合位点，其作为DNA序列中一段保守的模式，能够被转录因子识别。一般在DNA序列的调控区域会含有众多结合位点组成集合，它是指由于某些碱基位发生突变而产生的新序列。
[0004]根据实现的方式不同，转录因子结合位点识别发现方法可以分为枚举法和局部搜索法两类。枚举法是确定结合位点在每条序列中的结合位点集合，基本思路是穷尽遍历整个搜索空间(即整个DNA的序列)，依次评估每个候选结合位点的保守程度，然后输出得分最高的结合位点。
[0005]局部搜索法利用启发式搜索、聚类、概率分析和统计方法等手段，通过构建结合位点的多个初始模型，然后对于每个模型进行迭代更新，最终得到局部最优解，该方法克服了基于枚举思想的方法带来的高计算量的缺点，一般都在较短的时间内完成问题的求解。
[0006]但是，枚举法的计算需要覆盖由结合位点组成的某个集合，计算量...

【技术保护点】

【技术特征摘要】
1.一种基于Spark Streaming的转录因子结合位点识别发现方法，其特征在于，包括以下步骤：根据转录因子结合位点的长度在所述转录因子中提取第一基因片段，根据每个所述第一基因片段确定其对应的候选基因片段集；其中，所述候选基因片段集包括多个第二基因片段；将基因序列群分割为多个比较组；其中，每个所述比较组由至少一个单位基因序列构成，所述单位基因序列的长度与所述转录因子的长度相等；将每个所述第二基因片段与每个所述单位基因序列同时进行比较，当每个所述单位基因序列均具有第三基因片段时，根据所述第二基因片段确定所述转录因子的预测结合位点；其中，所述第三基因片段与所述第二基因片段的差异位数量等于差异位阈值；遍历所述候选基因片段集，根据所有的所述预测结合位点，生成所述转录因子的结合位点集。2.如权利要求1所述的一种基于Spark Streaming的转录因子结合位点识别发现方法，其特征在于，将每个所述第二基因片段与每个所述单位基因序列同时进行比较包括：在每个所述单位基因序列中筛选第四基因片段，所述第四基因片段的位点长度与所述第二基因片段的位点长度相等，且所述第四基因片段中与所述第二基因片段的不同位点数量为所述差异位阈值的m倍；其中，m≥2；将所述第二基因片段与每个所述第四基因片段进行比对，得到多个所述第三基因片段。3.如权利要求2所述的一种基于Spark Streaming的转录因子结合位点识别发现方法，其特征在于，根据每个所述第一基因片段确定其对应的候选基因片段集包括：依次对所述第一基因片段的各位点进行变异，得到多个第二基因片段；其中，所述第一基因片段的变换位点的数量小于等于所述差异位阈值；将多个所述第二基因片段组合，得到所述候选基因片段集。4.如权利要求2或3所述的一种基于Spark Streaming的转录因子结合位点识别发现方法，其特征在于，每个所述比较组中单位基因序列的数量相等。5.如权利要求4所述的一种基于Spark Streaming的转录因子结合位点识别发现方法，其特征在于，每个所述比较组均由一个单位基因序列构成。6.一种基于Spark Streaming的转录因子结合位点识别发现装置，其特征在于，包括：提取模块，用于根据转录因子结合位点的长...

【专利技术属性】
技术研发人员：李安亚，
申请(专利权)人：西安奥卡云数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人