一种基于SparkStreaming的转录因子结合位点识别发现方法及装置制造方法及图纸

技术编号:27315798 阅读:25 留言:0更新日期:2021-02-10 09:47
本发明专利技术公开了一种基于Spark Streaming的转录因子结合位点识别发现方法和装置,根据转录因子结合位点的长度在转录因子中提取第一基因片段,根据每个第一基因片段确定其对应的候选基因片段集;将基因序列群分割为多个比较组;将每个第二基因片段与每个单位基因序列同时进行比较,当每个单位基因序列均具有第三基因片段时,根据第二基因片段确定转录因子的预测结合位点;遍历候选基因片段集,生成转录因子的结合位点集;本发明专利技术通过将基因序列群分为多个比较组,且结合Spark Streaming理论,同时将每个比较组中的每个单位基因序列与根据转录因子确定的第二基因片段进行比较,可以有效地提升整个方法的执行效率,减少转录因子结合位点识别过程中所消耗的时间。位点识别过程中所消耗的时间。位点识别过程中所消耗的时间。

【技术实现步骤摘要】
一种基于Spark Streaming的转录因子结合位点识别发现方法及装置


[0001]本专利技术属于信息处理
,尤其涉及一种基于Spark Streaming的转录因子结合位点识别发现方法及装置。

技术介绍

[0002]转录作为基因调节的一个重要阶段,它通过转录因子与特异的DNA序列进行结合,从而产生相应的基因表达。转录因子结合位点的识别发现问题即识别DNA序列中的结合区域,该工作对于发现DNA调控信号和破解基因组中的调控编码有重要意义。
[0003]更具体来说,转录因子结合位点识别发现问题是寻找一系列功能相近且形式相似的核苷酸片段,这些核苷酸片段也被称为结合位点,其作为DNA序列中一段保守的模式,能够被转录因子识别。一般在DNA序列的调控区域会含有众多结合位点组成集合,它是指由于某些碱基位发生突变而产生的新序列。
[0004]根据实现的方式不同,转录因子结合位点识别发现方法可以分为枚举法和局部搜索法两类。枚举法是确定结合位点在每条序列中的结合位点集合,基本思路是穷尽遍历整个搜索空间(即整个DNA的序列),依次评估每个候选结合位点的保守程度,然后输出得分最高的结合位点。
[0005]局部搜索法利用启发式搜索、聚类、概率分析和统计方法等手段,通过构建结合位点的多个初始模型,然后对于每个模型进行迭代更新,最终得到局部最优解,该方法克服了基于枚举思想的方法带来的高计算量的缺点,一般都在较短的时间内完成问题的求解。
[0006]但是,枚举法的计算需要覆盖由结合位点组成的某个集合,计算量是非常可观的,消耗时间很长。局部搜索法不是总能保证得到全局最优解,其精度难以保证。

技术实现思路

[0007]本专利技术的目的是提供一种基于Spark Streaming的转录因子结合位点识别发现方法及装置,可以减少结合位点识别过程所消耗的时间。
[0008]本专利技术采用以下技术方案:一种基于Spark Streaming的转录因子结合位点识别发现方法,包括以下步骤:
[0009]根据转录因子结合位点的长度在转录因子中提取第一基因片段,根据每个第一基因片段确定其对应的候选基因片段集;其中,候选基因片段集包括多个第二基因片段;
[0010]将基因序列群分割为多个比较组;其中,每个比较组由至少一个单位基因序列构成,单位基因序列的长度与转录因子的长度相等;
[0011]将每个第二基因片段与每个单位基因序列同时进行比较,当每个单位基因序列均具有第三基因片段时,根据第二基因片段确定转录因子的预测结合位点;其中,第三基因片段与第二基因片段的差异位数量等于差异位阈值;
[0012]遍历候选基因片段集,根据所有的预测结合位点,生成转录因子的结合位点集。
[0013]进一步地,将每个第二基因片段与每个单位基因序列同时进行比较包括:
[0014]在每个单位基因序列中筛选第四基因片段,第四基因片段的位点长度与第二基因片段的位点长度相等,且第四基因片段中与第二基因片段的不同位点数量为差异位阈值的m倍;其中,m≥2;
[0015]将第二基因片段与每个第四基因片段进行比对,得到多个第三基因片段。
[0016]进一步地,根据每个第一基因片段确定其对应的候选基因片段集包括:
[0017]依次对第一基因片段的各位点进行变异,得到多个第二基因片段;其中,第一基因片段的变换位点的数量小于等于差异位阈值;
[0018]将多个第二基因片段组合,得到候选基因片段集。
[0019]进一步地,每个比较组中单位基因序列的数量相等。
[0020]进一步地,每个比较组均由一个单位基因序列构成。
[0021]本专利技术的另一种技术方案:一种基于Spark Streaming的转录因子结合位点识别发现装置,包括:
[0022]提取模块,用于根据转录因子结合位点的长度在转录因子中提取第一基因片段,根据每个第一基因片段确定其对应的候选基因片段集;其中,候选基因片段集包括多个第二基因片段;
[0023]分割模块,用于将基因序列群分割为多个比较组;其中,每个比较组由至少一个单位基因序列构成,单位基因序列的长度与转录因子的长度相等;
[0024]比较模块,用于将每个第二基因片段与每个单位基因序列同时进行比较,当每个单位基因序列均具有第三基因片段时,根据第二基因片段确定转录因子的预测结合位点;其中,第三基因片段与第二基因片段的差异位等于差异位阈值;
[0025]生成模块,用于遍历候选基因片段集,根据所有的预测结合位点,生成转录因子的结合位点集。
[0026]进一步地,比较模块包括:
[0027]筛选模块,用于在每个单位基因序列中筛选第四基因片段,第四基因片段的位点长度与第二基因片段的位点长度相等,且第四基因片段中与第二基因片段的不同位点数量为差异位阈值的m倍;其中,m≥2;
[0028]比对模块,用于将第二基因片段与每个第四基因片段进行比对,得到多个第三基因片段。
[0029]进一步地,提取模块包括:
[0030]变异模块,用于依次对第一基因片段的各位点进行变异,得到多个第二基因片段;其中,第一基因片段的变换位点的数量小于等于差异位阈值;
[0031]组合模块,用于将多个第二基因片段组合,得到候选基因片段集。
[0032]本专利技术的另一种技术方案:一种基于Spark Streaming的转录因子结合位点识别发现装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一项的一种基于Spark Streaming的转录因子结合位点识别发现方法。
[0033]本专利技术的另一种技术方案:一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任一项的一种基于Spark Streaming
的转录因子结合位点识别发现方法。
[0034]本专利技术的有益效果是:本专利技术通过将基因序列群分为多个比较组,且结合Spark Streaming理论,同时将每个比较组中的每个单位基因序列与根据转录因子确定的第二基因片段进行比较,可以有效地提升整个方法的执行效率,减少转录因子结合位点识别过程中所消耗的时间。
附图说明
[0035]图1为本专利技术实施例一种基于Spark Streaming的转录因子结合位点识别发现方法的流程示意图;
[0036]图2为本专利技术实施例中原始基因序列群数据按照时间序列进行划分的示意图;
[0037]图3为本专利技术实施例中基因序列群数据的分解与分发处理流程示意图;
[0038]图4为本专利技术实施例中在Spark Streaming框架下进行转录因子结合位点识别发现的工作流程图;
[0039]图5为本专利技术实施例基于Spark Streaming的转录因子结合位点识别发现框架图;
[0040]图6为本专利技术另一实施例一种基于Spark Streaming的转录因子结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,包括以下步骤:根据转录因子结合位点的长度在所述转录因子中提取第一基因片段,根据每个所述第一基因片段确定其对应的候选基因片段集;其中,所述候选基因片段集包括多个第二基因片段;将基因序列群分割为多个比较组;其中,每个所述比较组由至少一个单位基因序列构成,所述单位基因序列的长度与所述转录因子的长度相等;将每个所述第二基因片段与每个所述单位基因序列同时进行比较,当每个所述单位基因序列均具有第三基因片段时,根据所述第二基因片段确定所述转录因子的预测结合位点;其中,所述第三基因片段与所述第二基因片段的差异位数量等于差异位阈值;遍历所述候选基因片段集,根据所有的所述预测结合位点,生成所述转录因子的结合位点集。2.如权利要求1所述的一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,将每个所述第二基因片段与每个所述单位基因序列同时进行比较包括:在每个所述单位基因序列中筛选第四基因片段,所述第四基因片段的位点长度与所述第二基因片段的位点长度相等,且所述第四基因片段中与所述第二基因片段的不同位点数量为所述差异位阈值的m倍;其中,m≥2;将所述第二基因片段与每个所述第四基因片段进行比对,得到多个所述第三基因片段。3.如权利要求2所述的一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,根据每个所述第一基因片段确定其对应的候选基因片段集包括:依次对所述第一基因片段的各位点进行变异,得到多个第二基因片段;其中,所述第一基因片段的变换位点的数量小于等于所述差异位阈值;将多个所述第二基因片段组合,得到所述候选基因片段集。4.如权利要求2或3所述的一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,每个所述比较组中单位基因序列的数量相等。5.如权利要求4所述的一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,每个所述比较组均由一个单位基因序列构成。6.一种基于Spark Streaming的转录因子结合位点识别发现装置,其特征在于,包括:提取模块,用于根据转录因子结合位点的长...

【专利技术属性】
技术研发人员:李安亚
申请(专利权)人:西安奥卡云数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1