【技术实现步骤摘要】
一种基于Spark SQL的UTR查询方法和装置
[0001]本专利技术涉及基因检测
,特别是指一种基于Spark SQL的UTR查询方法和装置。
技术介绍
[0002]基因测序是指通过测序仪器对血液、体液或细胞的分析,测取组成脱氧核糖核酸(即DNA)的碱基序列。通过调节核质mRNA的转运、翻译效率、亚细胞定位和信息稳定性,真核mRNA的5'和3'UTR(非翻译区)在基因表达的转录后调控中发挥关键作用。UTRdb是一个由多个原始数据来源衍生而来的5'和3'真核mRNA非翻译序列的精选数据库。
[0003]随着成本的迅速下降,基因测序逐渐走向临床应用,测序数据呈现爆发式的增长,需要进行变异分析的数据也急剧增多。但是,现有的基于RefGene、ResSeq等数据库的基因数据分析,受限于这两个数据库的区间查询的算法效率,导致UTRdb的查询效率很低。
技术实现思路
[0004]有鉴于此,本专利技术的目的在于提出一种基于Spark SQL的UTR的查询方法和装置,能够高效准确的进行UTR查询。
...
【技术保护点】
【技术特征摘要】
1.一种基于Spark SQL的UTR查询方法,其特征在于包括:使用指定的Spark SQL语句查询RefGene数据库,并返回唯一标识基因的ID;所述指定的Spark SQL语句是指,使用查询语句select*from s rgjoin r on goverlap((s.txStart,s.txEnd,s.exonCount,s.exonStarts,s.exonEnds,s.chr,s.strand),(r.start,r.end,r.chr))。在本查询语句中,s表示表形式RefGene数据库,r表示表形式的待注释变异。使用二元组作为on的条件,二元组中各个参数表示如下:s.txStart表示表s中变异的起点字段,s.txEnd表示表s中变异的终点字段,s.exonCoun...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。