一种基于SparkSQL的UTR查询方法和装置制造方法及图纸

技术编号:28703670 阅读:30 留言:0更新日期:2021-06-05 22:04
本发明专利技术的实施方式提供了一种基于Spark SQL的UTR的查询方法。该方法包括:使用指定的Spark SQL语句查询RefGene数据库,并返回唯一标识基因的ID;根据返回的基因ID,查询UTRdb,并返回查询结果。此外,本发明专利技术的实施方式提供了一种基于Spark SQL的UTR的查询装置。SQL的UTR的查询装置。SQL的UTR的查询装置。

【技术实现步骤摘要】
一种基于Spark SQL的UTR查询方法和装置


[0001]本专利技术涉及基因检测
,特别是指一种基于Spark SQL的UTR查询方法和装置。

技术介绍

[0002]基因测序是指通过测序仪器对血液、体液或细胞的分析,测取组成脱氧核糖核酸(即DNA)的碱基序列。通过调节核质mRNA的转运、翻译效率、亚细胞定位和信息稳定性,真核mRNA的5'和3'UTR(非翻译区)在基因表达的转录后调控中发挥关键作用。UTRdb是一个由多个原始数据来源衍生而来的5'和3'真核mRNA非翻译序列的精选数据库。
[0003]随着成本的迅速下降,基因测序逐渐走向临床应用,测序数据呈现爆发式的增长,需要进行变异分析的数据也急剧增多。但是,现有的基于RefGene、ResSeq等数据库的基因数据分析,受限于这两个数据库的区间查询的算法效率,导致UTRdb的查询效率很低。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提出一种基于Spark SQL的UTR的查询方法和装置,能够高效准确的进行UTR查询。
[0005]基于上述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Spark SQL的UTR查询方法,其特征在于包括:使用指定的Spark SQL语句查询RefGene数据库,并返回唯一标识基因的ID;所述指定的Spark SQL语句是指,使用查询语句select*from s rgjoin r on goverlap((s.txStart,s.txEnd,s.exonCount,s.exonStarts,s.exonEnds,s.chr,s.strand),(r.start,r.end,r.chr))。在本查询语句中,s表示表形式RefGene数据库,r表示表形式的待注释变异。使用二元组作为on的条件,二元组中各个参数表示如下:s.txStart表示表s中变异的起点字段,s.txEnd表示表s中变异的终点字段,s.exonCoun...

【专利技术属性】
技术研发人员:吕宁
申请(专利权)人:西安邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1