【技术实现步骤摘要】
一种高通量测序数据可视化方法、装置、介质及设备
[0001]本专利技术属于生物信息处理领域,尤其涉及一种高通量测序数据可视化方法、装置、介质及设备。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]现有技术中,高通量测序序列可视化的方法通常是获取测序仪输出的测序文件并将其全部读入本地内存,然后查询参考基因组(reference genome)片段进行比对,最后以图形的形式显示对比结果。这类传统的可视化方法的缺陷是:第一,由于高通量测序产生的reads数量巨大,把整个文件读进内存需要很长时间;第二,读入整个文件需要的内存远远超过了普通计算机的内存上限。例如,现有的IGV(Integrated Genome Viewer,整合基因组浏览器)将所有数据集中存储在本地,运行时需要数据读入内存,大约占用3
‑
5秒的启动时间,并且对内存的要求较大,运行时内存超过1G,消耗很大的本地资源,可能造成电脑卡顿。
[0004]主流基于Web的基因组 ...
【技术保护点】
【技术特征摘要】
1.一种高通量测序数据可视化方法,其特征在于,包括:获取高通量测序数据,并从高通量测序数据中提取可视化图像数据及其对应的描述性信息数据;基于预设分级分片机制对所述可视化图像数据进行分级分片处理,并构建出可视化图像数据查询索引,将可视化图像数据的分级分片数据连同其查询索引分散至可视化图像数据库中的节点中进行存储;将描述性信息数据按照描述性信息数据查询索引存储至描述性信息数据库中;其中,可视化图像数据查询索引与描述性信息数据查询索引具有共同的唯一标识信息;将基于可视化图像数据查询索引所调取的可视化图像数据进行渲染并进行展示,同时基于描述性信息数据查询索引展示与渲染后的可视化图像数据相匹配的描述性信息数据。2.如权利要求1所述的高通量测序数据可视化方法,其特征在于,在基于预设分级分片机制对所述可视化图像数据进行分级分片处理的过程中,分级与分片数关系计算规则为:当分级级数为n时,每一级对应的分片数为2的n次幂;其中,n是自然数。3.如权利要求1所述的高通量测序数据可视化方法,其特征在于,在基于预设分级分片机制对所述可视化图像数据进行分级分片处理的过程中,每条染色体的分级级数N的计算规则为:1≤M*2^N/C<2;其中,C代表染色体长度,即染色体碱基总数,N代表此染色体序列需要被分的级数,也代表分级的最后一级,第N级;M代表最小分割序列。4.如权利要求3所述的高通量测序数据可视化方法,其特征在于,在基于预设分级分片机制对所述可视化图像数据进行分级分片处理的过程中,最小分割序列是指分级的最后一级中每个分片代表的碱基序列长度,是由碱基分辨率、客户端图像渲染速度和网络传输速度共同决定的。5.如权利要求1所述的高通量测序数据可视化方法,其特征在于,在基于预设分级分片机制对所述可视化图像数据进行分级分片处理的过程中,第n级中每个分片代表的碱基序列长度的计算规则为:M*2^(N
‑
n),其中,N代表分级的最后一级,n代表第n级,即从0到N的任意一级,M代表最小分割序列;或在基于预设分级分片机制对所述可视化图像数据进行分级分片处理的过程中,同一个染色体经过分级分片处理后,每一级中所有分片代表的碱基序列长度之和都为M*2^N,N代表分级的最后一级,M代表最小分割序列。6.如权利要求1所述的高通量测序数据可视化方法,其特征在于,可视化图像数据查询索引按照先分级再分片的原则,由各个级别各个片的碱基起始位置构成。7.一种高通量测序数据可视化装置,其特征在于,包括:数据提取模块,其用于获取高通量测序数据,并从高通量测序数据中提取可视化图像数据及其对应的描述性信息数据;数据存储模块,其用于基于预设分级分片机制对所述可视化图像数据进行分级分片处理,并构建出可视化图像数据查询索引,将可视化图像数据的分级分片数据连同其查询索引分散至可视化图像数据库中的节点中进行存储;将描述性信息数据按照描述性信息数据查询索引存储至描述性信息数据库中;其中,...
【专利技术属性】
技术研发人员:陆燊,孙杰,陆作成,
申请(专利权)人:染色质青岛信息科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。