【技术实现步骤摘要】
一种基因组结构变异分布检测方法及检测装置
[0001]本专利技术涉及基因组数据分析
,具体的是一种基因组结构变异分布检测方法及检测装置。
技术介绍
[0002]人类基因组序列的结构变异是DNA序列片段的插入、缺失或重排,长度从大约1000到数百万个碱基对不等。在过去的几年里,结构变异在人类基因组中的普遍性比以前想象得要高得多,且其在基因组中并非随机分布。结构变异研究对于基因组进化,群体多态性分析以及疾病易感性等方面的研究有着重要的意义。随着第二代高通量测序技术的发展,人类基因组上的结构变异图谱才被真正全面而又集中地进行了研究。传统的通过降雨图来可视化基因组中变异沿基因组的分布,由于标准图的大小有限,降雨图可能无法区分重叠事件,尤其是在同一图中绘制多个数据集时会导致数据拥堵。
技术实现思路
[0003]为解决上述
技术介绍
中提到的不足,本专利技术的目的在于提供一种基因组结构变异分布检测方法及检测装置,可读取高通量测序数据,利用分段常数拟合PCF算法检测出变异在染色体上的分布。
[0004]本专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种基因组结构变异分布检测方法,其特征在于,包括以下步骤:S1、获取及过滤基因组测序数据;S2、计算相邻变异间的距离;S3、利用分段常数拟合PCF算法对基因组进行分割;S4、可视化变异沿基因组的分布。2.根据权利要求1所述的基因组结构变异分布检测方法,其特征在于,所述步骤S1中可以获取的基因组测序文件包括VCF和MAF格式文件,根据文件中FILTER列来过滤变异,将FILTER列为PASS所对应的变异数据提取出来。3.根据权利要求1所述的基因组结构变异分布检测方法,其特征在于,所述步骤S2中计算相邻变异间距离的具体步骤如下:S201、根据基因组坐标#CHROM和POS对提取出的变异数据进行升序排序;S202、根据基因组坐标计算所述变异数据中相邻变异间的距离,计算方法为:p
i
=l
i
‑1+(l
i
‑
l
i
‑1)/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1),其中,l
i
为每个变异在染色体上的位置,p
i
为相邻变异间中点位置,每个观测到的相邻变异间距离为d
i
:d
i
=l
i
‑
l
i
‑1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)。4.根据权利要求3所述的基因组结构变异分布检测方法,其特征在于,所述步骤S3利用分段常数拟合PCF算法对基因组进行分割,产生分割片段集合S,每一个片段I中包含的变异的数目n
I
和变异间距离平均值d
I
,具体如下:步骤S202中的p
i
将用于标记变异间距离在基因组上变化的跳跃点或断点,而d
i
则由两部分组成:d
i
=c
...
【专利技术属性】
技术研发人员:李健,林雪,刘安娜,许利群,孙泽鹏,乔丰,刘新龙,
申请(专利权)人:中移成都信息通信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。