一种基因组结构变异分布检测方法及检测装置制造方法及图纸

技术编号:32538697 阅读:11 留言:0更新日期:2022-03-05 11:35
本发明专利技术属于基因组数据分析领域,公开了一种基因组结构变异分布检测方法及装置,检测方法包括如下步骤:基因组测序数据的获取及过滤,计算相邻变异间的距离,利用分段常数拟合(Piecewise Constant Fitting,PCF)算法对基因组进行分割,可视化变异沿基因组的分布;检测装置包括输入模块、计算模块、基因组分割模块、可视化模块。本发明专利技术基于高通量测序数据,适用于任何基因组的VCF或MAF文件,利用PCF算法实现对基因组结构变异沿染色体分布的检测,有助于寻找基因组的突变热点区。助于寻找基因组的突变热点区。助于寻找基因组的突变热点区。

【技术实现步骤摘要】
一种基因组结构变异分布检测方法及检测装置


[0001]本专利技术涉及基因组数据分析
,具体的是一种基因组结构变异分布检测方法及检测装置。

技术介绍

[0002]人类基因组序列的结构变异是DNA序列片段的插入、缺失或重排,长度从大约1000到数百万个碱基对不等。在过去的几年里,结构变异在人类基因组中的普遍性比以前想象得要高得多,且其在基因组中并非随机分布。结构变异研究对于基因组进化,群体多态性分析以及疾病易感性等方面的研究有着重要的意义。随着第二代高通量测序技术的发展,人类基因组上的结构变异图谱才被真正全面而又集中地进行了研究。传统的通过降雨图来可视化基因组中变异沿基因组的分布,由于标准图的大小有限,降雨图可能无法区分重叠事件,尤其是在同一图中绘制多个数据集时会导致数据拥堵。

技术实现思路

[0003]为解决上述
技术介绍
中提到的不足,本专利技术的目的在于提供一种基因组结构变异分布检测方法及检测装置,可读取高通量测序数据,利用分段常数拟合PCF算法检测出变异在染色体上的分布。
[0004]本专利技术的目的可以通过以下技术方案实现:
[0005]一种基因组结构变异分布检测方法,包括以下步骤:
[0006]S1、获取及过滤基因组测序数据;
[0007]S2、计算相邻变异间的距离;
[0008]S3、利用分段常数拟合PCF算法对基因组进行分割;
[0009]S4、可视化变异沿基因组的分布。
[0010]一种基于基因组结构变异分布检测装置,包括输入模块、计算模块、基因组分割模块、可视化模块;
[0011]输入模块,该模块包含两个文件读取单元,包括VCF单元和MAF单元;
[0012]计算模块,根据基因组坐标对变异进行排序并计算相邻变异间的距离,输出新的变异坐标;
[0013]基因组分割模块,利用分段常数拟合PCF算法对基因组进行分割,输出分割片段所在的位置及含有的变异数量;
[0014]可视化模块,该模块展示变异沿着基因组分布情况。
[0015]本专利技术的有益效果:
[0016]本专利技术提供了便捷且高效的基因组结构变异分布的检测装置,首次采用分段常数拟合(Piecewise Constant Fitting,PCF)算法实现对基因组结构变异分布的检测,有助于寻找基因组的突变热点区,如“突变阵雨”或“突变雾”。本专利技术提供的基因组结构变异分布的检测装置及其方法适用于任何基因组的VCF或MAF文件。
附图说明
[0017]下面结合附图对本专利技术作进一步的说明。
[0018]图1为本专利技术中基因组结构变异分布的检测方法的流程图
[0019]图2为本专利技术中基因组结构变异分布的检测装置的结构图
[0020]图3为具体实施例中全基因组中所有变异的分布图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0022]实施例1
[0023]如图1所示,在本实施例中,提出一种基因组结构变异分布的检测方法,本方法包括以下步骤:S1、基因组测序数据的获取及过滤;S2、计算相邻突变间的距离;S3、利用分段常数拟合(Piecewise Constant Fitting,PCF)算法对基因组进行分割;S4、可视化变异沿基因组的分布。
[0024]在一些具体的实施例中,S1、基因组测序数据的获取及过滤的具体步骤如下:可以获取两种格式的癌症基因组测序文件(VCF和MAF),包括变异体'#CHROM'、'POS'、'REF'、'ALT'、'FILTER'的信息;根据文件中'FILTER'列来过滤变异,将'FILTER'列为“PASS”所对应的变异数据提取出来。
[0025]在一些具体的实施例中,S2、计算相邻变异间的距离中的具体步骤如下:
[0026]S201、根据基因组坐标'#CHROM'和'POS'对提取出的变异数据进行升序排序;
[0027]S202、根据基因组坐标计算所述变异数据中相邻突变间的距离,计算方法为:
[0028]p
i
=l
i
‑1+(l
i

l
i
‑1)/2
ꢀꢀꢀ
(1)
[0029]其中,l
i
为每个变异在染色体上的位置,p
i
为相邻变异间中点位置,
[0030]则每个观测到的相邻变异间距离为d
i

[0031]d
i
=l
i

l
i
‑1ꢀꢀꢀ
(2)
[0032]在一些具体的实施例中,S3、利用分段常数拟合(Piecewise Constant Fitting,PCF)算法对基因组进行分割的具体步骤如下:
[0033]步骤S202中的p
i
将用于标记变异间距离在基因组上变化的“跳跃点(jump point)”/“断点(break point)”,而d
i
则主要由两部分组成
[0034]d
i
=c
i

i
ꢀꢀꢀ
(3)
[0035]c
i
为位置i的可能真实变异间距离,ε
i
为测量噪声,若c
i
≠c
i+1
则认为i和i+1之间产生断点。对于序列c1,...c
m
,若断点集合S={I1={c1,...c
m
},...I
j
}代表某条染色体上的分段,如I1代表第一个分段中变异间距离,为拟合模型,最小化惩罚最小二乘
[0036][0037]其中,|S|代表S中分段的个数,γ是一个大于零的常数,用于控制良好拟合与水平移动(level shifts)数目间的平衡。若一个给定分段I的最佳拟合值为该分段观测到的变
异距离平均值则可将(4)写为:
[0038][0039]其中n
I
是该分段I中所包含的变异的数目,而(5)中第一项不依赖分段的情况,可以将其简化为代价函数:
[0040][0041]为获得可接受的优化效率和计算复杂度,可采用动态规划的方法对(6)进行优化。假设已知从第一个到第k

1个突变间距离的最优分段情况,若1...r个分段及其对应误差e
r
已知,r≦k,则该分段相关代价项可简写为:
[0042][0043]则整体误差可写为:
[0044][0045]γ为断点的罚分,e0=0,则所有参数均通过简单的递归求得。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因组结构变异分布检测方法,其特征在于,包括以下步骤:S1、获取及过滤基因组测序数据;S2、计算相邻变异间的距离;S3、利用分段常数拟合PCF算法对基因组进行分割;S4、可视化变异沿基因组的分布。2.根据权利要求1所述的基因组结构变异分布检测方法,其特征在于,所述步骤S1中可以获取的基因组测序文件包括VCF和MAF格式文件,根据文件中FILTER列来过滤变异,将FILTER列为PASS所对应的变异数据提取出来。3.根据权利要求1所述的基因组结构变异分布检测方法,其特征在于,所述步骤S2中计算相邻变异间距离的具体步骤如下:S201、根据基因组坐标#CHROM和POS对提取出的变异数据进行升序排序;S202、根据基因组坐标计算所述变异数据中相邻变异间的距离,计算方法为:p
i
=l
i
‑1+(l
i

l
i
‑1)/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1),其中,l
i
为每个变异在染色体上的位置,p
i
为相邻变异间中点位置,每个观测到的相邻变异间距离为d
i
:d
i
=l
i

l
i
‑1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)。4.根据权利要求3所述的基因组结构变异分布检测方法,其特征在于,所述步骤S3利用分段常数拟合PCF算法对基因组进行分割,产生分割片段集合S,每一个片段I中包含的变异的数目n
I
和变异间距离平均值d
I
,具体如下:步骤S202中的p
i
将用于标记变异间距离在基因组上变化的跳跃点或断点,而d
i
则由两部分组成:d
i
=c
...

【专利技术属性】
技术研发人员:李健林雪刘安娜许利群孙泽鹏乔丰刘新龙
申请(专利权)人:中移成都信息通信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1