地中海贫血Panel数据CNV分析系统技术方案

技术编号:32926473 阅读:40 留言:0更新日期:2022-04-07 12:17
本发明专利技术提供了一种地中海贫血Panel数据CNV分析系统,包括地贫Panel设计模块,用于针对每一个地贫CNV不同长度缺失断裂位点的探针覆盖距离单独设计;线性回归模型优化模块,用于评估每个样本中扩增子的深度中位数分布的情况,并筛选样本建模;地贫表型判断模块,通过设定CNV扩增子的阈值,统计CNV扩增子的数量及长度是否达到设定的阈值来判断该CNV表型;CNV结果过滤模块,用于自动比对确定CNV的起始位点和终止位点,自动过滤去除位于起始位点和终止位点之外的数据。本地中海贫血Panel数据CNV分析系统提高了地贫CNV识别准确度和灵敏度,减少了测序成本和背景噪音,增加捕获效率,识别准确率超过99.5%,种类覆盖国内报道的几乎所有CNV类型。所有CNV类型。所有CNV类型。

【技术实现步骤摘要】
地中海贫血Panel数据CNV分析系统


[0001]本专利技术涉及一种CNV分析系统,具体涉及一种地中海贫血Panel数据CNV分析系统。

技术介绍

[0002]众所周知,地贫致病的缺失类型大大小小有几十种,从几kb到几百kb,各缺失类型可能相互覆盖,区域重叠,多种并存的情况,非常复杂。准确识别非常困难。事实上市面上并没有纯正的地贫NGS产品来检测CNV(拷贝数变异),大多数NGS产品CNV分析部分主要依靠一代替代常规技术,检测范围仅有常见6种CNV类型或者更少,对于罕见CNV、疑难病例、复杂病例无法顾及。地贫Panel(基因组合)比较小,100k左右,相比几十兆的全外来说测序深度浮动比较大很正常。即便最稳定的测序仪加上Duplicates少的液相捕获技术,测出的同一批样本,深度差异也在1.5

2.5倍。如果PCR方法的话大,背景噪音更大。也就说每个amplicon/probe区域捕获效率是不一样的,15%

30%之间。所以开发高灵敏的CNV分析系统针对Panel就显得非常必要,特别是对地贫来说更需要定制。
[0003]现有技术中,针对全外或者Panel的CNV分析系统针对标准样本可以达到95%左右的准确检出率,但是针对地贫Panel实测检出率在70

80%左右。原因在于:
[0004](1)Panel设计问题。Panel不同区域捕获效率不一样,因为CNV区域存在多个同源位点,导致二代测序仪捕获效率每个amplicon(扩增子)的捕获效率差异非常大,同批次样本不同区域有捕获效率及测序深度差异可达2

3倍。Panel区域设计过于单一化,在CNV识别过程中会增加机器识别分辨率。
[0005](2)没有对原始测序数据的进行合适的预处理。为什么在Reads深度数据流进入CNV分析之前要做一个数据预处理呢,这是因为我们设计的地贫Panel比较小,只有108k,相比几十兆的全外来说深度浮动比较大很正常。即便最稳定的测序仪加上Duplicates少的液相捕获技术,测出的同一批样本,深度差异也在1.5

2.5倍。如果PCR方法的话大,背景噪音更大。
[0006](3)不直对生成的CNV片段直接命名和表型判断(比如这个CNV有没有对应的学术名称),只显示CNV长度和断裂位点。
[0007](4)没有对结果出现的假阳性及假阴性进行识别和过滤,导致假阳性及假阴性CNV过多。

技术实现思路

[0008]针对现有技术的不足,本专利技术提出了一种地中海贫血Panel数据CNV分析系统,可以有效提高地贫CNV识别的准确性和灵敏性。
[0009]为实现上述技术方案,本专利技术提供了一种地中海贫血Panel数据CNV分析系统,包括:地贫Panel设计模块,用于针对每一个地贫CNV不同长度缺失断裂位点的探针覆盖距离单独设计,具体包括对CNV正常区域设计、对CNV重叠区域和差异区域设计和对CNV断裂位点附近设计;线性回归模型优化模块,用于评估每个样本中扩增子的深度中位数分布的情况,
并筛选样本建模,对41个CNV片段累计207个扩增子的长度、数量、测序深度的特征变量进行多重优化,并通过CBS算法确定CNV的断裂位点和长度;地贫表型判断模块,通过设定CNV扩增子的阈值,统计CNV扩增子的数量及长度是否达到设定的阈值来判断该CNV表型;CNV结果过滤模块,用于自动比对确定CNV的起始位点和终止位点,自动过滤去除位于起始位点和终止位点之外的数据。
[0010]优选的,所述地贫Panel设计模块中对CNV正常区域设计的具体方式为:使用测序仪探针捕获CNV全覆盖区域的扩增子的起始位点和终止位点;对CNV重叠区域和差异区域设计的具体方式为:使用测序仪探针对特异性区域进行全覆盖,对共性区域进行选择性挑选;对CNV断裂位点附近设计的具体方式为:使用测序仪探针对断裂位点起始位点的右侧或者终止位点的左侧进行探测。
[0011]优选的,所述线性回归模型优化模块中对扩增子长度优化的方式为:在关键区域,使用探针覆盖连续长度超过500bp,则以150bp为一个统计区域,不超过500bp的则按100bp进行统计,低于200bp则不予统计,非关键区域使用探针覆盖150

200bp的长度进行统计。
[0012]优选的,所述线性回归模型优化模块中对扩增子总数优化的方式为:适当提升正常区域内扩增子的数量,降低异常区域内扩增子的数量,确保正常区域内扩增子的数量多于异常区域内扩增子的数量。
[0013]本专利技术提供的一种地中海贫血Panel数据CNV分析系统的有益效果在于:
[0014]1)本地中海贫血Panel数据CNV分析系统通过设计合理精简的Panel,针对每一个地贫CNV不同长度缺失断裂位点的探针覆盖距离单独设计,提高了地贫CNV识别准确度和灵敏度,减少了测序成本和背景噪音,增加捕获效率。
[0015]2)本地中海贫血Panel数据CNV分析系统通过线性回归模型优化模块对41个CNV片段累计207个扩增子的长度、数量、测序深度等特征变量进行多重优化,提高了整个模型的稳定性,降低了背景噪音,使得深度点分布比较集中,利于区分阴性和阳性;
[0016]3)本地中海贫血Panel数据CNV分析系统通过设置地贫表型判断模块和CNV结果过滤模块,通过差异化设置合理的逻辑区分每个CNV并且命名,可以更加直观的表征测试结果,能准确识别地贫罕见、常见CNV41种,识别准确率超过99.5%,种类覆盖国内报道的几乎所有CNV类型。
附图说明
[0017]图1为本专利技术的系统框图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本专利技术的保护范围。
[0019]实施例:一种地中海贫血Panel数据CNV分析系统。
[0020]参照图1所示,一种地中海贫血Panel数据CNV分析系统,包括:
[0021]地贫Panel设计模块,用于针对每一个地贫CNV不同长度缺失断裂位点的探针覆盖
距离单独设计,具体包括对CNV正常区域设计、对CNV重叠区域和差异区域设计和对CNV断裂位点附近设计。地贫Panel设计模块设计思路原则是小片段尽量全覆盖(3k以内),大的CNV覆盖起始终止位点。其中对正常区域的设计,既是对照又可平衡整个CNV区域捕获效率,不能只设计CNV区域,需要使用测序仪探针捕获CNV全覆盖区域的扩增子的起始位点和终止位点。针对CNV重叠区域和差异区域设计是为了区分长度接近的CNV或者大部分区域重叠,需要对特异性区域尽量覆盖,共性区域可以选择性挑选。对CNV断裂位点附近设计需要根据分布具体区域来确定,要知道Panel一般都不是连续覆盖的,因位有的区域无法设计探针,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地中海贫血Panel数据CNV分析系统,其特征在于包括:地贫Panel设计模块,用于针对每一个地贫CNV不同长度缺失断裂位点的探针覆盖距离单独设计,具体包括对CNV正常区域设计、对CNV重叠区域和差异区域设计和对CNV断裂位点附近设计;线性回归模型优化模块,用于评估每个样本中扩增子的深度中位数分布的情况,并筛选样本建模,对41个CNV片段累计207个扩增子的长度、数量、测序深度的特征变量进行多重优化,并通过CBS算法确定CNV的断裂位点和长度;地贫表型判断模块,通过设定CNV扩增子的阈值,统计CNV扩增子的数量及长度是否达到设定的阈值来判断该CNV表型;CNV结果过滤模块,用于自动比对确定CNV的起始位点和终止位点,自动过滤去除位于起始位点和终止位点之外的数据。2.如权利要求1所述的地中海贫血Panel数据CNV分析系统,其特征在于,所述地贫Panel设计模块中对CNV正常区域设计的具体方式为:使用测序仪探针捕获CNV全覆盖区域的...

【专利技术属性】
技术研发人员:成能林斌陈少滨
申请(专利权)人:广州解序基因科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1