当前位置: 首页 > 专利查询>聊城大学专利>正文

一种拷贝数变异检测方法、装置、设备和计算机可读介质制造方法及图纸

技术编号:35579122 阅读:14 留言:0更新日期:2022-11-12 16:05
本发明专利技术公开了一种拷贝数变异检测方法、装置、设备和计算机可读介质,属于基因工程技术领域。所述方法包括:将基因组划分为基因组箱,生成基因组的信息配置文件,信息配置文件包括:各基因组箱的读深信号和比对质量;根据信息配置文件对基因组进行全局分割,并对全局分割后的至少部分基因组进行局部分割,获得基因片段以及基因片段的读深信号和比对质量;将基因片段的读深信号和比对质量作为分类特征,计算基因片段的异常分数,识别基因组的拷贝数变异区域。本发明专利技术实施例公开的检测方法可提高拷贝数变异检测的敏感性,在检测低幅度拷贝数变异方面有效、可靠。可靠。可靠。

【技术实现步骤摘要】
一种拷贝数变异检测方法、装置、设备和计算机可读介质


[0001]本专利技术涉及基因工程
,特别涉及一种拷贝数变异检测方法、装置、设备和计算机可读介质。

技术介绍

[0002]拷贝数变异(CNVs)对人类基因组的多样性和许多复杂疾病的发生有重大影响。拷贝数变异的检测和鉴定在生物学和生物医学领域都具有重要意义。新一代测序(NGS)技术为拷贝数变异的检测提供了丰富的数据,并且已经提出了很多基于NGS数据的拷贝数变异检测方法。然而,这些方法在检测低振幅拷贝数变异时,尤其是当拷贝数变异的长度很小时,灵敏度并不可靠。

技术实现思路

[0003]为了解决上述现有技术中存在的至少一个技术问题,本专利技术实施例提供了一种拷贝数变异检测方法、装置、设备和计算机可读介质。所述技术方案如下:
[0004]第一方面,提供了一种拷贝数变异检测方法,所述方法包括:
[0005]将基因组划分为基因组箱,生成所述基因组的信息配置文件,所述信息配置文件包括:各所述基因组箱的读深信号和比对质量;
[0006]根据所述信息配置文件对所述基因组进行全局分割,并对所述全局分割后的至少部分所述基因组进行局部分割,获得基因片段以及所述基因片段的读深信号和比对质量;
[0007]将所述基因片段的读深信号和比对质量作为分类特征,计算所述基因片段的异常分数,识别所述基因组的拷贝数变异区域。
[0008]进一步地,所述将基因组划分为基因组箱,生成所述基因组的信息配置文件,包括:
[0009]获取所述基因组的测试样本和参考样本;
[0010]将所述测试样本和所述参考样本进行比对,获得比对结果;
[0011]根据所述比对结果将所述基因组划分为所述基因组箱;
[0012]计算所述基因组箱中的读深信号和比对质量,生成所述信息配置文件。
[0013]进一步地,所述计算所述基因组箱中的读深信号和比对质量,生成所述信息配置文件,包括:
[0014]计算所述基因组箱中的原始读深信号;
[0015]对所述原始读深信号进行归一化处理校正。
[0016]进一步地,所述根据所述信息配置文件对所述基因组进行全局分割,包括:
[0017]确定一组读深信号连续的所述基因组箱;
[0018]根据最大统计量,将所述基因组箱的读深信号的平均值与剩余所述基因组箱的读深信号的平均值比较;
[0019]若比较结果符合变化阈值条件,则确定连续的所述基因组箱中存在所述基因组箱
对应有变化的读深信号,将连续的所述基因组箱划分为一个基因段。
[0020]进一步地,所述对所述全局分割后至少部分所述基因组进行局部分割,包括:
[0021]获取预设的分割长度;
[0022]根据所述分割长度将部分所述基因段划分为多个连续且不重叠的基因片段;
[0023]计算所述基因片段的读深信号和比对质量。
[0024]进一步地,在获得所述基因片段后,所述方法还包括:
[0025]对所述基因片段中的读深信号进行去噪处理。
[0026]进一步地,所述将所述基因片段的读深信号和比对质量作为分类特征,计算所述基因片段的异常值分数,识别所述基因组的拷贝数变异区域,包括:
[0027]将所有所述基因片段的读深信号和比对质量表示为一个标准化矩阵,所述标准化矩阵中一个所述基因片段的读深信号和比对质量作为一个数据样本;
[0028]根据所述标准化矩阵计算协方差矩阵;
[0029]计算所述协方差矩阵的特征值和特征向量;
[0030]计算各所述数据样本在所述特征向量上的投影距离作为异常分数;
[0031]根据所述异常分数以及设定的阈值判定所述数据样本中的异常样本;
[0032]根据所述异常样本对应的所述基因片段的读深信号确定基线,并声明所述拷贝数变异区域。
[0033]第二方面,提供了一种拷贝数变异检测装置,所述装置包括:
[0034]文件生成模块,用于将基因组划分为基因组箱,生成所述基因组的信息配置文件,所述信息配置文件包括:各所述基因组箱的读深信号和比对质量;
[0035]分段模块,用于根据所述信息配置文件对所述基因组进行全局分割,并对所述全局分割后的至少部分所述基因组进行局部分割,获得基因片段以及所述基因片段的读深信号和比对质量;
[0036]检测模块,用于将所述基因片段的读深信号和比对质量作为分类特征,计算所述基因片段的异常分数,识别所述基因组的拷贝数变异区域。
[0037]第三方面,提供了一种电子设备,包括:
[0038]一个或多个处理器;以及
[0039]与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如第一方面任一所述的方法。
[0040]第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如第一方面任一所述的方法。
[0041]本专利技术实施例提供的技术方案带来的有益效果是:
[0042](1)本专利技术实施例公开的检测方法可提高拷贝数变异检测的敏感性,在检测低幅度拷贝数变异方面有效、可靠;
[0043](2)专利技术实施例公开的检测方法采用了全局和局部分割,有效避免了低幅度拷贝数变异和长度小的拷贝数变异被平滑的问题;
[0044](3)专利技术实施例公开的检测方法可使低的比对质量信号呈现较高的异常值分数,从而可以减少映射错误的干扰。
附图说明
[0045]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]图1是本专利技术实施例提供的拷贝数变异检测方法流程图;
[0047]图2是本专利技术实施例提供的拷贝数变异检测装置结构示意图;
[0048]图3是评估实验中每种方法的精度、灵敏度、F1分数的评估结果图;
[0049]图4是评估实验中每种方法的WLS直方图;
[0050]图5是方法有效性实验中五种方法检测到的拷贝数变异的分布弦图;
[0051]图6是方法有效性实验中五种方法检测到的拷贝数变异的数量;
[0052]图7是本专利技术实施例提供的电子设备结构示意图。
具体实施方式
[0053]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0054]过去,拷贝数变异的检测在很大程度上依赖于微阵列技术。但微阵列技术局限于探针的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种拷贝数变异检测方法,其特征在于,包括:将基因组划分为基因组箱,生成所述基因组的信息配置文件,所述信息配置文件包括:各所述基因组箱的读深信号和比对质量;根据所述信息配置文件对所述基因组进行全局分割,并对所述全局分割后的至少部分所述基因组进行局部分割,获得基因片段以及所述基因片段的读深信号和比对质量;将所述基因片段的读深信号和比对质量作为分类特征,计算所述基因片段的异常分数,识别所述基因组的拷贝数变异区域。2.如权利要求1所述的方法,其特征在于,所述将基因组划分为基因组箱,生成所述基因组的信息配置文件,包括:获取所述基因组的测试样本和参考样本;将所述测试样本和所述参考样本进行比对,获得比对结果;根据所述比对结果将所述基因组划分为所述基因组箱;计算所述基因组箱中的读深信号和比对质量,生成所述信息配置文件。3.如权利要求2所述的方法,其特征在于,所述计算所述基因组箱中的读深信号和比对质量,生成所述信息配置文件,包括:计算所述基因组箱中的原始读深信号;对所述原始读深信号进行归一化处理校正。4.如权利要求1所述的方法,其特征在于,所述根据所述信息配置文件对所述基因组进行全局分割,包括:确定一组读深信号连续的所述基因组箱;根据最大统计量,将所述基因组箱的读深信号的平均值与剩余所述基因组箱的读深信号的平均值比较;若比较结果符合变化阈值条件,则确定连续的所述基因组箱中存在所述基因组箱对应有变化的读深信号,将连续的所述基因组箱划分为一个基因段。5.如权利要求1所述的方法,其特征在于,所述对所述全局分割后至少部分所述基因组进行局部分割,包括:获取预设的分割长度;根据所述分割长度将部分所述基因段划分为多个连续且不重叠的基因片段;计算所述基因片段的读深信号和...

【专利技术属性】
技术研发人员:姜华张童董金新赵祖耀周梦娇袁甜婷
申请(专利权)人:聊城大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1