【技术实现步骤摘要】
结构变异检测模型、其构建方法和装置
本专利技术涉及基因测序数据分析领域,具体而言,涉及一种结构变异检测模型、其构建方法和装置。
技术介绍
染色体结构变异是染色体变异的一种,其主要类型有易位,缺失,重复等,在自然或外源环境因素影响下,可能造成染色体发生断裂,在不同染色体不同区段发生断裂后,同一条染色体上或者不同染色体之间可能发生不同方式的重接,导致染色体发生结构变异。对染色体结构变异的检测,现有的检测方法有毛细管电泳法,毛细管电泳法能够检出某些结构变异的区域、长度和变异频率,进一步通过一代测序能够获取到变异序列的信息。这种方法虽然可以进行准确的定量检测,然而由于一代测序检测下限的原因,其只能对阳性变异频率较高(比如变异频率高于10%的变异)的片段进行测序。二代测序技术又称下一代测序技术,其核心思想是边合成边测序,可同时对几十G到几百G的数据进行测序。目标序列捕获可以有选择性的分离或富集基因组特定的片段,因此可以利用更低的成本获取更高的测序深度,为低频检测,大数据积累等奠定了良好的基础。基于二代测序技术获取的数据 ...
【技术保护点】
1.一种结构变异检测模型的构建方法,其特征在于,所述方法包括:/n对多个阳性样本的测序数据进行基因结构变异检测,得到变异检测结果;/n从所述变异检测结果中筛选出基因结构变异的特征;/n利用所述基因结构变异的特征进行机器学习模型构建,得到所述结构变异检测模型;/n所述基因结构变异的特征包括如下至少之一:/na.结构变异位置;/nb.结构变异长度;/nc.结构变异序列特征;/nd.结构变异周围序列特征;/ne.NGS结构变异检测频率;/nf.结构变异所在reads 的重复比率;/ng.结构变异所在位置测序深度。/n
【技术特征摘要】
1.一种结构变异检测模型的构建方法,其特征在于,所述方法包括:
对多个阳性样本的测序数据进行基因结构变异检测,得到变异检测结果;
从所述变异检测结果中筛选出基因结构变异的特征;
利用所述基因结构变异的特征进行机器学习模型构建,得到所述结构变异检测模型;
所述基因结构变异的特征包括如下至少之一:
a.结构变异位置;
b.结构变异长度;
c.结构变异序列特征;
d.结构变异周围序列特征;
e.NGS结构变异检测频率;
f.结构变异所在reads的重复比率;
g.结构变异所在位置测序深度。
2.根据权利要求1所述的方法,其特征在于,对多个阳性样本的测序数据进行基因结构变异检测,得到变异检测结果包括:
将多个所述阳性样本的测序数据与参考基因组序列进行比对,得到比对结果;
从所述比对结果中提取splitreads筛选出潜在基因结构变异序列;
对所述潜在基因结构变异序列采用局部组装的方式进行分析,得到局部组装序列;
将所述局部组装序列与所述参考基因组进行二次比对,将完全比对上的碱基占比>98%的候选序列作为所述变异检测结果。
3.根据权利要求1或2所述的方法,其特征在于,从所述变异检测结果中筛选出基因结构变异的特征包括;
从所述变异检测结果中去除芯片相关的特征,从而获得所述基因结构变异的特征。
4.根据权利要求3中所述的方法,其特征在于,利用所述基因结构变异的特征进行机器学习模型构建包括:
步骤S1,从多个所述阳性样本中随机选取部分样本,并从所述部分样本对应的所述基因结构变异的特征中随机选取部分所述基因结构变异的特征,进行决策树构建;
步骤S2,重复所述步骤S1多次,建立多棵决策树;
步骤S3,根据多棵所述决策树的集合形成随机森林预测均值,获得定量预测结果,从而形成所述机器学习模型。
5.根据权利要求4所述的方法,其特征在于,所述步骤S1中,
利用选取的部分所述基因结构变异的特征作为多个属性,采用信息增益准则确定多个所述属性中与所述基因结构变异最相关的属性,并利用所述最相关的属性和损失函数择优定量准则构建所述决策树。
6.一种构建结构变异检测模型的装置,其特征在于,所述装置包括:
变异初检模块,用于对多个样本的测序数据进行基因结构变异检测,得到变异检测结果;
特征筛选模块,用于从所述变异检测结果中筛选出基因结构变异的特征;
模型构建模块,用于利用所述基因结构变异的特征进行机器学习模型构建,得到所述结构变异检测模型;
所述基因结构变异的...
【专利技术属性】
技术研发人员:曹善柏,张萌萌,周涛,郭璟,楼峰,
申请(专利权)人:北京橡鑫生物科技有限公司,天津橡鑫生物科技有限公司,北京橡鑫医学科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。