疾病筛查模型的构建方法、疾病筛查模型及筛查装置制造方法及图纸

技术编号:27940352 阅读:28 留言:0更新日期:2021-04-02 14:21
本发明专利技术提供了一种疾病筛查模型的构建方法、疾病筛查模型及筛查装置。该模型的构建方法包括:从两组测序数据中筛选出满足预测条件的多个待检特征,两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;利用多个待检特征进行机器学习,从而构建得到疾病筛查模型。通过获取多个阳性样本和多个阴性样本的测序数据,并根据两组测序数据的特征差异,从中选择出与疾病关联性较强的多个特征作为表征两组不同疾病状态的待检特征进行机器学习建模,从而获得不同疾病的筛查模型,该模型提高了筛查的准确性。

【技术实现步骤摘要】
疾病筛查模型的构建方法、疾病筛查模型及筛查装置
本专利技术涉及基于测序数据的筛查模型构建领域,具体而言,涉及一种疾病筛查模型的构建方法、疾病筛查模型及筛查装置。
技术介绍
目前关于很多疾病(包括癌症等)的高通量测序数据的处理方法,主要集中在常见热点基因突变情况的检测、通过增加检测基因数量及检测深度等方法来提高检测的准确性。这些方法是从增加处理数据的基因数量或深度的角度来提高数据处理结果的准确性的。目前,对于在无法增加或不增加基因数量或测序深度的情况下,如何使处理结果准确性提高,目前尚无有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种疾病筛查模型的构建方法、疾病筛查模型及筛查装置,以解决现有技术中难以在不增加基因数量或测序深度的情况下难以提高处理结果准确性的问题。为实现上述目标,根据本申请的一个方面,提供了一种疾病筛查模型的构建方法,该构建方法包括:从两组测序数据中筛选出满足预测条件的多个待检特征,两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;利用多个待检特本文档来自技高网...

【技术保护点】
1.一种疾病筛查模型的构建方法,其特征在于,所述构建方法包括:/n从两组测序数据中筛选出满足预测条件的多个待检特征,所述两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;/n利用多个所述待检特征进行机器学习,从而构建得到所述疾病筛查模型;/n从两组测序数据中筛选出满足预测条件的多个待检特征包括:/n统计所述两组测序数据中各样本的候选特征;/n对各所述候选特征分别绘制ROC曲线;/n筛选出AUC≥预设值的所述候选特征,作为所述待检特征;/n其中,各样本的所述候选特征选自如下特征:/n1)文库浓度;/n2)CNV;/n3)异常比对reads;/n4)插入片段大小;...

【技术特征摘要】
1.一种疾病筛查模型的构建方法,其特征在于,所述构建方法包括:
从两组测序数据中筛选出满足预测条件的多个待检特征,所述两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;
利用多个所述待检特征进行机器学习,从而构建得到所述疾病筛查模型;
从两组测序数据中筛选出满足预测条件的多个待检特征包括:
统计所述两组测序数据中各样本的候选特征;
对各所述候选特征分别绘制ROC曲线;
筛选出AUC≥预设值的所述候选特征,作为所述待检特征;
其中,各样本的所述候选特征选自如下特征:
1)文库浓度;
2)CNV;
3)异常比对reads;
4)插入片段大小;
5)末端碱基。


2.根据权利要求1所述的构建方法,其特征在于,所述预设值≥0.7。


3.根据权利要求1所述的构建方法,其特征在于,所述测序数据的测序深度为0.1×~1×。


4.根据权利要求1所述的构建方法,其特征在于,2)所述CNV包括CNV个数及CNV总长度;
3)所述异常比对reads包括:soft-clipreads占总reads数的比例,记为第一比例;插入片段大于100000bp的reads占总reads数的比例,记为第二比例;以及所述第一比例与所述第二比例之和;
4)所述插入片段大小包括:不同插入片段长度范围的reads数占总reads的比例;以及不同插入片段长度范围的reads数占总reads数的比例的熵;
5)所述末端碱基包括:支持reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例;以及reads末端1-5个bp长度的各碱基组合类型reads数占总reads数的比例的熵。


5.根据权利要求4所述的构建方法,其特征在于,所述待检特征选自如下多种:
a.文库浓度;
b.插入片段大于100000bp的reads占总reads数的比例;
c.CNV个数;
d.CNV总长度;
e.不同插入片段长度范围的reads数占总reads数的比例的熵;
f.支持reads末端1bp的reads数各占总reads数的比例;
g.支持reads末端1bp的reads数各占总reads数的比例的熵;
h.支持reads末端2bp的reads数各占总reads数的比例;
i.支持reads末端2bp的reads数各占总reads数的比例的熵。


6.根据权利要求5所述的构建方法,其特征在于,所述不同插入片段长度范围包括90-100bp、100-110bp、110-120bp、120-130bp、130-140bp、140-150bp、150-160bp、160-170bp、170-180bp及330-390bp。


7.一种疾病筛查模型的构建装置,其特征在于,所述构建装置包括:
筛选模块,用于从两组测序数据中筛选出满足预测条件的多个待检特征,所述两组测序数据包括阳性样本组中各阳性样本的测序数据和阴性样本组中各阴性样本的测序数据;
模型构建模块,用于利用多个所述待检特征进行机器学习,从而构建得到所述测序数据的筛查模型;...

【专利技术属性】
技术研发人员:曹善柏周涛张萌萌郭璟楼峰
申请(专利权)人:北京橡鑫生物科技有限公司天津橡鑫生物科技有限公司北京橡鑫医学科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1