【技术实现步骤摘要】
早筛数据处理、构建早筛模型的方法、装置、设备及介质
[0001]本申请涉及数据处理的
,特别是涉及一种早筛数据处理、构建早筛模型的方法、装置、设备及介质。
技术介绍
[0002]目前全球癌症负担正在迅速增加,多种筛查肿瘤的方案及程序也相继出现,由于早期发现的癌症更有治愈的可能性,因此对于早期筛查肿瘤的需求也在日益增加,目前多是利用液体活检通过分析血液中的癌症组分,来实现癌症的早期筛查。但目前早期筛查程序的技术多是利用单组学基因数据和构建单特征模型,对于检测数据的灵敏度和特异性均有偏好性,导致其检测的结果准确性不高。
技术实现思路
[0003]本申请提供了一种早筛数据处理、构建早筛模型的方法、装置、设备及介质,基于计算机上的血浆样本获得相应的多种特征数据,根据多种特征数据建立早筛模型,从而提高了对特定癌症类型的检测能力。
[0004]第一方面,本申请提供了一种早筛数据处理方法,该方法包括:将计算机上用户对应的血浆样本进行测序处理,获得测试读段数据;获得测试读段数据的多个特征值,所述多个特征值包括分 ...
【技术保护点】
【技术特征摘要】
1.一种早筛数据处理方法,其特征在于,所述方法包括:将计算机上用户对应的血浆样本进行测序处理,获得测试读段数据;获得所述测试读段数据的多个特征值,所述多个特征值包括分子片段分布特征值、染色体不稳定特征值和片段末端序列特征值;基于早筛模型和所述测试读段数据的多个特征值,确定所述用户的血浆样本的分类结果,所述早筛模型为训练完成的、用于对输入的多个特征值进行分类的模型。2.根据权利要求1所述的方法,其特征在于,所述将计算机上用户对应的血浆样本进行测序处理,获得测试读段数据,包括:提取所述血浆样本的cfDNA;将所述cfDNA进行测序操作,获得测序读段数据;将所述测序读段数据比对参考基因组进行数据过滤,获得所述测试读段数据,所述参考基因组为人类基因组。3.根据权利要求1所述的方法,其特征在于,所述获得所述测试读段数据的多个特征值,包括:计算所述测试读段数据在至少一个窗口的固定长度片段比例值;将所述固定长度片段比例值进行平均值计算,获得所述分子片段分布特征值。4.根据权利要求1所述的方法,其特征在于,所述获得所述测试读段数据的多个特征值,包括:计算所述测试读段数据的至少一个染色体臂占比值;将所述至少一个染色体臂占比值转换为至少一个假定值;将所述至少一个假定值进行求和,获得所述染色体不稳定特征值。5.根据权利要求1所述的方法,其特征在于,所述获得所述测试读段数据的多个特征值,包括:根据随机森林算法计算所述测试读段数据中至少一个片段末端序列的重要值;根据极差法计算所述至少一个片段末端序列的归一化比例数值;将所述至少一个片段末端序列的重要值和所述归一化比例数值进行相乘,获得所述片段末端序列特征值。6.一种构建早筛模型的方法,其特征在于,样本包括训练集,所述方法包括:将训练集中的对照样本和训练集中的癌症样本进行测序处理,获得训练读段数据,所述对照样本为健康用户的血浆样本,所述癌症样本为癌症患者的血浆样本;获得所述训练读段数据的多个特征值,所述多个特征值包括分子片段分布特征值、染色体不稳定特征值和片段末端序列特征值;将所述训练读段数据的多个特征值分别进行标准化处理,...
【专利技术属性】
技术研发人员:万千惠,胡玉凯,李振聪,张怡然,裴志华,王东亮,牛孝亮,
申请(专利权)人:北京求臻医疗器械有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。