System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于机器学习算法预测宫颈癌风险的模型制造技术_技高网

一种基于机器学习算法预测宫颈癌风险的模型制造技术

技术编号:40086405 阅读:4 留言:0更新日期:2024-01-23 15:31
本发明专利技术公开了一种基于机器学习算法预测宫颈癌风险的模型,具体包括:收集样本并处理样本检测的低深度WGS数据;模型构建步骤包括:步骤一:利用随机森林算法建立CNV模型,获得一个最优cut off值;步骤二:利用随机森林算法建立SNV模型,将特异性设为固定值,获得对应的cut off值;步骤三:利用CNV模型和SNV模型的两个cut off值分别对样本进行高危和低危判别;本发明专利技术基于低深度WGS技术构建CxSEEK模型,降低测序成本的同时提高了检测的灵敏度和准确性,有助于提高宫颈癌筛查和预测的可及性。

【技术实现步骤摘要】

本专利技术属于机器学习算法领域,具体涉及一种预测宫颈癌高危和低危风险的算法。


技术介绍

1、宫颈癌是全球女性常见癌症之一,在发展中国家发病率仍呈上升趋势。2018年的globocan报告显示,85%的宫颈癌死亡病例发生于欠发达国家,这些中低收入国家的宫颈癌死亡病例是发达国家的18倍。早期检测的宫颈癌患者的五年生存率为92%,但宫颈癌起病多隐匿,早期常没有症状,发现时多处于晚期,治疗选择较少且预后较差。2023年第1版《nccn子宫颈癌临床实践指南》数据显示,由于发展中国家大部分人无法进行筛查,每年约有275,000人死于宫颈癌。作为目前唯一病因明确、可防也可控的恶性肿瘤,宫颈癌的早期检测对宫颈癌的干预和治疗具有重要意义。

2、机器学习(ml)是一门涵盖多学科交叉专业,借鉴认知科学、生物学、统计学、信息论、计算复杂性等学科或理论的观点,通过归纳、一般化、特殊化、类比等基本方法探索人类的认识规律和学习过程,建立各种能经过经验自动改进的算法,使计算机系统能够具有自动学习特定知识和技能的能力。主要方法有决策树、神经网络、概念学习、遗传算法、规则学习等。随机森林(rf)是一种有监督学习算法,它是一类非常具有代表性的bagging集成算法,它的基本构成单元是决策树,通过将多棵分类树组合而成,形成了一片森林,因此称为随机森林分类器。它在解决复杂问题、降低过拟合风险方面表现突出,为机器学习领域带来了丰富的实用价值。

3、近年来,随着计算机技术的迅猛发展,机器学习技术广泛应用于解决现实问题,在医疗和疾病诊断和预后监测领域扮演重要角色。例如,在疾病诊断预测模型方面,he等人通过机器学习整合临床、影像学和cfdna甲基化生物标志物的预测能力,提出一种用于肺结节准确诊断的pulmoseek plus复合模型,具体参见:he,jianxing et al.accurateclassification of pulmonary nodules by a combined model of clinical,imaging,and cell-free dna methylation biomarkers:a model development and externalvalidation study.the lancet.digital health,s2589-7500(23)00125-5.9aug.2023.。bruhm等人基于全基因组测序和机器学习模型,开发了一种癌症早期活检新技术gemini,具体参见:bruhm,daniel c et al.single-molecule genome-wide mutation profiles ofcell-free dna for non-invasive detection of cancer.nature genetics vol.55,8(2023):1301-1310.。nicolas coudray等人利用深度卷积神经网络对非小细胞肺癌的组织病理学图像进行分类和突变预测,实现了对病理学图像的精确判断,具体参见:coudray,nicolas et al.classification and mutation prediction from non-small cell lungcancer histopathology images using deep learning.nature medicine vol.24,10(2018):1559-1567.。在预后监测方面,carlos caldas等人基于临床、数字病理学、基因学和转录组学特征,开发了一种乳腺癌治疗反应的多组学机器学习预测器,具体参见:sammut,stephen-john et al.multi-omic machine learning predictor of breastcancer therapy response.nature vol.601,7894(2022):623-629.。sebastian foersch等人利用人工智能构建了一个多染色深度学习模型(msdlm),基于肿瘤免疫微环境为临床医生提供一种有价值的决策工具,具体参见:foersch,sebastian et al.multistain deeplearning for prediction of prognosis and therapy response in colorectalcancer.nature medicine vol.29,2(2023):430-439.。但在宫颈癌早期检测领域,目前仍缺少一个便捷且成本效益高的风险预测算法模型。

4、目前,监督式机器学习的分类预测方法主要有逻辑回归、朴素贝叶斯、k-最近邻、支持向量机、人工神经网络算法和随机森林,但逻辑回归准确率较低、容易过拟合;朴素贝叶斯算法需要哥哥特征之间相互独立,现实中不易实现;k-最近邻计算复杂且内容消耗较高;svm在数据量大时运行效率欠佳;人工神经网络算法的决策过程缺乏透明度和可解释性;而本专利技术中采用的随机森林算法由于集成多个决策树的预测结果,不易发生过拟合,准确性高;训练速度快,可以应用于大规模数据集;能够评估特征的重要性。在本专利技术涉及的数据集中,随机森林算法相较于其他算法优势明显,表现良好。

5、另外,目前宫颈癌的筛查方法主要有宫颈细胞学检测和人乳头状瘤病毒(hpv)检测,一方面,细胞学检测灵敏度较低,导致漏诊率较高;另一方面,hpv检测特异性较低,容易出现假阳性,导致转诊率较高,成本较高。因此,需要开发一种新方法提高宫颈癌筛查效率及准确性。

6、本专利技术基于低深度全基因组测序技术,通过随机森林算法建立一套合适的算法模型,对测序获取的样本数据进行分类,根据模型预测结果获取最佳临界值,最后通过最佳临界值对宫颈癌高危和低危风险进行判别。


技术实现思路

1、为提高宫颈病变的早期筛查效率,解决发病即晚期的问题,通过收集宫颈刮片细胞,基于低深度全基因组测序数据,提供一种用于预测宫颈癌高危和低危风险的模型,可以帮助发现早期潜在的异常细胞变化,帮助临床医生加强对患者病变程度的有效诊断。

2、为达到上述目的,本专利技术的技术方案如下:

3、本专利技术提供了一种基于机器学习算法预测宫颈癌风险的模型,对收集的所有宫颈刮片样本进行低深度全基因组测序,对测序数据进行标准质控,然后将质控后的数据按照8:2比例划分为样本队列一和队列二,其中样本队列一重新按照8:2比例划分为训练集和测试集set 1,队列二作为独立的测试集set 2验证模型的性能。

4、为实现上述目的,本专利技术的技术方案如下:一种基于机器学习算法预测宫颈癌风险的模型,具体操作步骤为:

5、(1)利用随机森林算法建立cnv模型,获得一个最优cut off值x;

6、(2)利用随机森林算法建立snv模型,将特异性设为固定值,获得对应的cut off值y;

7、(3)将cnv模型和snv模型联合为cx本文档来自技高网...

【技术保护点】

1.一种基于机器学习算法预测宫颈癌风险的模型,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于机器学习算法预测宫颈癌风险的模型,其特征在于,步骤(1)具体包括以下步骤:

3.根据权利要求2所述的一种基于机器学习算法预测宫颈癌风险的模型,其特征在于,步骤(2)具体包括以下步骤:

4.根据权利要求1所述的一种基于机器学习算法预测宫颈癌风险的模型,其特征在于,步骤(3)具体包括以下步骤:

5.根据权利要求4所述的一种基于机器学习算法预测宫颈癌风险的模型,其特征在于,所述的高危样本包括HSIL和CC样本,所述的低危样本包括LSIL和YZ的样本。

【技术特征摘要】

1.一种基于机器学习算法预测宫颈癌风险的模型,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于机器学习算法预测宫颈癌风险的模型,其特征在于,步骤(1)具体包括以下步骤:

3.根据权利要求2所述的一种基于机器学习算法预测宫颈癌风险的模型,其特征在于,步骤(2)具体包括...

【专利技术属性】
技术研发人员:董辉李利鸿陈志池华斌孔爽赵加栋金维荣张杏杏
申请(专利权)人:申友基因组研究院南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1