一种构建梅毒cfDNA高通量测序的机器学习模型方法技术

技术编号：41287353 阅读：4 留言：0更新日期：2024-05-11 09:35

本发明专利技术提供构建梅毒cfDNA高通量测序的机器学习模型方法，所述方法包括收集梅毒的血浆标本，建立临床样本队列，对所有收集的梅毒血浆标本取血浆提取的cfDNA，进行梅毒靶向探针杂交捕获文库构建及二代测序；输出模型数据集，将所述确诊样本队列中样本的样本名称、与梅毒序列丰度相关特征因素的标准化测序数据和临床原始诊断结果，预处理为矩阵格式，构造用于建立决策树模型的数据集；和机器学习决策树模型建立与评估。本发明专利技术方法可以得出测序数据中区分阴阳性样本的最优特征因素及其划分阈值。使用决策树模型对多因素进行评估并针对最优特征因素再进行决策分类得出阈值，提升了模型预测的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习领域，具体而言，涉及一种构建梅毒cfdna高通量测序的机器学习模型方法。

技术介绍

1、梅毒是由梅毒螺旋体(t.pallidum)引起的传染性性传播感染疾病，梅毒的早发现早治疗可避免其发展成为重要传染源，对梅毒传染控制具有重要意义。

2、梅毒的有效管理包括早期发现和适当治疗有临床和血清学证据表明感染了梅毒螺旋体的病例。目前，苄星青霉素是治疗各期梅毒的推荐药物。然而，约有15％-58％的患者会出现非梅毒螺旋体抗体滴度下降至一定程度(一般≤1:8)即不再下降而长期维持在低滴度或无法达到血清学治愈，这种情况被称为"血清固定状态"。最近一项研究表明34.6％的无症状梅毒患者同时患有无症状神经梅毒，这一比例明显高于阳性梅毒患者。因此，由于存在持续低水平梅毒螺旋体感染的潜在风险，血清固定状态成为医生和患者关注的焦点，这种感染可能发展为神经梅毒，并导致严重的并发症。

3、近年来，人们对血浆细胞游离dna(cfdna)进行了广泛研究，将其作为一种用于检测恶性肿瘤的标记物以及诊断胎儿染色体疾病、血源性感染和脑炎感染的非侵入性方法。然而，由于梅毒螺旋体cfdna在梅毒患者血浆样本中的含量较低，因此检测梅毒螺旋体cfdna仍具有挑战性。新一代测序(ngs)技术近年来发展迅速，已被应用于病原菌鉴定和指导靶向抗菌治疗。靶向二代测序技术(tngs)通过先富集目的dna序列再测序的方法，增加测序数据中目标序列的比例，进而提高检测的灵敏度。靶向富集的方法有两种，一种是多重pcr策略通过pcr反应增加目的片段的数量，

技术实现思路

1、为了解决上述技术问题，本专利技术提供一种构建梅毒cfdna高通量测序的机器学习模型方法，其特征在于，所述方法包括以下步骤：

2、步骤s1，收集梅毒的血浆标本，建立临床样本队列，入组原则为：根据病例定义，将患者分为未治疗的活动性梅毒、血清学治愈和血清固定三组；通过该原则对经临床检测的样本进行评分，建立分为确诊样本队列和疑似样本队列的临床样本队列，其中确诊样本队列是未治疗的活动性梅毒病例和血清学治愈病例之和，疑似样本队列是血清固定病例；

3、步骤s2，对所有收集的梅毒血浆标本取血浆提取的cfdna，进行梅毒靶向探针杂交捕获文库构建及二代测序；

4、步骤s3，构造模型数据集，包括：

5、步骤s31，高通量测序数据分析及处理，读取对应样本的二代测序下机原始数据，对连续4个碱基质量值小于20的低质量碱基和接头序列进行剪切，对n碱基含量大于等于5的reads进行过滤，得到质控后的reads；将质控后的reads比对到人类参考基因组，保留比对不上的非人源reads序列为clean reads；对所述clean reads进行物种鉴定，得出与梅毒序列丰度相关特征因素的统计数据；基于上述统计数据，标准化不同样本间测序深度的影响，得出与梅毒序列丰度相关特征因素的标准化数据；

6、步骤s32，输出模型数据集，将所述确诊样本队列中样本的样本名称、上述与梅毒序列丰度相关特征因素的标准化数据和临床原始诊断结果，预处理为矩阵格式，构造用于建立决策树模型的数据集；

7、步骤s4，机器学习模型建立与评估，对上述构造用于建立决策树模型的数据集进行随机分层抽样，分为训练集与测试集，每个子集中临床阴性/阳性标本的比例与原始数据集相差20％以内；采用机器学习的决策树模型对训练集数据构建决策树，对训练集的数据进行分类；使用多因素决策树模型选择出最好的数据集划分方式，在树生成过程中，使用基尼指数选择最优特征因素，基尼指数就越大，所获得的信息增益越大，输出基尼指数增益值最大的因素作为决策树的根结点，即为最优特征因素；

8、通过所述最优特征因素的具体数据进一步构建决策树分类器模型，其中结点表示一个因素上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果；决策树分类器选择适当的阈值判断结果，使得对该特征因素所有数据分类的错误率最小；

9、将训练集上已经学习好的决策树模型运用在测试集上评估模型性能。

10、在一种实施方式中，在步骤s31中，首先根据refseq数据库进行本地比对库构建，把refseq数据库中梅毒参考序列的全基因组分成大小为k的短片段k-mer，片段大小k为小于测序单条reads长度的单数，每条k-mer都包含了相应参考序列的物种信息；其次将k-mer与clean reads进行匹配，根据匹配得到的k-mer判断clean reads的物种信息；由此得到clean reads比对上的k-mer数kmer，进一步将所有比对到该物种的k-mer进行去重后可以得到uniqkmer数uniqkmer，并且针对比对结果文件，还可以统计输出clean reads比对上梅毒螺旋体种t.pallidum的reads数和密螺旋体属treponema的reads数。

11、在一种实施方式中，片段大小k为31bp-141bp。

12、在一种实施方式中，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算梅毒螺旋体reads的rpm值rpm，

13、

14、在一种实施方式中，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算梅毒螺旋体reads数与密螺旋体菌的reads数的比值tp_rate，

15、

16、在一种实施方式中，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算uniqkmer数与kmer数的比值uk_rate，

17、

18、在一种实施方式中，步骤s4中，利用r语言中的par-tykit软件包构建了基于训练队列五个特征因素的多因素决策树分析模型。

19、在一种实施方式中，步骤s4中，通过绘制的roc曲线直观地评估模型在阈值下的分类性能，roc曲线下面积auc用来度量分类模型的性能。

20、在一种实施方式中，步骤s4中，在总样本中统计得出阈值诊断分类的混淆矩阵，tp：被正确分类的阳性样本个数，tn：被正确分类的阴性样本个数，fp：被错误分类的阳性样本个数，fn：被错误分类的阴性样本个数；并计算特异性specificity＝tn/fp+tn、灵敏度sensitivity＝tp/tp+fn、准确率accuracy＝(tp+tn)/(tp+tn+fp+fn)。

21、本专利技术具有以下有益技术效果：

22、1.使用本专利技术所述梅毒靶向探针杂交捕获文库构建及二代测序方法，有效对临床样本cfdna中的梅毒螺旋体核酸起到富集效本文档来自技高网...

【技术保护点】

1.一种构建梅毒cfDNA高通量测序的机器学习模型方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在步骤S31中，首先根据RefSeq数据库进行本地比对库构建，把RefSeq数据库中梅毒参考序列的全基因组分成大小为K的短片段K-mer，片段大小K为小于测序单条reads长度的单数，每条K-mer都包含了相应参考序列的物种信息；其次将K-mer与clean reads进行匹配，根据匹配得到的K-mer判断clean reads的物种信息；由此得到clean reads比对上的K-mer数Kmer，进一步将所有比对到该物种的K-mer进行去重后可以得到uniqkmer数Uniqkmer，并且针对比对结果文件，还可以统计输出clean reads比对上梅毒螺旋体种T.pallidum的reads数和密螺旋体属Treponema的reads数。

3.根据权利要求2所述的方法，其特征在于，片段大小K为31bp-141bp。

4.根据权利要求2所述的方法，其特征在于，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公

5.根据权利要求2所述的方法，其特征在于，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算梅毒螺旋体reads数与密螺旋体菌的reads数的比值TP_rate，

6.根据权利要求2所述的方法，其特征在于，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算uniqkmer数与kmer数的比值UK_rate，

7.根据权利要求1所述的方法，其特征在于，步骤S4中，利用R语言中的par-tykit软件包构建了基于训练队列五个特征因素的多因素决策树分析模型。

8.根据权利要求1所述的方法，其特征在于，步骤S4中，通过绘制的ROC曲线直观地评估模型在阈值下的分类性能，ROC曲线下面积AUC用来度量分类模型的性能。

9.根据权利要求1所述的方法，其特征在于，步骤S4中，在总样本中统计得出阈值诊断分类的混淆矩阵，TP：被正确分类的阳性样本个数，TN：被正确分类的阴性样本个数，FP：被错误分类的阳性样本个数，FN：被错误分类的阴性样本个数；并计算特异性Specificity＝TN/FP+TN、灵敏度Sensitivity＝TP/TP+FN、准确率Accuracy＝(TP+TN)/(TP+TN+FP+FN)。

...

【技术特征摘要】

1.一种构建梅毒cfdna高通量测序的机器学习模型方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在步骤s31中，首先根据refseq数据库进行本地比对库构建，把refseq数据库中梅毒参考序列的全基因组分成大小为k的短片段k-mer，片段大小k为小于测序单条reads长度的单数，每条k-mer都包含了相应参考序列的物种信息；其次将k-mer与clean reads进行匹配，根据匹配得到的k-mer判断clean reads的物种信息；由此得到clean reads比对上的k-mer数kmer，进一步将所有比对到该物种的k-mer进行去重后可以得到uniqkmer数uniqkmer，并且针对比对结果文件，还可以统计输出clean reads比对上梅毒螺旋体种t.pallidum的reads数和密螺旋体属treponema的reads数。

3.根据权利要求2所述的方法，其特征在于，片段大小k为31bp-141bp。

4.根据权利要求2所述的方法，其特征在于，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算梅毒螺旋体reads的rpm值rpm，

5.根据权利...

【专利技术属性】
技术研发人员：邹弈君，陈路，姜君，陈洋，
申请(专利权)人：北京宏微特斯生物科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人