一种肠道息肉的风险评估模型及相关系统技术方案

技术编号:29404782 阅读:11 留言:0更新日期:2021-07-23 22:43
本发明专利技术涉及一种肠道息肉的风险评估模型及相关系统,所述系统嵌入了利用机器学习开发的肠道息肉风险评估模型,通过接收来自受试者的测序信息,根据风险评估模型,判断受试者的患病风险,进一步为治疗提供建议。

【技术实现步骤摘要】
一种肠道息肉的风险评估模型及相关系统
本专利技术属于生物医学领域,涉及一种肠道息肉的风险评估模型及相关系统。
技术介绍
肠道息肉是指肠腔内黏膜表面的隆起病变,大多见于直肠和乙状结肠,其发病率随年龄增长而逐渐增高,而且也具有一定的恶变倾向。肠道息肉的危险因素包括饮食因素、炎症刺激、不良生活行为习惯以及遗传因素等。部分肠道息肉在危险因素的长期刺激下有一定的癌变倾向。腺瘤性息肉是一种癌前病变,特别是大于2cm的腺瘤性息肉发生癌变的几率很高;其它息肉,一般认为癌变几率很小。从良性的肠道息肉发展到恶性的结直肠癌是一个多因素影响、多步骤发生的过程。目前,用于肠道息肉的诊断方法主要有粪便隐血试验、直肠指诊、气钡双重造影和结肠镜检查。粪便隐血试验简单经济,但该法假阴性率高,可作为人群筛查的基本手段。直肠指诊对诊断部位较为局限。气钡双重造影主要用于诊断低位胃肠疾病,阳性率较低,且直径小于1.0cm的息肉不容易被发现。结肠镜检查是发现肠道息肉最重要的方法,但这是一种侵入性的检查方法,患者需承受一定的痛苦,可能出现一定的并发症,且价格昂贵,无法大规模推广。随着分子生物学的发展,结直肠癌和肠道息肉分子标志物的研究越来越深入。然而,目前研究大多是针对于结直肠癌的分子标志物的研究,对于肠道息肉的分子标志物却少有研究;而且,肠道息肉为结直肠癌的癌前病变,结直肠癌适用的分子标志物和风险模型不一定适用于肠道息肉。大约85%的结直肠癌被认为是从传统的腺瘤演变而来,在其发生发展的漫长过程中,经历正常黏膜→增生→腺瘤形成→腺瘤癌变的过程,一般需要5-10年的时间,这就为结直肠癌的预防提供了极有利的机会,如果能够在息肉腺瘤阶段就进行干预,就能有效防止结直肠癌的发生。因此,研究与肠道息肉相关的生物标志物对于疾病的早期诊断和治疗具有重要的意义。
技术实现思路
本专利技术的目的之一在于提供一种构建肠道息肉风险评估模型的方法,本专利技术的方法以机器学习为基础,展现出较高的灵敏性和特异性。本专利技术的目的之二在于提供一种AI分子诊断产品,该产品可用于疾病的早期筛查,预测疾病的发展,为临床医学的进一步诊疗提供辅助。为了实现上述目的,本专利技术采用如下技术方案:本专利技术第一方面提供了一种预测肠道息肉的风险评估模型的构建方法,包括获取数据:获取样本TCGA数据库和SRA数据库的测序数据;测序数据的处理:对测序数据进行处理和质控,得到cleandata;序列比对:将cleandata比对至人类参考基因组上;构建表达量矩阵:结合基因注释文件,对比对后的数据进行基因的表达量的定量,构建表达量矩阵;临床信息处理:将临床信息按照样本分组信息进行特征标记;数据分组:将样本随机拆分为训练集和测试集;建模数据处理:将用训练集的数据进行特征剔除、批次效应校正;模型训练和构建:采用voomNSC进行模型训练,构建风险评估模型。进一步,所述方法还包括模型验证:使用构建的风险评估模型对测试集进行验证,得到预测分类结果。进一步,特征剔除的步骤包括:使用featurefilter函数将所有基因单独进行过滤,计算表达量为0的样本数量,并统计其在总样本数中所占的比例,剔除高于特定比例的特征。进一步,所述特定比例为0.05。进一步,批次效应校正的步骤包括:将样本的分组信息和批次标记信息保存为向量,对表达量矩阵、分组信息向量、批次标记信息向量进行矩阵建模,估计代表批次效应的参数,将原始数据映射到预期的分布,进而生成新的表达量矩阵。进一步,批次校正的函数为ComBat-Seq函数。进一步,建模数据处理还包括离群样本剔除。进一步,离群样本剔除的步骤包括:进行主成分分析,将剔除批次效应的表达量矩阵作为参数传入,进行数据的基因特征的维度映射,生成降低维度的主成分的数值矩阵,绘制PCA图,删除远离群体的样本。进一步,所述表达量矩阵为M*N的基因表达量矩阵,表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值,其中1≤i≤M,1≤j≤N;M表示检测基因的数量,N表示分析样本的数量。进一步,表达量矩阵的定量标准类型为基因ID。进一步,表达量矩阵的定量模式为intersection-nonempty。进一步,构建表达量矩阵还包括合并数据集。进一步,利用基因ID合并数据集。进一步,临床信息处理的步骤包括:肠道息肉样本的subtype字段重命名为subclass,并标记为polyps;无患病正常样本的subtype字段重命名为subclass,并标记为normal;添加字段source,标记样本来源TCGA或者是SRA。进一步,采用voomNSC进行模型训练包括:构建用于子模型训练的表达量矩阵和设计矩阵。进一步,设计矩阵的样本ID和临床表型一一对应。进一步,模型训练还包括将表达量矩阵和设计矩阵封装为DESeqDataSetFromMatrix对象。进一步,模型训练使用十折交叉进行验证;进一步,十折交叉的参数设置如下:-Method:repeatedcv;-Number:10;-Repeats:10。进一步,voomNSC进行模型训练还包括构建voomControl控制器。进一步,voomNSC使用classify方法进行模型训练。进一步,传入参数为DESeqDataSetFromMatrix对象、voomControl控制器。进一步,参数设置如下:-Method:voomNSC,-preProcessing:TMM。本专利技术的第二方面提供了种判断肠道息肉的风险评估模型,所述风险评估模型根据本专利技术第一方面所述的方法构建而成。进一步,所述风险评估模型为12-基因的风险评估模型。进一步,所述12-基因选自ENSG00000007306、ENSG00000062038、ENSG00000091138、ENSG00000103888、ENSG00000134193、ENSG00000134827、ENSG00000155850、ENSG00000163347、ENSG00000165376、ENSG00000167755、ENSG00000174992、ENSG00000206075。本专利技术的第三方面提供了如下任一种计算机可读存储介质:(a)其存储有程序,该程序用于执行本专利技术第一方面所述的方法;(b)其存储有程序,该程序用于执行本专利技术第二方面所述的风险评估模型。本专利技术的第四方面提供了一种肠道息肉的风险评估系统,所述系统包括:(a)被配置为接收数据输入的至少一个存储器单元,该数据输入包含由来自受试者的核酸样品生成的测序数据;(b)与所述至少一个存储器单元可操作地耦合的计算机处理器,其中所述计算机处理器被编程为可执行程序,可执行程序用于运行本专利技术第二本文档来自技高网
...

【技术保护点】
1.一种预测肠道息肉的风险评估模型的构建方法,其特征在于,包括/n获取数据:获取样本TCGA数据库和SRA数据库的测序数据;/n测序数据的处理:对测序数据进行处理和质控,得到cleandata;/n序列比对:将cleandata比对至人类参考基因组上;/n构建表达量矩阵:结合基因注释文件,对比对后的数据进行基因的表达量的定量,构建表达量矩阵;/n临床信息处理:将临床信息按照样本分组信息进行特征标记;/n数据分组:将样本随机拆分为训练集和测试集;/n建模数据处理:将用训练集的数据进行特征剔除、批次效应校正;/n模型训练和构建:采用voomNSC进行模型训练,构建风险评估模型;/n优选地,所述方法还包括模型验证:使用构建的风险评估模型对测试集进行验证,得到预测分类结果;/n优选地,特征剔除的步骤包括:使用featurefilter函数将所有基因单独进行过滤,计算表达量为0的样本数量,并统计其在总样本数中所占的比例,剔除高于特定比例的特征;/n优选地,所述特定比例为0.05;/n优选地,批次效应校正的步骤包括:将样本的分组信息和批次标记信息保存为向量,对表达量矩阵、分组信息向量、批次标记信息向量进行矩阵建模,估计代表批次效应的参数,将原始数据映射到预期的分布,进而生成新的表达量矩阵;/n优选地,批次校正的函数为ComBat-Seq函数;/n优选地,建模数据处理还包括离群样本剔除;/n优选地,离群样本剔除的步骤包括:进行主成分分析,将剔除批次效应的表达量矩阵作为参数传入,进行数据的基因特征的维度映射,生成降低维度的主成分的数值矩阵,绘制PCA图,删除远离群体的样本;/n优选地,所述表达量矩阵为M*N的基因表达量矩阵,表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值,其中1≤i≤M,1≤j≤N;M表示检测基因的数量,N表示分析样本的数量;/n优选地,表达量矩阵的定量标准类型为基因ID;/n优选地,表达量矩阵的定量模式为intersection-nonempty;/n优选地,构建表达量矩阵还包括合并数据集;/n优选地,利用基因ID合并数据集;/n优选地,临床信息处理的步骤包括:/n肠道息肉样本的subtype字段重命名为subclass,并标记为polyps;/n无患病正常样本的subtype字段重命名为subclass,并标记为normal;/n添加字段source,标记样本来源TCGA或者是SRA。/n...

【技术特征摘要】
1.一种预测肠道息肉的风险评估模型的构建方法,其特征在于,包括
获取数据:获取样本TCGA数据库和SRA数据库的测序数据;
测序数据的处理:对测序数据进行处理和质控,得到cleandata;
序列比对:将cleandata比对至人类参考基因组上;
构建表达量矩阵:结合基因注释文件,对比对后的数据进行基因的表达量的定量,构建表达量矩阵;
临床信息处理:将临床信息按照样本分组信息进行特征标记;
数据分组:将样本随机拆分为训练集和测试集;
建模数据处理:将用训练集的数据进行特征剔除、批次效应校正;
模型训练和构建:采用voomNSC进行模型训练,构建风险评估模型;
优选地,所述方法还包括模型验证:使用构建的风险评估模型对测试集进行验证,得到预测分类结果;
优选地,特征剔除的步骤包括:使用featurefilter函数将所有基因单独进行过滤,计算表达量为0的样本数量,并统计其在总样本数中所占的比例,剔除高于特定比例的特征;
优选地,所述特定比例为0.05;
优选地,批次效应校正的步骤包括:将样本的分组信息和批次标记信息保存为向量,对表达量矩阵、分组信息向量、批次标记信息向量进行矩阵建模,估计代表批次效应的参数,将原始数据映射到预期的分布,进而生成新的表达量矩阵;
优选地,批次校正的函数为ComBat-Seq函数;
优选地,建模数据处理还包括离群样本剔除;
优选地,离群样本剔除的步骤包括:进行主成分分析,将剔除批次效应的表达量矩阵作为参数传入,进行数据的基因特征的维度映射,生成降低维度的主成分的数值矩阵,绘制PCA图,删除远离群体的样本;
优选地,所述表达量矩阵为M*N的基因表达量矩阵,表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值,其中1≤i≤M,1≤j≤N;M表示检测基因的数量,N表示分析样本的数量;
优选地,表达量矩阵的定量标准类型为基因ID;
优选地,表达量矩阵的定量模式为intersection-nonempty;
优选地,构建表达量矩阵还包括合并数据集;
优选地,利用基因ID合并数据集;
优选地,临床信息处理的步骤包括:
肠道息肉样本的subtype字段重命名为subclass,并标记为polyps;
无患病正常样本的subtype字段重命名为subclass,并标记为normal;
添加字段source,标记样本来源TCGA或者是SRA。


2.根据权利要求1所述的方法,其特征在于,采用voomNSC进行模型训练包括:构建用于子模型训练的表达量矩阵和设计矩阵;
优选地,设计矩阵的样本ID和临床表型一一对应;
优选地,模型训练还包括将表达量矩阵和设计矩阵封装为DESeqDataSetFromMatrix对象;
优选地,模型训练使用十折交叉进行验证;优选地,十折交叉的参数设置如下:
-Method:repeatedcv;
-Number:10;
-Repeats:10;
优选地,voomNSC进行模型训练还包括构建voomControl控制器;
优选地,voomNSC使用classify方法进行模型训练;
优选地,传入参数为DESeqDataSetFromMatrix对象、voomControl控制器;
优选地,参数设置如下:
-Method:voomNSC,
-preProcessing:TMM。


3.一种判断肠道息肉的风险评估模型,其特征在于,所述风险评估模型根据权利要求1或2所述的方法构建而成;
优选地,所述风险评估模型为12-基因的风险评估模型;
优选地,所述12-基因选自ENSG00000007306、ENSG00000062038、ENSG00000091138、ENSG00000103888、ENSG00000134193、ENSG00000134827、ENSG000001...

【专利技术属性】
技术研发人员:杨承刚李雨晨
申请(专利权)人:青岛泱深生物医药有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1