蛋白组临床生物标志物整体筛选方法、系统和介质技术方案

技术编号:33638747 阅读:18 留言:0更新日期:2022-06-02 01:55
本申请提供了一种蛋白组临床生物标志物整体筛选方法、系统和介质,包括步骤:获取高通量蛋白组的检测数据,并对检测数据进行数据预处理;对预处理后的检测数据进行蛋白组学的特征预筛选,得到蛋白组学的有效特征集;对有效特征集进行特征提取得到候选蛋白标志物组合;使用多种机器学习特征选择方法对候选蛋白标志物组合进行筛选得到生物标志物。能够从海量数据中筛选高通量、高灵敏、高准确性且成本合理的潜在生物标志物的方法。可以高效的鉴定和识别验证率高且分类效果显著的生物标志物诊断,因此它可以大大节省相关研究人员的时间、精力和资源,并为其提供极大的便利。并为其提供极大的便利。并为其提供极大的便利。

【技术实现步骤摘要】
蛋白组临床生物标志物整体筛选方法、系统和介质


[0001]本专利技术涉及生物标志物整体筛选
,具体涉及一种蛋白组临床生物标志物整体筛选方法、系统和介质。

技术介绍

[0002]生物标志物(Biomarker)在转化医学与临床、生态与环境、生理机制研究等领域有着广泛的应用。生物标志物的重要性早已被公众、科学界和工业领域所认识。生物标志物可应用于疾病的分型、预测、治疗和预防,是临床应用转化前期基础,同时也是早期筛查的重要指标。但真正被食品药品监督管理局批准的蛋白质生物标志物数量不多,目前临床上常规使用的蛋白质生物标志物更少,主要原因是生物标志物开发效率低,包括临床样本质量差、疾病的主观临床定义和客观蛋白质检测结果之间的差距,以及在发现阶段所识别的差异蛋白的高错误发现率。
[0003]标志物筛选的本质则是从庞大复杂的特征数据(各种组学数据、生化指标和类别数据等)中高效筛选到简单组合的、可以代表整体数据特性的一组特征(panel),这一组特征能很好地使用(分类,预测等)。标志物在机器学习领域中,可称为特征(Feature)或变量(Variation),那么标志物数据则可看作是由一个个特征、特征量和样品标记(Label)所组成。生物标志物数据来源比较多,除各组学数据、生化指标等数值型数据(Numericdata)以外,还有像一些临床指标或表型数据的类别型数据(Categorical data),所以常规的单维统计学检验方法(如T检验、非参数检验等)在标志物筛选中受方法本身的限制,如:筛选能力弱,返回大量的差异数据,指标间的互作关系以及对新样本有预测分类能力弱等,致标志物的实际应用结果不理想等,且对数据的挖掘解析能力有限,生成的生物标志物稳定性差,应用能力低,最终的模型结果往往表现的不够理想。

技术实现思路

[0004]本专利技术的目的在于克服上述技术不足,提供一种蛋白组临床生物标志物整体筛选方法、系统和介质,解决现有技术中对于生物标志物筛选能力弱、标志物的实际应用结果不理想、对数据的挖掘解析能力有限和应用能力低的技术问题。
[0005]为达到上述技术目的,第一方面,本专利技术的技术方案提供一种蛋白组临床生物标志物整体筛选方法,包括以下步骤:
[0006]获取高通量蛋白组的检测数据,并对所述检测数据进行数据预处理;
[0007]对所述预处理后的所述检测数据进行蛋白组学的特征预筛选,得到蛋白组学的有效特征集;
[0008]对所述有效特征集进行特征提取得到候选蛋白标志物组合;
[0009]使用多种机器学习特征选择方法对所述候选蛋白标志物组合进行筛选得到生物标志物。
[0010]与现有技术相比,本专利技术的有益效果包括:
[0011]本专利技术提供的蛋白组临床生物标志物整体筛选方法,能够从海量数据中筛选高通量、高灵敏、高准确性且成本合理的潜在生物标志物的方法。通过机器学习相关技术预测和分析可能的biomarkers,可以高效的鉴定和识别验证率高且分类效果显著的生物标志物诊断,因此它可以大大节省相关研究人员的时间、精力和资源,并为其提供极大的便利。将高通量蛋白组的检测数据整合统计学检验和机器学习等特征选择算法,高效的鉴定和识别验证率高且分类效果显著的生物标志物诊断,从而达到极佳的预判效果,为疾病的分型、预测以及治疗提供一个强有力的工具。
[0012]根据本专利技术的一些实施例,蛋白组临床生物标志物整体筛选方法还包括步骤:
[0013]计算所述生物标志物在经典模型中的重要性指数、表达丰度和相关性指数;
[0014]根据所述重要性指数、所述表达丰度和所述相关性指数计算得到所述生物标志物的分类能力指数。
[0015]根据本专利技术的一些实施例,蛋白组临床生物标志物整体筛选方法还包括步骤:
[0016]使用逻辑回归算法构建所述生物标志物的诊断模型;
[0017]利用所述诊断模型对所述高通量蛋白组的所述检测数据进行ROC分析。
[0018]根据本专利技术的一些实施例,所述对所述检测数据进行数据预处理,包括步骤:
[0019]根据每个检测数据样本的缺失值情况进行缺失值删除或插补处理;
[0020]将所述检测数据进行标准化处理;
[0021]对不同批次的所述检测数据进行批次校正。
[0022]根据本专利技术的一些实施例,所述对所述检测数据进行蛋白组学的特征预筛选,包括步骤:
[0023]使用单因素统计分析方法对所述检测数据进行蛋白组学的特征预筛选,以保存有效的所述特征变量。
[0024]根据本专利技术的一些实施例,所述根据每个所述检测数据样本的缺失值情况进行缺失值删除或插补处理,包括步骤:
[0025]生存缺失报告,查看每个所述检测数据样本所检测出的蛋白表达量的缺失情况;
[0026]若所述检测数据样本的缺失情况达到50%以上,将所述检测数据样本删除;
[0027]若所述检测数据样本的缺失情况小于50%,将所述检测数据样本缺失值的最邻值插补到所述缺失值。
[0028]根据本专利技术的一些实施例,所述使用集成机器学习算法对所述候选蛋白标志物组合进行筛选得到生物标志物,包括步骤:
[0029]将所述候选蛋白标志物组合按比例分为训练集和测试集,使用机器学习模型对所述候选蛋白标志物组合进行筛选得到多种物质,根据各物质对所述机器学习模型的影响强度,选择排名靠前的物质作为所述生物标志物的组合。
[0030]根据本专利技术的一些实施例,所述训练集和所述测试集的比例为8比2。
[0031]第二方面,本专利技术的技术方案提供一种蛋白组临床生物标志物整体筛选系统,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的蛋白组临床生物标志物整体筛选方法。
[0032]第三方面,本专利技术的技术方案提供一种计算机可读存储介质,其特征在于,所述计
算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面中任意一项所述的蛋白组临床生物标志物整体筛选方法。
[0033]本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0034]本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中摘要附图要与说明书附图的其中一幅完全一致:
[0035]图1为本专利技术一个实施例提供的蛋白组临床生物标志物整体筛选方法的流程图;
[0036]图2为本专利技术另一个实施例提供的蛋白组临床生物标志物整体筛选方法的流程图;
[0037]图3为本专利技术另一个实施例提供的蛋白组临床生物标志物整体筛选方法的流程图;
[0038]图4为本专利技术另一个实施例提供的蛋白组临床生物标志物整体筛选方法的流程图。
具体实施方式
[0039]为了使本专利技术的目的、技术方案及优点更加清楚明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种蛋白组临床生物标志物整体筛选方法,其特征在于,包括以下步骤:获取高通量蛋白组的检测数据,并对所述检测数据进行数据预处理;对所述预处理后的所述检测数据进行蛋白组学的特征预筛选,得到蛋白组学的有效特征集;对所述有效特征集进行特征提取得到候选蛋白标志物组合;使用多种机器学习特征选择方法对所述候选蛋白标志物组合进行筛选得到生物标志物。2.根据权利要求1所述的一种蛋白组临床生物标志物整体筛选方法,其特征在于,还包括步骤:计算所述生物标志物在经典模型中的重要性指数、表达丰度和相关性指数;根据所述重要性指数、所述表达丰度和所述相关性指数计算得到所述生物标志物的分类能力指数。3.根据权利要求2所述的一种蛋白组临床生物标志物整体筛选方法,其特征在于,还包括步骤:使用逻辑回归算法构建所述生物标志物的诊断模型;利用所述诊断模型对所述高通量蛋白组的所述检测数据进行ROC分析。4.根据权利要求1所述的一种蛋白组临床生物标志物整体筛选方法,其特征在于,所述对所述检测数据进行数据预处理,包括步骤:根据每个检测数据样本的缺失值情况进行缺失值删除或插补处理;将所述检测数据进行标准化处理;对不同批次的所述检测数据进行批次校正。5.根据权利要求1所述的一种蛋白组临床生物标志物整体筛选方法,其特征在于,所述对所述检测数据进行蛋白组学的特征预筛选,包括步骤:使用单因素统计分析方法对所述检测数据进行蛋白组学的特征预筛选,以保存有效的所述特征变量。6.根据权利要求4所述的一种蛋白组...

【专利技术属性】
技术研发人员:赵海义华权高李云舒芹张韦
申请(专利权)人:武汉金开瑞生物工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1