System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种生物标志物挖掘方法及系统技术方案_技高网

一种生物标志物挖掘方法及系统技术方案

技术编号:40952042 阅读:2 留言:0更新日期:2024-04-18 20:27
本发明专利技术公开了一种生物标志物挖掘方法及系统,包括:通过统计学习和XGBoost特征选择技术的融合筛选,初步确定差异蛋白质;利用基于Shapley特征权重的SVM算法进行二次筛选,得到极具分类关键性的蛋白质作为生物标志物候选;通过知识图谱的靶标相关性评分算法结合DISEASES算法,完成生物标志物的验证。本发明专利技术显著提高了生物标志物挖掘的速度和准确性,简化了挖掘过程,增强了生物标志物的可信度和相关性验证。

【技术实现步骤摘要】

本专利技术涉及生物信息,尤其涉及一种生物标志物挖掘方法及系统


技术介绍

1、近年来,生物标志物的发现和应用在现代医学和生物研究中具有重要价值。生物标志物是一种生物分子、遗传因子或其他可测量特征,用于指示生理状态、疾病状态、药物反应等信息。它们在疾病诊断、治疗监测、药物研发和个性化医疗等方面发挥着至关重要的作用。

2、传统的生物标志物发现方法通常受到多个挑战的制约,包括对大量数据的复杂分析、验证步骤的费时费力以及数据噪声和样本异质性的干扰。因此,开发出一种高效、准确的生物标志物挖掘方法对于推动生物医学研究和临床实践具有重要意义。

3、近年来,随着生物信息学、人工智能和机器学习领域的快速发展,研究人员开始运用先进技术和大规模生物数据来寻找潜在的生物标志物。这些新方法结合了生物学知识图谱、特征选择技术、机器学习模型等,有望克服传统方法的限制,提高挖掘生物标志物的效率和精确性。


技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。

2、鉴于上述现有存在的问题,提出了本专利技术。

3、因此,本专利技术提供了一种生物标志物挖掘方法及系统解决现有生物标志物挖掘方法挖掘生物标志物的效率较低和精确性较差的问题。

4、为解决上述技术问题,本专利技术提供如下技术方案:

5、第一方面,本专利技术提供了一种生物标志物挖掘方法,包括:

6、通过统计学习和xgboost特征选择技术的融合筛选,初步确定差异蛋白质;

7、利用基于shapley特征权重的svm算法进行二次筛选,得到极具分类关键性的蛋白质作为生物标志物候选;

8、通过知识图谱的靶标相关性评分算法结合diseases算法,完成生物标志物的验证。

9、作为本专利技术所述的生物标志物挖掘方法的一种优选方案,其中:所述通过统计学习和xgboost特征选择技术的融合筛选,初步确定差异蛋白质,包括使用学生t检验中的独立样本t检验,根据差异性和显著性大小选择在不同类别间相差较大的蛋白质,学生t检验的公式表示为:

10、

11、

12、其中n1表示健康组的样本量,n2表示患者组的样本量,和分别表示健康组和患者组的样本均值,表示合并标准差,用于描述双样本作为一个整体的、内部的数值离散程度,n1+n2-2表示自由度df。

13、作为本专利技术所述的生物标志物挖掘方法的一种优选方案,其中:所述通过统计学习和xgboost特征选择技术的融合筛选,初步确定差异蛋白质,还包括xgboost会记录每个特征被选中用来划分节点的次数,以及每次划分对目标函数的增益,综合考虑这两个因素,得到每个特征在模型中的重要性得分,然后设定一个特征重要性的阈值,将重要性得分高于阈值的特征筛选出来,作为重要的特征,计算公式如下:

14、

15、其中,scorei表示特征i的重要性得分,ωi表示特征i被选中划分节点的次数,ti表示使用特征i划分的所有节点的集合,gt表示节点t上目标函数的一阶导数,ht表示节点t上目标函数的二阶导数,λ和γ是正则化参数。

16、作为本专利技术所述的生物标志物挖掘方法的一种优选方案,其中:所述利用基于shapley特征权重的svm算法进行二次筛选,包括将shapley可解释算法嵌入到svm中,将可解释性与分类能力结合到一起,通过shapley值对每个特征对预测结果的贡献进行量化,计算出不同特征组合对模型预测结果的贡献,可解释svm目标函数表示为:

17、

18、其中,w表示超平面的法向量,b表示超平面的截距,ξi表示第i个样本的松弛变量,yi表示样本的类别标签,xi表示样本的特征向量,c表示正则化参数,控制着分类器的复杂度和泛化能力。

19、作为本专利技术所述的生物标志物挖掘方法的一种优选方案,其中:所述可解释svm目标函数,φi(x)即为所嵌入的shapley值,φi(x)表示为:

20、

21、其中,s是除特征xj以外的特征子集,|s|表示子集长度,p表示特征数量,val(s)表示当前特征是s组合的情况下svm分类模型给出的模型预测值,表示当前特征子集的权重系数,其与特征组合的顺序有关。

22、作为本专利技术所述的生物标志物挖掘方法的一种优选方案,其中:所述知识图谱的靶标相关性评分算法,包括:

23、将有价值的文章的标题、摘要、正文赋予不同的权重,通过累加得到每篇具有相关性特征的文献或摘要,将所有篇文章的评分进行累加,得到目标基因与疾病的总评分,此评分即是在大量先验知识中目标基因与疾病的相关性体现,依据此评分对生物标志物进行验证,目标蛋白质与疾病的相关性评分call表示为:

24、

25、其中,ma表示文献a,pb表示蛋白质b,dc表示疾病c,和分别表示为文献i在摘要和正文中的评分。

26、作为本专利技术所述的生物标志物挖掘方法的一种优选方案,其中:所述和分别表示为:

27、

28、

29、其中,对摘要的评分cabs的计算会从第一句到最后一句逐一计算,并进行累加,表示当前句子i的所在位置的权重,δsentence表示目标蛋白质与疾病的共现,对正文的评分ctext的计算类似,对于每个部分内,对每句进行计算并求和得到该部分总分值,将标题部分到文献末尾部分的进行累加求和得到正文部分的总分值。

30、第二方面,本专利技术提供了一种生物标志物挖掘系统,包括:

31、筛选模块,通过统计学习和xgboost特征选择技术的融合筛选,初步确定差异蛋白质;

32、二次筛选模块,利用基于shapley特征权重的svm算法进行二次筛选,得到极具分类关键性的蛋白质作为生物标志物候选;

33、验证模块,通过知识图谱的靶标相关性评分算法结合diseases算法,完成生物标志物的验证。

34、第三方面,本专利技术提供了一种计算设备,包括:

35、存储器,用于存储程序;

36、处理器,用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现所述生物标志物挖掘方法的步骤。

37、第四方面,本专利技术提供了一种计算机可读存储介质,包括:所述程序被处理器执行时,实现所述的生物标志物挖掘方法的步骤。

38、本专利技术的有益效果:本专利技术提供了一种高效、准确和通用的生物标志物挖掘方法,显著提高了生物标志物挖掘的速度和准确性,简化了挖掘过程,增强了生物标志物的可信度和相关性验证,从而在生物医学研究、疾病诊断和药物开发等领域促进了科学研究和应用的进展,有望加速个性化医疗、药物研发和健康领域的创新。

本文档来自技高网...

【技术保护点】

1.一种生物标志物挖掘方法,其特征在于,包括:

2.如权利要求1所述的生物标志物挖掘方法,其特征在于:所述通过统计学习和XGBoost特征选择技术的融合筛选,初步确定差异蛋白质,包括使用学生T检验中的独立样本T检验,根据差异性和显著性大小选择在不同类别间相差较大的蛋白质,学生T检验的公式表示为:

3.如权利要求1或2所述的生物标志物挖掘方法,其特征在于:所述通过统计学习和XGBoost特征选择技术的融合筛选,初步确定差异蛋白质,还包括XGBoost会记录每个特征被选中用来划分节点的次数,以及每次划分对目标函数的增益,综合考虑这两个因素,得到每个特征在模型中的重要性得分,然后设定一个特征重要性的阈值,将重要性得分高于阈值的特征筛选出来,作为重要的特征,计算公式如下:

4.如权利要求3所述的生物标志物挖掘方法,其特征在于:所述利用基于Shapley特征权重的SVM算法进行二次筛选,包括将Shapley可解释算法嵌入到SVM中,将可解释性与分类能力结合到一起,通过Shapley值对每个特征对预测结果的贡献进行量化,计算出不同特征组合对模型预测结果的贡献,可解释SVM目标函数表示为:

5.如权利要求4所述的生物标志物挖掘方法,其特征在于:所述可解释SVM目标函数,φi(x)即为所嵌入的Shapley值,φi(x)表示为:

6.如权利要求5所述的生物标志物挖掘方法,其特征在于:所述知识图谱的靶标相关性评分算法,包括:

7.如权利要求6所述的生物标志物挖掘方法,其特征在于:所述和分别表示为:

8.一种基于权利要求1~7任一所述的生物标志物挖掘方法的挖掘系统,其特征在于:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其存储有程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-7任一项所述的生物标志物挖掘方法的步骤。

...

【技术特征摘要】

1.一种生物标志物挖掘方法,其特征在于,包括:

2.如权利要求1所述的生物标志物挖掘方法,其特征在于:所述通过统计学习和xgboost特征选择技术的融合筛选,初步确定差异蛋白质,包括使用学生t检验中的独立样本t检验,根据差异性和显著性大小选择在不同类别间相差较大的蛋白质,学生t检验的公式表示为:

3.如权利要求1或2所述的生物标志物挖掘方法,其特征在于:所述通过统计学习和xgboost特征选择技术的融合筛选,初步确定差异蛋白质,还包括xgboost会记录每个特征被选中用来划分节点的次数,以及每次划分对目标函数的增益,综合考虑这两个因素,得到每个特征在模型中的重要性得分,然后设定一个特征重要性的阈值,将重要性得分高于阈值的特征筛选出来,作为重要的特征,计算公式如下:

4.如权利要求3所述的生物标志物挖掘方法,其特征在于:所述利用基于shapley特征权重的svm算法进行二次筛选,包括将sh...

【专利技术属性】
技术研发人员:曾昭沛陈德华张振华杨永生
申请(专利权)人:第牛上海健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1