基于XGBOOST算法的高效siRNA有效性预测方法及系统技术方案

技术编号:44157055 阅读:32 留言:0更新日期:2025-01-29 10:28
本申请涉及生物信息学和药物开发领域,公开了一种基于XGBOOST算法的高效siRNA有效性预测方法及系统。该方法包括获取包含siRNA序列信息、化学修饰信息及其对应有效性数据的训练数据集;对数据进行清洗、特征提取和数据平衡处理;使用XGBOOST算法训练预测模型,并优化超参数;通过交叉验证进行模型评估和优化;输入新的siRNA序列进行有效性预测;使用SHAP值分析技术解释预测结果;通过体外细胞实验验证高效siRNA序列的实际干扰效率,并基于实验结果进一步优化模型。该方法提高了siRNA有效性预测的准确性和效率,全面考虑化学修饰影响,解决数据不平衡问题,增强模型解释性,并显著提升计算效率。

【技术实现步骤摘要】

本申请涉及生物信息学和药物开发领域,特别涉及一种基于机器学习的小干扰rna(sirna)有效性预测技术。


技术介绍

1、小核酸药物,尤其是小干扰rna(sirna)药物,近年来在医药领域备受关注。sirna通过rna干扰(rnai)机制,能够特异性地沉默目标基因,从而实现疾病治疗。自2018年第一款sirna药物获批上市以来,截至2023年,美国fda已批准6款小核酸药物,显示出这一领域的巨大潜力和快速发展趋势。

2、然而,sirna药物的开发过程中仍面临诸多挑战,其中最关键的瓶颈之一是如何快速、准确地识别和筛选高效的s irna序列。传统的实验方法耗时长、成本高,难以满足快速药物开发的需求。因此,研究人员开始转向计算机辅助的预测方法。

3、目前,sirna有效性预测方法主要分为三类:基于规则的经验方法、传统机器学习算法和深度学习方法。这些方法在实践中暴露出一系列问题:

4、预测精度不足:现有的机器学习预测方法,如随机森林(rf)和支持向量机(svm),在处理复杂的s irna生物数据时,预测精度有限。它们往往无法充分捕本文档来自技高网...

【技术保护点】

1.一种基于XGBOOST算法的高效siRNA有效性预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述步骤A中的预处理具体包括:对数据进行清洗和标准化处理;提取siRNA序列特征和化学修饰特征,生成特征矩阵;使用数据平衡技术处理特征矩阵中的数据不平衡问题。

3.根据权利要求2所述的方法,其特征在于,所述数据平衡技术包括过采样、欠采样或生成对抗网络GANs中的一种或多种。

4.根据权利要求1所述的方法,其特征在于,所述步骤B中使用的XGBOOST算法采用并行计算技术以提高计算效率。

5.根据权利要求1所述的方...

【技术特征摘要】

1.一种基于xgboost算法的高效sirna有效性预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述步骤a中的预处理具体包括:对数据进行清洗和标准化处理;提取sirna序列特征和化学修饰特征,生成特征矩阵;使用数据平衡技术处理特征矩阵中的数据不平衡问题。

3.根据权利要求2所述的方法,其特征在于,所述数据平衡技术包括过采样、欠采样或生成对抗网络gans中的一种或多种。

4.根据权利要求1所述的方法,其特征在于,所述步骤b中使用的xgboost算法采用并行计算技术以提高计算效率。

5.根据权利要求1所述的方法,其特征在于,所述步骤b中优化xgboost算法超参数的方法包括网格搜索、随机搜索或贝叶斯优化中的一种或多种,所述超参数包括学习率、最大树深度和正则化参数。

6.根据权利要求1所述的方法,其特征在于,所述步骤b中的多指标性能评估采用交叉验证方法,评估指标包括准确率、精确率、召回率、...

【专利技术属性】
技术研发人员:陈放王颖黎
申请(专利权)人:上海市东方医院同济大学附属东方医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1