当前位置: 首页 > 专利查询>皖南医学院专利>正文

一种基于人工智能的颅内动脉瘤破裂风险基因筛选方法技术

技术编号:38129202 阅读:9 留言:0更新日期:2023-07-08 09:35
本发明专利技术公开了一种基于人工智能的颅内动脉瘤破裂风险基因筛选方法,包括以下步骤:对颅内动脉瘤原始数据集进行数据预处理;对标准化数据集进行初步特征选择得到候选基因子集;对候选基因子集进行二次特征选择得到最优风险基因子集;构建多个分类模型,并基于最优风险基因子集进行评估。本发明专利技术初步特征选择有效剔除相关度低和冗余性高的非候选基因,获得候选基因子集,为后续的基因寻优降低计算复杂度;采用二次特征选择对候选基因子集再次寻优,选择对预测颅内动脉瘤破裂状态数据贡献度高于一定标准的基因,分类性能、分类准确率更高,分类评估过程采用不同的评价标准对关键基因进行评估,从而验证特征选择方法的有效性。从而验证特征选择方法的有效性。从而验证特征选择方法的有效性。

【技术实现步骤摘要】
一种基于人工智能的颅内动脉瘤破裂风险基因筛选方法


[0001]本专利技术涉及基因筛选
,具体涉及一种基于人工智能的颅内动脉瘤破裂风险基因筛选方法。

技术介绍

[0002]颅内动脉瘤发生破裂时引起的蛛网膜下腔出血,对患者的生命以及生存质量都造成了极大的影响,挖掘和识别导致颅内动脉瘤破裂的风险基因,对探究颅内动脉瘤的内在生物信息学机制有着重要作用,基因表达数据通常存在着维度高、样本小、冗余基因多、关键基因少等特性,关键基因含有疾病的重要信息,对后续的分类预测起着重要作用,而对分类没有贡献或者贡献不大的无关和冗余基因,若不去除,则会加大计算复杂度,导致分类结果不理想。
[0003]现有技术通常通过特征选择来进行基因筛选,特征选择的目的是剔除完全不相关和噪声特征、弱相关且冗余特征,筛选出建模相关的弱相关且不冗余特征、强相关特征,通过剔除与分类结果相关性不高的基因,以降低特征维度,从而提高分类结果的准确性,然而通过特征选择来进行基因筛选的方式只能筛选出相关性不高的基因,所以可能使得部分对分类结果贡献程度不高的基因也留在最终的分类结果中,分类效果不佳。
[0004]因此现有通过特征选择来进行基因筛选的方式无法评估所选的关键基因的质量高低,分类结果不佳。

技术实现思路

[0005]为此,本专利技术提供一种基于人工智能的颅内动脉瘤破裂风险基因筛选方法,有效的解决了现有技术中的通过特征选择来进行基因筛选的方式无法评估所选的关键基因的质量高低、分类结果不佳的问题。
[0006]为解决上述技术问题,本专利技术具体提供下述技术方案:一种基于人工智能的颅内动脉瘤破裂风险基因筛选方法,包括以下步骤:
[0007]步骤100,对颅内动脉瘤原始数据集进行数据预处理,以得出标准化数据集;
[0008]步骤200,基于粒子群优化算法,引入AdaBoost作为分类评估模型,对标准化数据集进行初步特征选择,剔除标准化数据集中与预测破裂风险相关性低和冗余性高的非候选基因子集,以得到候选基因子集;
[0009]步骤300,获得候选基因子集后,采用ReliefF算法对候选基因子集进行二次特征选择,筛除低级基因子集,得到最优风险基因子集,以实现获取数据贡献度最优的颅内动脉瘤破裂风险关键基因;
[0010]步骤400,构建多个分类模型,并基于最优风险基因子集进行评估,通过十折交叉验证对各个分类模型的分类结果进行训练优化评估,以获得分类结果,并输出。
[0011]作为本专利技术的一种优选方案,所述基于粒子群优化算法,引入AdaBoost作为分类评估模型,对标准化数据集进行初步特征选择,剔除标准化数据集中与预测破裂风险相关
性低和冗余性高的非候选基因子集,以得到候选基因子集,包括:
[0012]获取颅内动脉基因样本数据,确定训练集、所述训练集中的训练样本以及每个所述训练样本的权重;
[0013]根据粒子群优化算法对AdaBoost内参数进行优化;
[0014]使用AdaBoost根据优化后的训练集,确定每次迭代产生的弱分类器以及所述弱分类器的系数,并更新所述训练集中每个训练样本的权重;
[0015]根据各弱分类器及其对应的系数,确定强分类器;
[0016]根据所述强分类器对所述标准化数据集进行分类,以判定所述非候选基因子集和候选基因子集。
[0017]作为本专利技术的一种优选方案,所述使用AdaBoost根据优化后的训练集,确定每次迭代产生的弱分类器以及所述弱分类器的系数,并更新所述训练集中每个训练样本的权重,包括:
[0018]根据AdaBoost对训练集进行迭代训练优化,确定弱分类器;
[0019]计算弱分类器的误差率,并确定弱分类器的系数;
[0020]根据弱分类器的系数更新所述训练集中每个训练样本的权重。
[0021]作为本专利技术的一种优选方案,所述获得候选基因子集后,采用ReliefF算法对候选基因子集进行二次特征选择,得到最优风险基因子集,以实现获取数据贡献度最优的颅内动脉瘤破裂风险关键基因,包括:
[0022]采用ReliefF算法计算所述候选基因子集内的特征权值,并获取所述候选基因子集内基因的数据贡献度;
[0023]将数据贡献度高于预设标准贡献度的候选基因标记为颅内动脉瘤破裂风险关键基因;
[0024]筛除其他基因;
[0025]筛选后的候选基因子集形成所述最优风险基因子集。
[0026]作为本专利技术的一种优选方案,所述最优风险基因子集由颅内动脉瘤破裂风险关键基因组成。
[0027]作为本专利技术的一种优选方案,所述多分类模型包括C4.5、LibSVM,KNN,NB分类模型。
[0028]作为本专利技术的一种优选方案,所述构建多个分类模型,并基于最优风险基因子集进行评估,通过十折交叉验证对各个分类模型的分类结果进行评估,以获得分类结果,并输出,包括:
[0029]将C4.5、LibSVM,KNN,NB分类模型作为颅内动脉瘤破裂分类模型;
[0030]基于所述最优风险基因子集,利用十折交叉验证计算颅内动脉瘤破裂分类模型的第一分类准确率;
[0031]基于第一分类准确率得出模型分类准确率,根据模型分类准确率输出分类结果。
[0032]作为本专利技术的一种优选方案,所述基于第一分类准确率得出模型分类准确率,根据模型分类准确率输出分类结果,包括:
[0033]基于各个模型的第一分类准确率计算得出模型分类准确率;
[0034]基于模型分类准确率对最优风险基因子集进行评估;
[0035]根据模型分类准确率输出分类结果。
[0036]作为本专利技术的一种优选方案,获取四组颅内动脉瘤破裂分类模型的分类准确率作为模型分类准确率。
[0037]作为本专利技术的一种优选方案,所述颅内动脉瘤原始数据集中每个基因进行数据归一化处理。
[0038]本专利技术与现有技术相比较具有如下有益效果:
[0039]本专利技术结合了不同算法的优势,来识别导致颅内动脉瘤破裂的风险基因,一方面,采用改进的粒子群优化算法进行搜索,采用AdaBoost作为学习器,有效剔除相关度低和冗余性高的非候选基因,获得候选基因子集,该过程能够大大降低数据的维度,为后续的基因寻优降低计算复杂度;另一方面,采用ReliefF算法进行二次特征选择,对候选基因子集再次寻优,选择对预测颅内动脉瘤破裂状态数据贡献度高于一定标准的基因,分类性能、分类准确率更高,且鲁棒性、稳定性更强,可有效适用于颅内动脉瘤及相关的高维小样本基因表达数据的处理。
[0040]另外,在进行特征选择过程后,分类评估过程对颅内动脉瘤破裂风险关键基因的质量高低进行评估,通过分类模型的构建,采用不同的评价标准对关键基因进行评估,从而验证特征选择方法的有效性。
附图说明
[0041]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的颅内动脉瘤破裂风险基因筛选方法,其特征在于,包括以下步骤:步骤100,对颅内动脉瘤原始数据集进行数据预处理,以得出标准化数据集;步骤200,基于粒子群优化算法,引入AdaBoost作为分类评估模型,对标准化数据集进行初步特征选择,剔除标准化数据集中与预测破裂风险相关性低和冗余性高的非候选基因子集,以得到候选基因子集;步骤300,获得候选基因子集后,采用ReliefF算法对候选基因子集进行二次特征选择,筛除低级基因子集,得到最优风险基因子集,以实现获取数据贡献度最优的颅内动脉瘤破裂风险关键基因;步骤400,构建多个分类模型,并基于最优风险基因子集进行评估,通过十折交叉验证对各个分类模型的分类结果进行训练优化评估,以获得分类结果,并输出。2.根据权利要求1所述的一种基于人工智能的颅内动脉瘤破裂风险基因筛选方法,其特征在于,所述基于粒子群优化算法,引入AdaBoost作为分类评估模型,对标准化数据集进行初步特征选择,剔除标准化数据集中与预测破裂风险相关性低和冗余性高的非候选基因子集,以得到候选基因子集,包括:获取颅内动脉基因样本数据,确定训练集、所述训练集中的训练样本以及每个所述训练样本的权重;根据粒子群优化算法对AdaBoost内参数进行优化;使用AdaBoost根据优化后的训练集,确定每次迭代产生的弱分类器以及所述弱分类器的系数,并更新所述训练集中每个训练样本的权重;根据各弱分类器及其对应的系数,确定强分类器;根据所述强分类器对所述标准化数据集进行分类,以判定所述非候选基因子集和候选基因子集。3.根据权利要求2所述的一种基于人工智能的颅内动脉瘤破裂风险基因筛选方法,其特征在于,所述使用AdaBoost根据优化后的训练集,确定每次迭代产生的弱分类器以及所述弱分类器的系数,并更新所述训练集中每个训练样本的权重,包括:根据AdaBoost对训练集进行迭代训练优化,确定弱分类器;计算弱分类器的误差率,并确定弱分类器的系数;根据弱分类器的系数更新所述训练集中每个训练样本的权重。4.根据权利要求3所述的一种基于人工智能的颅内动脉瘤破裂风...

【专利技术属性】
技术研发人员:叶明全熊月玲王培培黎青青卢小杰王家琦黄道斌
申请(专利权)人:皖南医学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1