【技术实现步骤摘要】
一种考虑基因相关度的基因选择方法与装置
本专利技术属于数据处理
,具体涉及一种考虑基因相关度的基因选择方法与装置。
技术介绍
现有技术中,彭潇然等人在2019年的期刊《计算机应用研究》第1期上发表的《自适应的邻域粗糙集邻域大小取值方法》,提出了一种邻域半径的自适应函数,即fit(δ)=α·length+β·ratio,将评价标准仅依据人的经验改进为结合实际数据集和分类器的性质,且将评价邻域半径δ取值的好坏转换为分析其对应约简集合可靠性的高低。其中,约简集合可靠性的高低可以通过数据直观地体现出来。上述自适应函数主要包含了两个变量length和ratio,length表示在该邻域半径取值下,基因选择算法得到的约简集合中基因个数的适应值;ratio表示在该邻域半径的取值下,分类器根据约简集合对数据集进行分类后所得的分类精度的适应值。该自适应函数实现了用数据来评判邻域半径的好坏。采用上述自适应函数确定的邻域半径,利用邻域粗糙集模型在进行基因选择时,基因的选择结果会产生冗余,基因选择的分类精度较低。
技术实现思路
本专利技术的目的是提供一种考虑基因相关度的基因选择方法,用于解决采用现有技术对基因的选择结果出现冗余、精度低的问题;同时,还提供一种考虑基因相关度的基因选择装置,同样,用于解决采用现有技术对基因的选择结果出现冗余、精度低的问题。基于上述目的,本专利技术的一种考虑基因相关度的基因选择方法的技术方案如下:选取至少两个待比较的邻域半径;利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简,得到各邻域半径对应的基因子集,作为候选基因子集;计算各基因子集的基因个 ...
【技术保护点】
1.一种考虑基因相关度的基因选择方法,其特征在于,包括以下步骤:选取至少两个待比较的邻域半径;利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简,得到各邻域半径对应的基因子集,作为候选基因子集;计算各基因子集的基因个数,利用对数据集进行分类后得到分类精度,以及通过基因子集中各基因之间的相关系数求出相应基因子集的平均相关系数;根据各基因子集的基因个数、分类精度和平均相关系数,计算各邻域半径的适应度函数,其计算公式如下:fit(δ)=α·length+β·ratio+ω·relate其中,α、β和ω是权重因子,length、ratio和relate表示在相应邻域半径下的基因子集的基因个数、分类精度和平均相关系数;比较计算得到的各邻域半径的适应度大小,选择适应度最大的邻域半径作为最优的邻域半径,所述适应度最大的邻域半径对应的基因子集作为选择的基因子集。
【技术特征摘要】
1.一种考虑基因相关度的基因选择方法,其特征在于,包括以下步骤:选取至少两个待比较的邻域半径;利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简,得到各邻域半径对应的基因子集,作为候选基因子集;计算各基因子集的基因个数,利用对数据集进行分类后得到分类精度,以及通过基因子集中各基因之间的相关系数求出相应基因子集的平均相关系数;根据各基因子集的基因个数、分类精度和平均相关系数,计算各邻域半径的适应度函数,其计算公式如下:fit(δ)=α·length+β·ratio+ω·relate其中,α、β和ω是权重因子,length、ratio和relate表示在相应邻域半径下的基因子集的基因个数、分类精度和平均相关系数;比较计算得到的各邻域半径的适应度大小,选择适应度最大的邻域半径作为最优的邻域半径,所述适应度最大的邻域半径对应的基因子集作为选择的基因子集。2.根据权利要求1所述的一种考虑基因相关度的基因选择方法,其特征在于,所述平均相关系数的计算公式如下:其中,n表示所述约简得到各邻域半径对应的基因子集中的基因个数,rij表示基因子集中基因ai和aj之间的相关系数。3.根据权利要求1所述的一种考虑基因相关度的基因选择方法,其特征在于,利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简的过程中,采用的依赖度为基于容错的依赖度,计算公式如下:其中,POS′B(D)表示基因数据的所属类别D关于集合B的具有容错性能的正域,Card(POS′B(D))表示POS′B(D)中的样本个数,Card(U)表示基因数据集U中的样本个数。4.根据权利要求3所述的一种考虑基因相关度的基因选择方法,其特征在于,利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简包括:(1)根据邻域粒度度量分析算法计算邻域知识粒度,根据所述基于容错的依赖度与所述邻域知识粒度的比,计算得到基于容错的邻域粗糙集的依赖度和知识粒度混合度量启发式函数;(2)计算初始基因集合中每个基因的重要度SIG′(a,D,B),公式如下:SIG'δ(a,D,B)=H'δ(B∪a)-H'δ(B)其中,a∈C-B,SIG′(a,D,B)表示初始基因集合中每个基因的重要度,H′δ(B∪a)为基于容错的邻域粗糙集在集合B∪a上的依赖度和知识粒度混合度量启发式函数,H′δ(B)为基于容错的邻域粗糙集在集合B上的依赖度和知识粒度混合度量启发式函数;(3)选择重要度大于设定值的基因构成候选基因子集。5.根据权利要求1所述的一种考虑基因相关度的基因选择方法,其特征在于,利用邻域粗糙集模型在所述适应度最大的邻域半径下对初始基因集合进行再次约简,得到最终选择的基因子集;在再次约简的过程中,采用的依赖度为基于容错的依赖度,计算公式如下:其中,POS′B(D)表示基因数据的所属类别D关于集合B的具有容错性能的...
【专利技术属性】
技术研发人员:孙林,宁远翔,曹玉洁,李晨阳,王蓝莹,秦小营,赵婧,殷腾宇,王天翔,黄金旭,
申请(专利权)人:河南师范大学,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。