一种考虑基因相关度的基因选择方法与装置制造方法及图纸

技术编号:22058779 阅读:8 留言:0更新日期:2019-09-07 16:37
本发明专利技术涉及一种考虑基因相关度的基因选择方法与装置,属于数据处理技术领域,通过引入秩相关系数度量基因间的相关度,计算基因间的平均相关系数,利用该平均相关系数对现有技术中评价邻域半径取值优劣的适应值函数进行改进,使定义的适应度函数在评估结果时不仅考虑到了分类精度和基因个数,还考虑到了基因之间的相关度,使得改进的适应度函数选择出的基因子集具有冗余度低、维度低、精度高等特点。

A Method and Device for Gene Selection Considering Gene Relevance

【技术实现步骤摘要】
一种考虑基因相关度的基因选择方法与装置
本专利技术属于数据处理
,具体涉及一种考虑基因相关度的基因选择方法与装置。
技术介绍
现有技术中,彭潇然等人在2019年的期刊《计算机应用研究》第1期上发表的《自适应的邻域粗糙集邻域大小取值方法》,提出了一种邻域半径的自适应函数,即fit(δ)=α·length+β·ratio,将评价标准仅依据人的经验改进为结合实际数据集和分类器的性质,且将评价邻域半径δ取值的好坏转换为分析其对应约简集合可靠性的高低。其中,约简集合可靠性的高低可以通过数据直观地体现出来。上述自适应函数主要包含了两个变量length和ratio,length表示在该邻域半径取值下,基因选择算法得到的约简集合中基因个数的适应值;ratio表示在该邻域半径的取值下,分类器根据约简集合对数据集进行分类后所得的分类精度的适应值。该自适应函数实现了用数据来评判邻域半径的好坏。采用上述自适应函数确定的邻域半径,利用邻域粗糙集模型在进行基因选择时,基因的选择结果会产生冗余,基因选择的分类精度较低。
技术实现思路
本专利技术的目的是提供一种考虑基因相关度的基因选择方法,用于解决采用现有技术对基因的选择结果出现冗余、精度低的问题;同时,还提供一种考虑基因相关度的基因选择装置,同样,用于解决采用现有技术对基因的选择结果出现冗余、精度低的问题。基于上述目的,本专利技术的一种考虑基因相关度的基因选择方法的技术方案如下:选取至少两个待比较的邻域半径;利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简,得到各邻域半径对应的基因子集,作为候选基因子集;计算各基因子集的基因个数,利用分类器对数据集进行分类后得到分类精度,以及通过基因子集中各基因之间的相关系数求出相应基因子集的平均相关系数;根据各基因子集的基因个数、分类精度和平均相关系数,计算各邻域半径的适应度函数,其计算公式如下:fit(δ)=α·length+β·ratio+ω·relate其中,α、β和ω是权重因子,length、ratio和relate表示在相应邻域半径下的基因子集的基因个数、分类精度和平均相关系数;比较计算得到的各邻域半径的适应度大小,选择适应度最大的邻域半径作为最优的邻域半径,所述适应度最大的邻域半径对应的基因子集作为选择的基因子集。基于上述目的,本专利技术的一种考虑基因相关度的基因选择装置的技术方案如下:包括处理器,用于执行指令以实现上述基因选择方法的技术方案。上述基因选择方法与装置的技术方案的有益效果为:由于现有技术由于没有考虑到基因之间的相关程度会影响邻域半径的取值,因此,本专利技术在确定邻域半径时,引入统计学中的秩相关系数的概念来度量基因之间的相关度;然后计算基因之间的平均相关系数,对评价邻域半径取值优劣的适应值函数进行改进,使得该适应度函数在对不同邻域半径下得出的评估结果不仅考虑到了分类精度和基因个数,还考虑到了基因之间的相关度,通过改进的适应度函数选择出的基因子集具有冗余度低、维度低,分类精度高等特点。进一步的,对于上述基因选择方法与装置的技术方案,为了实现所述平均相关系数的计算,给出平均相关系数的计算公式如下:其中,n表示所述约简得到各邻域半径对应的基因子集中的基因个数,rij表示基因子集中基因ai和aj之间的相关系数。进一步的,对于上述基因选择方法与装置的技术方案,为了解决约简过程中的零容错问题,利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简的过程中,采用的依赖度为基于容错的依赖度,计算公式如下:其中,POS′B(D)表示基因数据的所属类别D关于集合B的具有容错性能的正域,Card(POS′B(D))表示POS′B(D)中的样本个数,Card(U)表示基因数据集U中的样本个数。进一步的,利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简包括:(1)根据邻域粒度度量分析算法计算邻域知识粒度,根据所述基于容错的依赖度与所述邻域知识粒度的比,计算得到基于容错的邻域粗糙集的依赖度和知识粒度混合度量启发式函数;(2)计算初始基因集合中每个基因的重要度SIG′(a,D,B),公式如下:SIG'δ(a,D,B)=H'δ(B∪a)-H'δ(B)其中,a∈C-B,SIG′(a,D,B)表示初始基因集合中每个基因的重要度,H′δ(B∪a)为基于容错的邻域粗糙集在集合B∪a上的依赖度和知识粒度混合度量启发式函数,H′δ(B)为基于容错的邻域粗糙集在集合B上的依赖度和知识粒度混合度量启发式函数;(3)选择重要度大于设定值的基因构成候选基因子集。作为其他实施的技术方案,无需在选择邻域半径过程中采用上述基于容错的依赖度的计算公式,而采用现有的依赖度计算公式,利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简,在确定出最优的邻域半径之后,利用邻域粗糙集模型在所述适应度最大的邻域半径下对初始基因集合进行再次约简,得到最终选择的基因子集;在再次约简的过程中,采用的依赖度为基于容错的依赖度,计算公式如下:其中,POS′B(D)表示基因数据的所属类别D关于集合B的具有容错性能的正域,Card(POS′B(D))表示POS′B(D)中的样本个数,Card(U)表示基因数据集U中的样本个数。具体的,利用邻域粗糙集模型在所述适应度最大的邻域半径下对初始基因集合进行再次约简的步骤包括:(1)根据邻域粒度度量分析算法计算邻域知识粒度,根据所述基于容错的依赖度与所述邻域知识粒度的比,计算得到基于容错的邻域粗糙集的依赖度和知识粒度混合度量启发式函数;(2)计算初始基因集合中每个基因的重要度SIG′(a,D,B),公式如下:SIG'δ(a,D,B)=H'δ(B∪a)-H'δ(B)其中,a∈C-B,SIG′(a,D,B)表示初始基因集合中每个基因的重要度,H′δ(B∪a)为基于容错的邻域粗糙集在集合B∪a上的依赖度和知识粒度混合度量启发式函数,H′δ(B)为基于容错的邻域粗糙集在集合B上的依赖度和知识粒度混合度量启发式函数;(3)选择重要度大于设定值的基因构成最终选择的基因子集。本专利技术通过定义的基于容错的邻域粗糙集的依赖度和知识粒度混合度量启发式函数,改进了基因的重要度的计算公式,解决了约简过程中的零容错问题,使约简得到的基因子集在一定程度上保证了对基因数据的分类精度,同时从基于容错的依赖度角度和知识粒度两个角度对基因集合中每个基因的重要度进行评估。为了进一步减小基因子集的冗余度,本专利技术采用另一种方法对初步选择的基因子集进行再次约简,即利用离散粒子群优化算法对初步选择的基因子集进行再次约简,得到最终选择的基因子集。在再次约简过程中按照定义的粒子优化函数公式计算粒子的适应度值,得到最终选择的基因子集;所述定义的粒子优化函数公式如下:其中,F′(xi)表示粒子xi的适应度,m表示基因子集中未被选中的基因个数,n表示基因子集的全部基因个数,B表示在所述基因子集中选中的基因集合,C表示所述基因子集,D表示基因数据的所属类别,γ′B(D)为所述基于容错的依赖度,表示基因数据的所属类别D在粒子相对应的集合B上的依赖程度,POSB(D)表示基因数据的所属类别D关于集合B的正域,POSC(D)表示基因数据的所属类别D关于所述基因子集C的正域。本专利技术通过引入基于容错的依赖度来评估基因数据的所本文档来自技高网...

【技术保护点】
1.一种考虑基因相关度的基因选择方法,其特征在于,包括以下步骤:选取至少两个待比较的邻域半径;利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简,得到各邻域半径对应的基因子集,作为候选基因子集;计算各基因子集的基因个数,利用对数据集进行分类后得到分类精度,以及通过基因子集中各基因之间的相关系数求出相应基因子集的平均相关系数;根据各基因子集的基因个数、分类精度和平均相关系数,计算各邻域半径的适应度函数,其计算公式如下:fit(δ)=α·length+β·ratio+ω·relate其中,α、β和ω是权重因子,length、ratio和relate表示在相应邻域半径下的基因子集的基因个数、分类精度和平均相关系数;比较计算得到的各邻域半径的适应度大小,选择适应度最大的邻域半径作为最优的邻域半径,所述适应度最大的邻域半径对应的基因子集作为选择的基因子集。

【技术特征摘要】
1.一种考虑基因相关度的基因选择方法,其特征在于,包括以下步骤:选取至少两个待比较的邻域半径;利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简,得到各邻域半径对应的基因子集,作为候选基因子集;计算各基因子集的基因个数,利用对数据集进行分类后得到分类精度,以及通过基因子集中各基因之间的相关系数求出相应基因子集的平均相关系数;根据各基因子集的基因个数、分类精度和平均相关系数,计算各邻域半径的适应度函数,其计算公式如下:fit(δ)=α·length+β·ratio+ω·relate其中,α、β和ω是权重因子,length、ratio和relate表示在相应邻域半径下的基因子集的基因个数、分类精度和平均相关系数;比较计算得到的各邻域半径的适应度大小,选择适应度最大的邻域半径作为最优的邻域半径,所述适应度最大的邻域半径对应的基因子集作为选择的基因子集。2.根据权利要求1所述的一种考虑基因相关度的基因选择方法,其特征在于,所述平均相关系数的计算公式如下:其中,n表示所述约简得到各邻域半径对应的基因子集中的基因个数,rij表示基因子集中基因ai和aj之间的相关系数。3.根据权利要求1所述的一种考虑基因相关度的基因选择方法,其特征在于,利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简的过程中,采用的依赖度为基于容错的依赖度,计算公式如下:其中,POS′B(D)表示基因数据的所属类别D关于集合B的具有容错性能的正域,Card(POS′B(D))表示POS′B(D)中的样本个数,Card(U)表示基因数据集U中的样本个数。4.根据权利要求3所述的一种考虑基因相关度的基因选择方法,其特征在于,利用邻域粗糙集模型在各邻域半径下对初始基因集合进行约简包括:(1)根据邻域粒度度量分析算法计算邻域知识粒度,根据所述基于容错的依赖度与所述邻域知识粒度的比,计算得到基于容错的邻域粗糙集的依赖度和知识粒度混合度量启发式函数;(2)计算初始基因集合中每个基因的重要度SIG′(a,D,B),公式如下:SIG'δ(a,D,B)=H'δ(B∪a)-H'δ(B)其中,a∈C-B,SIG′(a,D,B)表示初始基因集合中每个基因的重要度,H′δ(B∪a)为基于容错的邻域粗糙集在集合B∪a上的依赖度和知识粒度混合度量启发式函数,H′δ(B)为基于容错的邻域粗糙集在集合B上的依赖度和知识粒度混合度量启发式函数;(3)选择重要度大于设定值的基因构成候选基因子集。5.根据权利要求1所述的一种考虑基因相关度的基因选择方法,其特征在于,利用邻域粗糙集模型在所述适应度最大的邻域半径下对初始基因集合进行再次约简,得到最终选择的基因子集;在再次约简的过程中,采用的依赖度为基于容错的依赖度,计算公式如下:其中,POS′B(D)表示基因数据的所属类别D关于集合B的具有容错性能的...

【专利技术属性】
技术研发人员:孙林宁远翔曹玉洁李晨阳王蓝莹秦小营赵婧殷腾宇王天翔黄金旭
申请(专利权)人:河南师范大学
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1