当前位置: 首页 > 专利查询>梁艳春专利>正文

一组微阵列误标记样本检测方法技术

技术编号:3832095 阅读:195 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一组用于微阵列数据误标记样本检测的计算方法,属于计算生物学领域。本发明专利技术利用数据扰动 对回归模型的影响来识别微阵列数据中的疑似误标记样本,将其应用于疾病的基因表达数据预处理,可降低错 误标记所带来的影响和损失。本发明专利技术建立了描述样本类标和样本基因表达向量之间关系的同归模型,而后通过 依次扰动各样本的类标,建立扰动回归矩阵,进而捕获这些扰动对回归模型的影响。本发明专利技术定义了三种扰动影 响指标:扰动影响值、总体扰动影响值和综合扰动影响值。在此基础上给出了三种针对微阵列数据的误标记样 本检测方法:总体扰动影响值识别法,综合扰动影响值判别法和渐进修正法。

【技术实现步骤摘要】

本专利技术专利涉及一组用于微阵列数据误标记样本检测的计算方法,属于计算生物学领域。
技术介绍
在基因表达数据的采集过程中,由于实验手段的客观原因以及实验操作人员的主观疏忽,经常会引 入许多噪声数据,样本的误标记是其中较为常见的一种。所谓样本的误标记,就是将原本属亍某类的样本 错误地标记为其他类别,致使该样本成为了错误样本。这种情况常见于针对疾病的实验中,产生的原因多 为主观因素的影响,如实验员的误操作、医师的判断失误等等。由T分类方法在医学的癌症诊断等领域中 有着非常广泛的应用,而一旦出现误标记的样本,必然对诊断结果产生影响,甚至导致错误的诊断,这样 的后果是十分严重的,这就促使人们寻找一种高效准确的误标记样本检测方法来降低错误标记带来的影响 和损失。目前,误标记样本检测方法多数基于统计理论和机器学习方法。Brodley(1999)等采用多个不同的分类器进行过滤,将剩余的样本作为训练集来检测误标记样本;Furey (2000)等采用支持向量机和特征打分的方法来识别误标记样本;Sanchez(2003)等采用最近邻分类器来提高训练数据的质量;Muhlenbach (2004)等提出了一种过滤算法,该算法能够在训练分类器之前去除可能误标记的样本。然而,这些算法均不是针对微阵列数据集构建的。Kadota (2003)等采用微阵列异常点检测方法来识别误标记样本;Zhang(2006)等提出了一种迭代估计误分类可能性的方法,并应用于乳腺癌微阵列数据。但是,这两种算法都只在单一微阵列数据集中应用,没有在其他数据集上做广泛验证。Malossini(2006)等提出了两种分类扰动的方法来对误标记样本进行检测,其中的稳定性方法能够取得很好的识别效果,但仍有査全率偏低的缺陷。
技术实现思路
本专利技术的主要目的是提供一组用于微阵列数据误标记样本检测的计算方法。利用数据扰动对回归模4型的影响来识别微阵列数据中的疑似误标记样本。本专利技术依次扰动各样本的类标,而后建立了描述样本类 标和样本基因表达向量之间关系的回归模型,进而捕获数据扰动扰动对回归模型的影响。本专利技术定义了相 关的扰动影响指标,并在此基础上给出了三种检测微阵列数据中误标记样本的方法总体扰动影响值识别 法、综合扰动影响值识别法以及渐进修正法。本专利技术的预期目的将通过以下技术方案实现,技术方案以两分类数据误标记检测做说明,其思想可 推广至多分类数据的情况。一、扰动回归矩阵与扰动影响值1. 回归模型假定一个两分类样本的微阵列,其探针数位^,样本数为M,那么微阵列数据X为一个pXw的矩阵,样本/的基因表达向量用;c,表示,类标用》表示,且满足》£{+1,-1},由此微阵列数据;c的类标向量可用 少来表示。本专利技术将定义一个回归模型来描述x,和y,之间的关系。 首先假定X,和》均为连续值而非离散值,定义函数/如下y, (1) 其中/为实数值函数,f为噪声值。本专利技术将使用支持向量机回归模型7来估计函数/。2. 扰动回归矩阵扰动回归矩阵是一个"X"的实数值矩阵,记为Zoo/v。元素Zoop小V]代表在扰动样本x,的类标(即令y产-")的情况下,以》作为测试样本,其他样本作为训练集时,对于样本s类标的回归预测值7( )。由此可见,元素丄OOp"代表无数据扰动的情况下样本X,类标的回归预测值。3. 扰动影响值扰动影响值^代表在扰动样本x,类标的情况下,回归模型在预测样本》类标时所受到的影响。本发5明将^定义为无数据扰动时样本x,的回归预测值与扰动^类标时x,的回归预测值之差,具体为《')=Zoo/ r (2)4. 总体扰动影响值总体扰动影响值代表数据扰动对某一样本的总体影响。本专利技术将样本x,的总体扰动影响值g定义为 其他样本分别扰动时,对于样本X,的扰动影响值之和,具体为2乂 = £ & = Z (丄。,) (3)5. 综合扰动影响值综合扰动影响值代表扰动某一样本类标对其他样本的综合影响。本专利技术将样本x,的综合扰动影响值 Fi定义为^ =丄t x《v )=丄Z A (丄。0/^—丄。o/ 小',刀) (4)w _/=1 w 乂=1二、误标记样本识别方法1. 总体扰动影响值识别法总体扰动影响值识别法利用总体扰动影响值来判别某一样本是否为误标记样本,对于待检测数据(;c,力,具体识别步骤如下1) 构造扰动回归矩阵ioopr;2) 对于每一个样本X/,根据公式(3)计算其总体扰动影响值込;3) 若力X込O,判定样本《为误标记样本。2. 综合扰动影响值识别法该方法利用综合扰动影响值来判别某一样本是否为误标记样本,对于待检测数据(xj;),具体识别步 骤如下1) 构造扰动回归矩阵丄oopr;2) 对于每一个样本A,根据公式(4)计算其总体扰动影响值^;3) 若尸,<0,判定样本力为误标记样本。 3.渐进修正方法渐进修正法在综合扰动影响值识别法的基础上,加入渐进修正的策略来识别误标记样本,对于待检 测数据(X,力,具体识别步骤如下1) 构建扰动回归矩阵ioopr,令F她^,令修正类标向量y,;2) 使用综合扰动影响值识别法得到疑似误标记样本集合S;3) 取S中未经评估的样本;c,,在修正列表向量;/中将A:,的类标翻转;4) 使用扰动回归矩阵丄oopr及类标向量/计算每一个样本的综合扰动影响值,将所有综合扰动影响 值小与o的样本集合记为S',,在修正类标向量y中将x,的类标复原;5) 在原始类标向量少中将S;中的所有样本类标翻转,得到类标向量/;6) 使用检测评估算法对数据(x,/)进行评估,得到初始评估量A,其中检测评估算法可以为任意已 有的误标记样本检测算法,包括总体扰动影响值识别法、综合扰动影响值识别法以及 Malossini(2006)等提出的CL-Stability算法和LOOE-Sensitivity算法,A为误标记样本检测算法对 0c,/)检测得到的疑似误标记样本数量;7) 将样本A的综合扰动影响值"作为对初始评估量的补充,则样本x,的总评估量8) 对S中所有样本计算总评估量,取总评估量最小的样本记为A,其总评估量为^,若F^^,w, 则S即为最终结果,否则令1^ =1^9) 在y中翻转A类标,令S为对扰动回归矩阵和j,'使用综合扰动影响值识别法得到的误标记样本集合,如果FP0,则跳转至步骤3,否则S即为最终结果。附图说明图1为构造扰动回归矩阵的流程示意图; 图2为渐进修正法的流程示意图。 图3为实施例各样本的总体扰动影响值柱状图。 图4为实施例各样本的综合扰动影响值柱状图。 图5为渐进修正法对于实施例的识别效果图。 具体实施例方式以下通过乳腺癌两分类基因芯片数据的实例对本专利技术做详细说明。West等的乳腺癌(breast)基因表达谱 数据集是一个通用数据集,它包含了 49个乳腺癌样本,其中雌激素受体(estrogen receptor)阳性(ER+)的样 本25个,雌激素受体阴性(ER-)的样本24个,基因芯片中包含7129个基因。自此基础上,剔除可疑样本 11、 14、 16、 31、 33、 45、 46、 40、 43,而后手动翻转样本l、 2、 3、 47、 48、 49使之成为误标记样本。 得到的这个数据集就是下面将要使用的实例数据。一、总体扰动影响识别本文档来自技高网
...

【技术保护点】
一组微阵列误标记样本检测方法,其特征为利用数据扰动对回归模型的影响来识别微阵列数据中的疑似误标记样本,在构造扰动回归矩阵的基础上通过计算扰动影响值来识别基因芯片数据中的误标记样本,具体包括总体扰动影响值识别法、综合扰动影响值识别法及渐进修正法。

【技术特征摘要】

【专利技术属性】
技术研发人员:梁艳春张琛吴春国周柚王岩杜伟
申请(专利权)人:梁艳春张琛吴春国周柚王岩杜伟
类型:发明
国别省市:82

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利