当前位置: 首页 > 专利查询>中央大学专利>正文

实施于计算机的数据丛集方法技术

技术编号:5975643 阅读:602 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种实施于计算机的数据丛集方法,包含:取得一目前数据集。其中,目前数据集包含数个目前数据,每一目前数据包含每一目前数据的一目前平均值以及一目前方差值。根据目前数据的目前平均值以及目前方差值,计算目前数据两两之间的数个目前距离。自目前数据中选择两两之间目前距离最小的两笔目前数据。将所选择的两笔目前数据丛集为一更新数据。利用更新数据取代目前数据集中所选择的两笔目前数据。

【技术实现步骤摘要】

本专利技术是有关于一种数据处理方法及储存其的计算机可读取记录媒体,且特别是 有关于一种数据丛集方法及储存其的计算机可读取记录媒体。
技术介绍
阶层式丛集法丛集分析是将一组测量值分割成子集的方式,使得在同一子集中 的测量值在某种意义上是相似的。丛集分析的应用领域有生物、医学及市场调查。丛集 分析可以是阶层式的,阶层式丛集法通常分为两种类型(1)凝聚型每个测量值从自己开 始,由下而上,成对地与其它测量值结合。(2)分裂型所有的测量值从同一子集开始,从上 往下地分裂。哪些子集应该被合并或被分裂,需以测量值子集间的相异度来判断。通常相 异度的度量是利用适当的方法度量测量值之间的距离,以及一个将测量值间距离转换成测 量值子集间距离的联结准则来达成。任何有效的距离度量及联结准则都能使用。距离度 量法的选择会影响子集的外形,因为子集间距离的相对大小在不同度量法中会出现不一样 的结果。阶层式丛集法常用的距离度量法有曼哈顿距离(Manhattandistance,)、欧氏距离 (Euclidean distance)、平方欧氏距离(squared Euclideandistance)、最大距离(maximum distance)、马氏距离(Mahalanobis distance)及余弦相似性(cosine similarity) 联结 准则以测量值的距离来决定测量值子集的距离,常用的联结准则包括最大或完全联结准 贝[I (maximum or complete linkage)、最小或单——联结准贝 Ij (minimum or single linkage)、 以及平均值联结准则(meanor average linkage)。常态分布根据中央极限定理,很多个独立随机变量的和会呈现常态分布,或称为 高斯分布。因此,常态分布常被用来简化在统计学、自然科学和社会科学上的复杂现象。例 如实验中的测量误差便通常被假设为一常态分布,而数据不确定性的传递通常亦以此假设 为基础。常态分布可以用此机率密度函数表达权利要求1.一种,其特征在于,包含取得一目前数据集,其中该目前数据集包含多个目前数据,每一该些目前数据包含每 一该些目前数据的一目前平均值以及每一该些目前数据的一目前方差值;根据该些目前数据的该些目前平均值以及该些目前方差值,计算该些目前数据两两之 间的多个目前距离;自该些目前数据中选择两两之间目前距离最小的两笔目前数据; 将所选择的该两笔目前数据丛集为一更新数据;以及 利用该更新数据取代该目前数据集中所选择的该两笔目前数据。2.根据权利要求1所述的,其特征在于,还包含 取得多笔原始数据;以及将该些原始数据转换为测量误差符合常态分布的该些目前数据。3.根据权利要求1所述的,其特征在于,根据该些目前 数据的该些目前平均值以及该些目前方差值,计算该些目前数据两两之间的该些目前距离的计算式为-Jij = \μ( -μ\!+ σ2』其中ti, j为其中两笔目前数据i与j之间的距离,Pi与h分别为其中两笔目前数据i与j的目前平均值,0i2与为其中两笔目 前数据i与j的目前方差值。4.根据权利要求ι所述的,其特征在于,将所选择的该 两笔目前数据丛集为该更新数据包含根据所选择的该两笔目前数据的该两笔目前方差值,计算该更新数据的一更新方差值,其计算式为5.根据权利要求4所述的,其特征在于,将所选择的该 两笔目前数据丛集为该更新数据,还包含根据所选择的该两笔目前数据的该两笔目前平均值以及该两笔目前方差值 以及该更新数据的该更新方差值,计算该更新数据的一更新平均值,其计算式为6.根据权利要求1所述的,其特征在于,还包含取得一距离阀值;在将所选择的该两笔目前数据丛集为该更新数据前,判断该些目前距离的最小者是否 小于该距离阀值;以及在该些目前距离的最小者小于该距离阀值时,将所选择的该两笔目前数据丛集为该更 新数据。7.根据权利要求6所述的,其特征在于,还包含在该些目前距离的最小者不小于该距离阀值时,不将所选择的该两笔目前数据丛集为 该更新数据。8.根据权利要求1所述的,其特征在于,取得该目前数 据集包含取得两个基因芯片的多个相对各探针的荧光亮度比的对数值,作为该目前数据集的该 些目前数据的该些目前平均值。9.根据权利要求8所述的,其特征在于,该些相对各探针的荧光亮度比的对数值的计算式为bg^atio^ogapr“严),其中lo&-rati0i为该两个基因芯片的第i个探针的荧光亮度比的对数值,IiT与I/分别为该两个基因芯片T与 N在第i个探针上的荧光亮度。10.根据权利要求9所述的,其特征在于,根据该些目前 数据的该些目前平均值以及该些目前方差值,计算该些目前数据两两之间的该些目前距离 包含将该些目前数据按照基因体位置排序后,根据该些目前数据的该些目前平均值以及该 些目前方差值,计算同一染色体内、同一外显子内或同一启动子区内相邻的该些目前数据 之间的该些目前距离。全文摘要本专利技术涉及一种,包含取得一目前数据集。其中,目前数据集包含数个目前数据,每一目前数据包含每一目前数据的一目前平均值以及一目前方差值。根据目前数据的目前平均值以及目前方差值,计算目前数据两两之间的数个目前距离。自目前数据中选择两两之间目前距离最小的两笔目前数据。将所选择的两笔目前数据丛集为一更新数据。利用更新数据取代目前数据集中所选择的两笔目前数据。文档编号G06F17/10GK102110076SQ20091026551公开日2011年6月29日 申请日期2009年12月25日 优先权日2009年12月25日专利技术者李弘谦, 陈志浩 申请人:中央大学本文档来自技高网...

【技术保护点】
1.一种实施于计算机的数据丛集方法,其特征在于,包含:取得一目前数据集,其中该目前数据集包含多个目前数据,每一该些目前数据包含每一该些目前数据的一目前平均值以及每一该些目前数据的一目前方差值;根据该些目前数据的该些目前平均值以及该些目前方差值,计算该些目前数据两两之间的多个目前距离;自该些目前数据中选择两两之间目前距离最小的两笔目前数据;将所选择的该两笔目前数据丛集为一更新数据;以及利用该更新数据取代该目前数据集中所选择的该两笔目前数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:李弘谦陈志浩
申请(专利权)人:中央大学
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1