表示多维空间中的接近性数据的系统、方法和计算机程序产品技术方案

技术编号:2950895 阅读:321 留言:0更新日期:2012-04-11 18:40
一种以表现对象的多维空间中的点之间的距离的形式,表示对象之间的相似性/非相似性(关系)的精确或不精确量度的系统,方法和计算机程序产品。通过利用随机关系/距离误差,自组织原理被用于迭代修正点的初始构型(随机的或者部分排序的)。数据可以是完整的或者不完整的(即。对象之间的一些关系未知),精确或不精确的(即,可能用许可的范围或限度来给出一些或所有关系),对称的或不对称的(即,对象A与对象B的关系可能不同于对象B与对象A的关系),并且可能含有系统或随机误差。可通过观察,测量,现有知识或者直觉,直接得到对象之间的关系,或者利用获得接近性(关系)数据的任何适当技术,间接地确定对象之间的关系。本发明专利技术迭代分析对象子集,以便在表现对象之间的关系的多维空间中表示对象子集。在一个例证实施例中,本发明专利技术利用常规的多维定标或非线性映射算法,迭代分析对象子集。在另一例证实施例中,关系被定义为各对对象之间的成对关系或者成对相似性/非相似性,本发明专利技术每次迭代分析一对对象。最好,以双重嵌套循环的形式,成对评估子集。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及数据分析,更具体地说,涉及多维空间中接近性数据的表现。多维定标(MDS)和非线性映射(NLM)是用于产生对象的显示图,包括非线性图的技术,其中对象之间的距离描述对象之间的关系。Torgerson,Phychometrika,17:401(1952);Kruskal,Psychometrika,29:115(1964);和Sammon,IEEE Trans.ComputC-18:401(1969)把MDS和NLM介绍为一种产生心理数据的低维表示的手段。在Schiffman,Reynolds和Young的“多维定标导论”,Academic Press,New York(1981);Young和Hamer的“多维定标历史,理论和应用”,Erlbaum Associates,IncHillsdale,NJ(1987);和Cox与Cox的,“多维定标”,Number 59 in Mohographs in Statisticsand Applied Probability,Chapman-Hall(1994)中评述了多维定标和非线性映射。这些出版物的内容整体上作为参考包括于此。MDS和NLM(通常它们是相同的,下文总体地称为MDS)代表一批借助低维Euclidean空间中点的距离,显现对象的接近关系的方法。在Hartigan的J.Am.Statist.Ass62:1140(1967)中评述了接近性度量,该文献整体上作为参考包含于此。特别地,已知有限的一组矢量样本或者其它样本A={ai,i=l,…,k,测量A中的第i个对象和第j个对象之间的相似性或非相似性的关系函数rij=r(ai,aj),这里ai,aj∈A,和A在m维显示平面上的一组图象X={xi,…xk,xi∈Rm(Rm为实数的所有m维矢量的空间),目的是以这样一种方式把xi放到显示平面上,以致它们的Euclidean距离dih=‖xi-xj‖尽可能精密地近似于相应的值rij。通过使测量原始矢量组和投影矢量组的原始rij和投影dij。之间的差别的误差函数达到最小,以迭代的方式进行在大多数情况下只能近似完成的这种投影。已提出了几种这样的误差函数,这些误差函数的大多数都是最小二乘方类型的误差函数,包括Kruskal“应力” Sammon的误差标准 和Lingoes的不相关系统 这里dij=‖xi-xj‖是显示平面上,图象xi和xj之间的Euclidean距离。通常,通过下述步骤以迭代的方式找到解答(1)计算或者从数据库取回关系rij;(2)初始化图象xi;(3)计算图象dij的距离和误差函数的值(例如上面的方程1-3中的S,E或K);(4)利用梯度下降程序,例如Kruskal的线性回归或者Guttman的秩-图象排列(rank-image permutation)计算图象xi的新构象;和(5)重复步骤3和4,直到在规定的容限内使误差达到最小为止。例如,通过利用方程4,迭代校正坐标xi,Sammon算法使方程达到最小xpq(m+1)=xpq(m)-λ△pq(m)方程4这里m是迭代次数,xpq是第p个图象xp的第q个坐标,λ是学习率(learning rate), 方程5中的偏导数由下式给出 借助方程2的重复估算,之后利用方程4和5修正坐标,直到在规定的容限内使误差达到最小,得到映射图象。上面的常规修正范例适用于相对较小的数据集,但是具有一个重要的局限性,该局限性使得上述修正范例不能用于较大的数据集。这种局限性起源于计算梯度的计算工作(即,上面的步骤(4))和数据集的大小的平方成比例的事实。对于相对较大的数据集来说,这种二次时间复杂性造成即使局部的修正也是难以处理的。于是需要一种表示多维空间中接近性数据的系统,方法和计算机程序产品,它和对象的数目成比例,并可应用于较小和较大的数据集。此外,还需要一种在漏失数据和/或数据含有的有界或无界不确定性方面可行的系统,方法和计算机程序产品。本专利技术是用于表示对象之间的相似性/非相似性(关系)的精确或不精确度量的系统,方法和计算机程序产品,最好以表现对象的多维空间中点之间的距离的形式,描述对象之间的相似性/非相似性(关系)。通过利用随机关系/距离误差,算法使用自组织原理,迭代修正点的初始构型(随机或部分排序)。数据可以是完整的或者不完整的(即,对象之间的某些关系可能未知),精确或者不精确的(即,可能用许可的范围或限度来给出一些或所有关系),对称的或不对称的(即,对象A与对象B的关系可能不同于对象B与对象A的关系),并可能含有系统或随机误差。可通过观察,测量,现有知识或者直觉,直接得到对象之间的关系,或者利用获得接近性(关系)数据的任何适当技术,直接或者间接地确定对象之间的关系。本专利技术迭代分析对象子集,以便在表现对象之间的关系的多维空间中表示对象子集。在一个例证实施例中,本专利技术利用常规的多维定标或非线性映射算法,迭代分析对象子集。在另一例证实施例中,关系被定义为各对对象之间的成对关系或者成对相似性/非相似性,本专利技术每次迭代分析一对对象。最好,以双重嵌套循环的形式,成对评估子集。在下面的说明中,术语“关系”,“相似性”或“非相似性”被用于表示一对对象之间的关系。术语“显示图”被用于表示表现初始对象的n维空间上的一批图象。术语“距离”被用于表示显示图上,对应于对象的图象之间的距离。这里提供了本专利技术的例子,包括利用化合物数据和关系实现的本专利技术的例子。但是应明白,本专利技术并不局限于这里给出的例子。可以各种应用的形式实现本专利技术。例如,虽然这里描述的具体实施例利用点之间的距离来表示对象间的相似性/非相似性,不过打算并适于使用任意显示属性来表示对象间的相似性/非相似性,包括,但不局限于字体,大小,颜色,灰度,斜体字,下划线,粗体,边框,边界等等。例如,可用表现对象的点的相对大小,表示两个对象之间的相似性/非相似性。下面将参考附图,详细说明本专利技术的其它特征和优点,以及本专利技术的各种实施例的结构和实施。本专利技术的文件含有至少一个彩色附图。当申请并支付必要的费用时,专利和商标局将提供本专利的带有彩色附图的复制件。下面将参考附图说明本专利技术,其中图1图解说明了根据本专利技术的一个实施例的计算环境的方框图2是可用于实现本专利技术的组件的计算机的方框图;图3是表示根据本专利技术的一个实施例,在显现并交互式处理显示图方面,本专利技术的操作的流程图;图4是表示根据本专利技术的一个实施例产生显示图的方式的流程图;图5从原理上图解说明了对象之间的关系,其中在一定的容限内,关系是已知的;图6是表示对象之间的关系的系统的方框图;图7是图解说明表示对象之间的关系的方法的过程流程图。在附图中,相同的附图标记表示相同或功能相似的部件。另外,附图标记最左侧的数字确定在其中相关部件被首次介绍的附图。Ⅰ.本专利技术的概述本专利技术是把对象之间的相似性/非相似性(关系)的精确或不精确度量看作表现对象的多维空间中的点之间的距离(或者使用其它显示属性或技术)的系统,方法和计算机程序产品。通过利用随机关系/距离误差,算法使用自组织原理迭代修正点的初始(随机或部分有序)构型。数据可以是完整或者不完整的(即,对象之间的一些关系可能未知),准确或者不准确的(即,可能依据允许的范围或限度给本文档来自技高网...

【技术保护点】
一种以显示图上对象间距离的形式,表示对象之间关系的方法,该方法包括下述步骤:(1)把对象放置在显示图上;(2)选择对象子集,其中选择的对象子集包括选择的子集中的对象间的相关关系;(3)根据对象之间的关系和距离,修正显示图上对象间 的距离;(4)对选自对象集合的其它对象子集重复步骤(2)和(3)。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:迪米特里斯K阿格费奥蒂斯维克托S洛班弗弗朗西斯R塞勒姆
申请(专利权)人:三维药物公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1