从形成模型的共同可能性进行预测制造技术

技术编号:2931348 阅读:220 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一个系统,方法和计算机程序产品,用来确定是否一个测试例子是在第一或第二数据类中(例如:癌变的和正常的),该方法包括:从一个训练数据组中提取多个形成模型,创建第一和第二列表,其中分别包含每一个在第一和第二数据类中有非零发生的形成模型的发生频率;使用固定数量的形成模型,计算分别衍生于在第一列表中的形成模型的频率也在测试数据中发生的第一和第二得分,在第二列表中的形成模型的频率也在测试数据中发生的第一和第二得分;通过选择在第一和第二得分中较高的得分,推断测试例子是归类于第一还是第二数据类中。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术广泛地涉及数据挖掘方法,更特别地涉及基于规则的方法,该方法是基于那些类的数据知识,将一个测试范例正确地分到2个或多个可能的类之一中。特别是本专利技术使用了形成模型的技术。
技术介绍
数字时代的到来就象洪水猛兽扑面而来信息的洪流被释放出来,我们在经受着不断扩大地数据浪潮的冲击。信息、结果、测试、计算—数据,通常—是非常丰富,而且以一种随时可取可用的方式存储于磁介质或光介质上。随着计算能力不断地提高,能够有效分析巨大数据量的希望经常被实现,而且对能够分析更大量数据的期望仍然在为发展更为尖端的分析方案提供着推动力。因此,要把经常存在的变成有意义的数据,从而把他转换成有用的知识。这是需要通过使用统计分析、模型识别和数据挖掘的方法来驱动实质性的研究成果。现有的挑战不但包括当面对大量的数据时有正确衡量方法的能力,而且要提供处理噪声数据的方法。这些挑战还未完成,或是存在于复杂的参数空间中。数据不仅仅是数字、值或包含的属性。数据存在于多维空间象丰富的海港和多样的地形,他们不仅仅是奇异的和费解的,而且是不容易被大脑所理解的。最复杂的数据是来自测量和计算中,依赖于许多明显独立的变量。成百变量的数据组来自于当今生活中的许多专业,包括用于揭示染色体与不同蛋白质之间编码联系的基因表现数据;通过人口统计学和消费者概况数据来获得潜在的社会和经济趋势;通过环境测量数据来理解现象,诸如污染、气象变化和资源冲突的问题。在处理数据的原理性操作中,象回归、分组、概括、依靠模型、变换和偏移检测,这些分类是最重要的。当在特定的变量之间没有明显的相关性时,必须要推出潜在的模型和规则。数据挖掘的分类重点在建立精确和有效的分类器,象模型和规则。在过去,这种方法可能还适用,但将这种方法用于大量的数据组就成为艰苦的劳动。因此,导致了多年以后机器学习领域的产生。因此通过简单的洞察来提取模型、关系和隐含规则已经被自动分析工具的使用所替代。然而,理想的推导模型代表的不仅是对复杂问题的征服,还包括推导规则,即指示那些确定性的参数和指向使用新的、实用的方法。这是用数据挖掘的实质模型不但利用加在数据上的结构,而且提供一个预测作用,这个作用是有价值的,能确定新数据在哪里能连续地获得。从这种意义上说,一个广泛合适的范例是通过使用一些初始的数据组和通常称做一个训练组,从“学习”的过程中得出模型。然而今天使用许多技术不是在没有建立规则和模型就预测新数据的属性,就是建立了具有预测性但不可理解的分类方案。此外,许多这类方法对于大量数据组不是非常有效的。近期,四种优良的模型属性已经被清楚的表达出来(参见,Dong andLi,″Efficient Mining of Emerging PatternsDiscovering Trends andDifferences,″ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining,San Diego,43-52(August,1999),通过目录的方式都集合于此)(a)他们是合法的,即新数据也肯定遵守这条规则;(b)他们是新颖的,从这个意义讲由机器衍生的模型对专家是不明显的,并提供新的观点;(c)他们是有用的,即他们能可靠的预测;(d)他们是可理解的,即他们代表的态势对他们的理解没障碍。在机器学习的领域,最广泛使用的预测方法包括K-最近邻居(参见,例如Cover & Hart,″Nearest neighbor pattern classification,″IEEETransactions on Inforrleation Theory,1321-27,(1967));neuralnetworks(see,e.g.,Bishop,Neural Networks for Pattern Recognition,Oxford University Press(1995));Support Vector Machines(seeBurges,″A tutorial on support vector machines for patternrecognition,″Data Mining and Knowledge Discovery,2121-167,(1998));Naive Bayes(see,e.g.,Langley et al.,″An analysis ofBayesian classifier,″Proceedings of the Tenth National Conference onArtificial Intelligence,223-228,(AAAI Press,1992);originally inDuda &Hart,Pattern Classification and Scene Analysis,(John Wiley & Sons,NY,1973));and C4.5(see Quinlan,C4.5Programs for machinelearning,(Morgan Kaufmann,San Mateo,CA,1993))。尽管他们流行,但是每种方法都受到某些缺点的困扰,就是说他们都不能产生具有前面讨论过的四种优良属性的模型。K—最近邻居方法(“k-NN”)是一个基于实例的例子,或着称“懒惰—学习”(lazy-learning)方法。在懒惰学习法中,新数据实例是通过直接与在学习组中的项目对比来进行分类,而不是得自外在的模型。k-NN方法把测试例子分配给在训练例子中它的K最近邻居的类,在那里近的程度被按照类似距离的度量方法被测量。虽然k-NN方法简单且具有良好的性能,但是不能经常帮助更深层次对复杂情况的完全理解,也从来没有建立过预测的基本规则。神经网络系统(参见,例如,Minsky & Papert,″PerceptronsAnintroduction to computationalgeometry,″MIT Press,Cambridge,MA,(1969))也是预测新数据分类工具的例子,但是没有产生人可以理解的规则。神经网络系统在喜欢使用“黑匣子”方法的人中仍保持流行。单纯贝叶斯(“NB”)使用贝叶斯规则计算数据组中每个数据类随机性的和。当给定一个测试例子,NB根据他们随机性的和使用评估功能来进行分类,把例子分配给最高得分的类。然而,NB引起给定测试数据实例的随机性,并没有导出一般可识别的规则和模型。此外,一个重要的假设使用在NB中,他的特征是独立统计的,然而对于多个种类的数据并不是这种情况。例如,许多基因包含于一个基因表现图谱中,明显不是独立的,但他们中的一些关系很接近的(参见,例如,Schena etal.,″Quantitative monitoring of gene expression patterns with acomplementary DNA microarray″,Science,270,467-470,(1995);Lockhart et al.,″Expression monitoring by本文档来自技高网...

【技术保护点】
一个确定是否一个测试样本,具有测试数据T,被归类于n个类中一个的方法,这里n等于或大于2,其包括:从一个训练数据组D中提取多个的形成模型,该训练数据组D至少包括在上述n个数据类中的每个类的一个实例;创建n个列表,其中:上述n个列表中的第i个列表包含了在第i数据类中有一个非零发生的上述多个形成模型中的每一个形成模型EP↓[i](m)的一个发生频率,f↓[i](m);使用形成模型的一个固定数量,k,其中k充分小于在多个形成模型中形成模型的总数,计算n得分;其中:上述n个得分的第i个得分来自于也发生在上述的测试数据中的在上述的第i个列表的k个的形成模型的频率;并且通过选择上述n个得分中最大的,可推知应归类于上述n个数据类中的哪一个。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:李金艳
申请(专利权)人:新加坡科技研究局
类型:发明
国别省市:SG[新加坡]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利