从形成模型的共同可能性进行预测制造技术

技术编号：2931348 阅读：220 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一个系统，方法和计算机程序产品，用来确定是否一个测试例子是在第一或第二数据类中（例如：癌变的和正常的），该方法包括：从一个训练数据组中提取多个形成模型，创建第一和第二列表，其中分别包含每一个在第一和第二数据类中有非零发生的形成模型的发生频率；使用固定数量的形成模型，计算分别衍生于在第一列表中的形成模型的频率也在测试数据中发生的第一和第二得分，在第二列表中的形成模型的频率也在测试数据中发生的第一和第二得分；通过选择在第一和第二得分中较高的得分，推断测试例子是归类于第一还是第二数据类中。（*该技术在2022年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术广泛地涉及数据挖掘方法，更特别地涉及基于规则的方法，该方法是基于那些类的数据知识，将一个测试范例正确地分到2个或多个可能的类之一中。特别是本专利技术使用了形成模型的技术。
技术介绍
数字时代的到来就象洪水猛兽扑面而来信息的洪流被释放出来，我们在经受着不断扩大地数据浪潮的冲击。信息、结果、测试、计算—数据，通常—是非常丰富，而且以一种随时可取可用的方式存储于磁介质或光介质上。随着计算能力不断地提高，能够有效分析巨大数据量的希望经常被实现，而且对能够分析更大量数据的期望仍然在为发展更为尖端的分析方案提供着推动力。因此，要把经常存在的变成有意义的数据，从而把他转换成有用的知识。这是需要通过使用统计分析、模型识别和数据挖掘的方法来驱动实质性的研究成果。现有的挑战不但包括当面对大量的数据时有正确衡量方法的能力，而且要提供处理噪声数据的方法。这些挑战还未完成，或是存在于复杂的参数空间中。数据不仅仅是数字、值或包含的属性。数据存在于多维空间象丰富的海港和多样的地形，他们不仅仅是奇异的和费解的，而且是不容易被大脑所理解的。最复杂的数据是来自测量和计算中，依赖于许多明显独立的变量。成百变量的数据组来自于当今生活中的许多专业，包括用于揭示染色体与不同蛋白质之间编码联系的基因表现数据；通过人口统计学和消费者概况数据来获得潜在的社会和经济趋势；通过环境测量数据来理解现象，诸如污染、气象变化和资源冲突的问题。在处理数据的原理性操作中，象回归、分组、概括、依靠模型、变换和偏移检测，这些分类是最重要的。当在特定的变量之间没有明显的相关性时，必须要推出潜在的模型和规则。数据挖...

【技术保护点】
一个确定是否一个测试样本，具有测试数据Ｔ，被归类于ｎ个类中一个的方法，这里ｎ等于或大于２，其包括：从一个训练数据组Ｄ中提取多个的形成模型，该训练数据组Ｄ至少包括在上述ｎ个数据类中的每个类的一个实例；创建ｎ个列表，其中：上述ｎ个列表中的第ｉ个列表包含了在第ｉ数据类中有一个非零发生的上述多个形成模型中的每一个形成模型ＥＰ↓［ｉ］（ｍ）的一个发生频率，ｆ↓［ｉ］（ｍ）；使用形成模型的一个固定数量，ｋ，其中ｋ充分小于在多个形成模型中形成模型的总数，计算ｎ得分；其中：上述ｎ个得分的第ｉ个得分来自于也发生在上述的测试数据中的在上述的第ｉ个列表的ｋ个的形成模型的频率；并且通过选择上述ｎ个得分中最大的，可推知应归类于上述ｎ个数据类中的哪一个。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员：李金艳，
申请(专利权)人：新加坡科技研究局，
类型：发明
国别省市：SG[新加坡]

全部详细技术资料下载我是这个专利的主人