生成特征集制造技术

技术编号：12478098 阅读：143 留言：0更新日期：2015-12-10 14:29

一种生成特征集的技术。可对来自数据集的多个样本进行聚类。可基于类选择特征。可将特征集添加到特征集。可对其他样本及选择的特征进行聚类，并添加到特征集，直至达到收敛阈值。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】
技术介绍
在数据挖掘中，聚类可用于基于对象之间的相似度对数据进行分组。由于聚类可提供对较大数据集的不同视角，因此聚类可以是较为有用的。例如，在企业设置中，企业可具有大的文档语料库。聚类可应用于语料库，以将文档分组成多个类。这些类可显示聚类的文档之间的相似度，使得企业更有效地利用其数据，并获得在其他方面难以得到的见解。【附图说明】下面的详细描述参照附图，其中:图1示出了根据一种示例的生成特征集的方法。图2描绘了根据一种示例的示出如何利用所公开的技术能使特征集逼近的曲线图。图3示出了根据一种示例的生成用于对数据集进行聚类的特征集的方法。图4示出了根据一种示例的用于生成特征集的系统。图5示出了根据一种示例的用于生成特征集的计算机可读取介质。【具体实施方式】对诸如文档语料库数据集进行聚类可能呈现各种挑战。例如，如果文档语料库大，则聚类操作可占用较长的时间执行。通常，可由特征向量来表示语料库中的每个文档。聚类操作可基于特征向量对文档进行聚类。如果语料库大，则特征向量的总大小也会很大。但是，由于主存储器(例如，RAM)的大小上的局限性，表示文档语料库的大的特征向量集可能无法全部同时刚好放入执行聚类操作的计算系统的主存储器中。结果是，在聚类操作期间，可能不得不将特征向量从辅存储器(例如，硬盘驱动器)读取到主存储器中，这可能导致占用更长的时间来完成聚类操作。根据本文公开的技术，可生成在对数据集进行聚类时使用的特征集。生成的特征集可小于数据集的特征空间，因此，减小用于实施聚类操作的存储器的量。在一种示例中，可从数据集选择(例如，随机选择)多个样本，并利用聚类算法...

【技术保护点】
一种生成数据集的方法，包括：(a)使用聚类算法将数据集的第一多个样本聚类成第一多个类；(b)基于所述第一多个类选择第一多个特征；(c)将所述第一多个特征添加到特征集；(d)对来自所述数据集的其他多个样本进行聚类；(e)基于(d)的结果类选择其他特征；(f)将所述其他特征添加到所述特征集；以及(g)从(d)到(f)迭代，直至达到收敛阈值。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员：维纳伊·多伊拉利卡尔，H·拉菲特，
申请(专利权)人：惠普发展公司，有限责任合伙企业，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人