生成特征集制造技术

技术编号:12478098 阅读:143 留言:0更新日期:2015-12-10 14:29
一种生成特征集的技术。可对来自数据集的多个样本进行聚类。可基于类选择特征。可将特征集添加到特征集。可对其他样本及选择的特征进行聚类,并添加到特征集,直至达到收敛阈值。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】
技术介绍
在数据挖掘中,聚类可用于基于对象之间的相似度对数据进行分组。由于聚类可提供对较大数据集的不同视角,因此聚类可以是较为有用的。例如,在企业设置中,企业可具有大的文档语料库。聚类可应用于语料库,以将文档分组成多个类。这些类可显示聚类的文档之间的相似度,使得企业更有效地利用其数据,并获得在其他方面难以得到的见解。【附图说明】下面的详细描述参照附图,其中:图1示出了根据一种示例的生成特征集的方法。图2描绘了根据一种示例的示出如何利用所公开的技术能使特征集逼近的曲线图。图3示出了根据一种示例的生成用于对数据集进行聚类的特征集的方法。图4示出了根据一种示例的用于生成特征集的系统。图5示出了根据一种示例的用于生成特征集的计算机可读取介质。【具体实施方式】对诸如文档语料库数据集进行聚类可能呈现各种挑战。例如,如果文档语料库大,则聚类操作可占用较长的时间执行。通常,可由特征向量来表示语料库中的每个文档。聚类操作可基于特征向量对文档进行聚类。如果语料库大,则特征向量的总大小也会很大。但是,由于主存储器(例如,RAM)的大小上的局限性,表示文档语料库的大的特征向量集可能无法全部同时刚好放入执行聚类操作的计算系统的主存储器中。结果是,在聚类操作期间,可能不得不将特征向量从辅存储器(例如,硬盘驱动器)读取到主存储器中,这可能导致占用更长的时间来完成聚类操作。根据本文公开的技术,可生成在对数据集进行聚类时使用的特征集。生成的特征集可小于数据集的特征空间,因此,减小用于实施聚类操作的存储器的量。在一种示例中,可从数据集选择(例如,随机选择)多个样本,并利用聚类算法对多个样本聚类。可基于聚类来选择多个特征。例如,可基于关于聚类包含物的信息增益来选择特征。选择的特征可被添加到特征集。可从数据集选择额外的多个样本,且可重复上述处理,以将额外的特征添加到特征集。这可针对各种迭代而发生,直至达到收敛阈值。例如,收敛阈值可与特征集增长的大小、特征集的大小、或预定的最大迭代次数有关。生成的特征集随后可用于使用同样的聚类算法来对整个数据集进行聚类。结果是,由于更少数量的特征,减少了主存储器的使用,使得能够更有效地对整个数据集实施聚类操作。此外,可不用首先对整个数据集聚类就可获得这种更小的特征集。此夕卜,由于利用通过相同的聚类算法生成的类来生成特征集,特征集可针对该聚类算法而被特别调整,这可产生改进的聚类。下面参照附图描述其他示例、优点、特征、修改等。图1示出了根据一种示例的生成特征集的方法。可由计算设备、系统、或计算机(诸如,计算系统400或计算机500)来实施方法100。用于实现方法100的计算机可读指令可被存储在计算机可读存储介质上。如存储在介质上的这些指令在本文被称作“模块”,且可由计算机执行。方法100可始于110,在110,可对来自数据集的多个样本进行聚类。数据集可包括文档、图像等。为了说明的目的,本文将描述一种数据集包括文档语料库的示例。例如,文档语料库可以是存储在企业数据库中的大的文档语料库。可由特征向量来表示数据集的每个成员。与表示数据集的所有成员的特征向量集关联的特征空间在本文被称为“原始特征空间”。参照文档语料库示例,与语料库关联的特征向量可被表示为文献-检索词矩阵。当然,文档的其他特征也可包括在特征向量中,诸如,文档类型、标题、总字数等。如文本所使用的,“样本”是通过采样技术已采样的数据集的成员。因此,文档语料库的多个样本将包括利用采样技术采样的多个文档。可使用各种采样技术中的任何技术。在一种示例中,独立的随机采样可用于选择多个样本。虽然可使用其他采样技术(诸如,用户定向(user-directed)采样),独立的随机采样具有这样的好处:去除了采样过程中的偏差,并潜在地产生更准确的数据集的分布的表示。包括在多个样本中的样本的数量可以是预设的或由用户规定的参数。样本大小可受各种因素的影响。例如,可使用采样技术来对数据集的特定百分比(例如,1%、5%)进行采样。可选地,固定数量的样本可从数据集采样。为了迅速处理,采样大小可足够小,使得针对多个样本的所有特征向量可刚好放入主存储器中。如随后将描述的,关于采样大小的不期望的结果在试验期间被获得。可使用聚类算法对多个采样的文档进行聚类,以产生多个类。将创建的类的数量可以是预设的或由用户规定的参数。可使用各种聚类算法中的任意算法(例如,分层聚类、基于质心的聚类、基于分布的聚类以及基于密度的聚类)。将用于对整个文档语料库进行聚类的相同的聚类算法可用于对多个采样的文档进行聚类。由于生成的特征集随后将针对选择的聚类算法而被调整,因此使用与将用于最终对整个数据集进行聚类的算法相同的聚类算法来生成特征集可能是有利的。在120,可基于多个类来选择多个特征。例如,可基于在110中生成的聚类来评估原始特征空间中的特征,以确定那些特征应包括在特征集中。可基于各种标准进行评估。例如,可基于关于聚类包含物的信息增益来评估特征。此技术识别什么特征与确定文档是否应为特定类的成员有关。可基于评估标准对特征进行排序,且可针对特征集中的包含物从每个类选择前N个特征。N可以是预设的或由用户规定的参数。在130,多个特征可被添加到特征集。可忽略冗余特征(例如,已添加到特征集的特征),使得选择的特征仅在其还未在特征集中存在时被添加。在140,可确定是否达到收敛阈值。如果已达到收敛阈值(140 “是”),则可终止方法100。如果仍未达到收敛阈值(140 “否”),则方法100可继续到110,对另外的多个样本进行聚类,以将更多的特征添加到特征集。方法100可从110到140迭代多次,直至满足收敛阈值。收敛阈值可以是各种阈值中的任意阈值。收敛阈值的目的在于指示方法100应何时结束,或可选地,何时特征集已达到使用的满意点。例如,收敛阈值可以是生成的特征集呈现“下落属性(falling profile)”的点。如本文所使用的下落属性指示特征集在根据例如130添加多个特征之后增加的百分比落到一定的值(诸如,2%)以下。可使用其他百分比。在另一个示例中,收敛阈值可以是特定的数。例如,如果在迭代期间添加到特征集的特征的数量小于该特定的数量,则可满足收敛阈值。可选地,如果方法100的迭代次数大于该特定的数,则满足收敛阈值。在某些示例中,收敛阈值可以是用户可调的参数。暂时转到图2,图示200示出了针对特征集的下落属性(在图中称为“特征存储”)。存放作为针对数据集的理想特征集“真”特征集。方法100 (及本文的其他方法及变形)可用于逐次逼近此真特征集。如曲线图200所示出的,随着方法的迭代次数的增加,特征集的大小增加并逼近真特征集。然而,特征集的增长不是线性的。而特征集在方法开始时快速增长,但随着迭代次数增加而减慢。这是因为例如冗余的选择的特征不被添加到特征集的事实。特征集的这种增长趋势是术语“下落属性”所意旨的。返回图1,方法100可因此用于快速生成逼近针对数据集的理想特征集的特征集。此特征集的特征空间比数据集的初始特征空间小,因此,使数据集的更多的特征向量能够刚好放入到主存储器中,以供整个数据集进行更快的聚类。事实上,可修改上述参数,以确保生成的针对数据集的特征集将足够小,使得数据集的所有特征向量可刚好本文档来自技高网...

【技术保护点】
一种生成数据集的方法,包括:(a)使用聚类算法将数据集的第一多个样本聚类成第一多个类;(b)基于所述第一多个类选择第一多个特征;(c)将所述第一多个特征添加到特征集;(d)对来自所述数据集的其他多个样本进行聚类;(e)基于(d)的结果类选择其他特征;(f)将所述其他特征添加到所述特征集;以及(g)从(d)到(f)迭代,直至达到收敛阈值。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:维纳伊·多伊拉利卡尔H·拉菲特
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1