一种对象聚类方法和装置制造方法及图纸

技术编号:12172528 阅读:70 留言:0更新日期:2015-10-08 10:14
本发明专利技术公开了一种对象聚类方法,涉及计算机技术领域。所述方法包括:获取待聚类的样本和各样本的访问权重;所述访问权重为所述样本被访问时的重要程度,所述样本包括品牌数据;将各样本划分为一个分类对象,并将相应样本的坐标作为所述分类对象的中心坐标,并将相应样本的访问权重作为所述分类对象的访问权重;根据每个分类对象的访问权重和中心坐标,将各分类对象进行聚类,获得各包括至少一个品牌数据的品牌分类。本发明专利技术取得了聚类结果精确,使后续的处理计算量小,偏差低的有益效果。

【技术实现步骤摘要】

本专利技术设及计算机
,具体设及一种对象聚类方法和装置
技术介绍
在数据处理过程中,将物理或抽象对象的集合分成由类似的对象组成的多个类的 过程被称为聚类。由聚类所生成的类(簇)是一组数据对象的集合,该些对象与同一个类 (簇)中的对象彼此相似,与其他类(簇)中的对象相异。下文使用"类"的概念,需要说明 的是,本文中"类"与"簇"的含义相同。而在互联网中,存在大量的品牌数据,需要将该些品牌数据进行聚类,方便后续处 理,比如针对性的推送广告数据,在先技术中存在一种层次聚类的方法,其是各个类的中屯、 点计算两个类之间的距离,然后将两个距离最近的类合并为一个新的类,但是其对新的类 的中屯、只是根据两个类中的样本个数去计算,然后计算下一轮各个类之间的距离,循环聚 类直到达到结束条件。 但是,上述聚类方法中,其新的类的中屯、点是根据两个类的样本个数计算的,与实 际应用中样本的分布重屯、存在较大偏差,因此,聚类得到的品牌分类不够精确,导致后续的 处理计算量大,并且后续处理结果偏差更大。
技术实现思路
鉴于上述问题,提出了本专利技术W便提供一种克服上述问题或者至少部分地解决上 述问题的对象聚类装置和相应的对象聚类方法。 根据本专利技术的一个方面,提供了一种对象聚类方法,包括:获取待聚类的样本和各样本的访问权重;所述访问权重为所述样本被访问时的重 要程度,所述样本包括品牌数据;[000引将各样本划分为一个分类对象,并将相应样本的坐标作为所述分类对象的中屯、 坐标,并将相应样本的访问权重作为所述分类对象的访问权重; 根据每个分类对象的访问权重和中屯、坐标,将各分类对象进行聚类,获得各包括 至少一个品牌数据的品牌分类。 优选的,所述根据每个分类对象的访问权重和中屯、坐标,将各分类对象进行聚类 的步骤包括: 针对各个分类对象,根据每个分类对象的中屯、坐标,计算每两个分类对象之间的 距离; 将距离最近的两个分类对象聚合为一个新的分类对象,并根据每个分类对象的中 屯、坐标和访问权重,计算所述新的分类对象的中屯、坐标和访问权重. 判断是否达到聚合结束条件,如果未达到聚合结束条件,将新的分类对象与当前 回合中未聚合的分类对象,一并返回针对各个分类对象,根据每个分类对象的中屯、坐标,计 算每两个分类对象之间的距离的步骤,直到达到聚合结束条件。 优选的,所述访问权重包括: 所述样本在网络中被浏览的浏览权重; 和/或,所述样本在网络中被点击的点击权重; 和/或,所述样本最近被浏览时刻距离基准时刻的时间跨度权重;[001引和/或,所述样本所在网站的网站权重; 和/或,所述样本最近被浏览时,用户的浏览行为所在区域的区域权重; 和/或,所述样本所在被捜索时的捜索权重。 优选的,所述针对各个分类对象,根据每个分类对象的中屯、坐标,计算每两个分类 对象之间的距离的步骤,包括: 针对每个分类对象,根据中屯、坐标构建中屯、向量; 计算每两个分类对象所对应的两个中屯、向量之间的余弦距离。 优选的,所述获取初始的各样本的步骤,包括: 针对每个样本,根据业务标识获取相应的访问权重。 优选的,在根据每个分类对象的访问权重和中屯、坐标,将各分类对象进行聚类的 步骤之后,还包括: 针对每个用户,根据用户对各个所述用户对各类中的品牌数据的访问行为数据, 对所述用户打上品牌分类标签。[002引优选的,在针对每个用户,根据用户对各个所述用户对各类中的品牌数据的访问 行为数据,对所述用户打上品牌分类标签步骤之后,还包括: 根据所述用户的品牌分类标签,将对应所述标记的第=对象发送给所述用户所在 终端;所述第=对象包括针对所述品牌数据的广告数据。 优选的,所述根据每个分类对象的中屯、坐标和访问权重,计算所述新的分类对象 的中屯、坐标包括: 根据业务标识,调用相应的坐标计算函数计算所述新的分类的中屯、坐标。 依据本专利技术的另外一个方面,还公开了一种对象聚类装置,包括: 初始对象获取模块,适于获取待聚类的样本和各样本的访问权重;所述访问权重 为所述样本被访问时的重要程度; 划分模块,适于将各样本划分为一个分类对象,并将相应样本的坐标作为所述分 类对象的中屯、坐标,并将相应样本的访问权重作为所述分类对象的访问权重; 聚类模块,适于根据每个分类对象的访问权重和中屯、坐标,将各分类对象进行聚 类。 优选的,所述聚类模块包括: 距离计算模块,适于针对各个分类对象,根据每个分类对象的中屯、坐标,计算每两 个分类对象之间的距离;[003引聚合模块,适于将距离最近的两个分类对象聚合为一个新的分类对象,并根据每 个分类对象的中屯、坐标和访问权重,计算所述新的分类对象的中屯、坐标和访问权重; 判断模块,适于判断是否达到聚合结束条件,如果未达到聚合结束条件,将新的分 类对象与当前回合中未聚合的分类对象,一并返回针对各个分类对象,根据每个分类对象 的中屯、坐标,计算每两个分类对象之间的距离的步骤,直到达到聚合结束条件。 优选的,所述访问权重包括: 所述样本在网络中被浏览的浏览权重;[00创和/或,所述样本在网络中被点击的点击权重; 和/或,所述样本最近被浏览时刻距离基准时刻的时间跨度权重; 和/或,所述样本所在网站的网站权重; 和/或,所述样本最近被浏览时,用户的浏览行为所在区域的区域权重; 和/或,所述样本所在被捜索时的捜索权重。 优选的,所述距离计算模块包括: 中屯、向量构建模块,适于针对每个分类对象,根据中屯、坐标构建中屯、向量; 余弦距离计算模块,适于计算每两个分类对象所对应的两个中屯、向量之间的余弦 距离。 优选的,所述初始对象获取模块包括: 访问权重获取模块,适于针对每个样本,根据业务标识获取相应的访问权重。[005引优选的,还包括: 标记模块,适于针对每个用户,根据用户对各个所述用户对各类中的品牌数据的 访问行为数据,对所述用户打上品牌分类标签。 优选的,还包括; 对象发送模块,适于根据所述用户的品牌分类标签,将对应所述标记的第=对象 发送给所述用户所在终端;所述第=对象包括针对所述品牌数据的广告数据。 优选的,所述第一聚合模块包括: 计算函数选择模块,适于根据业务标识,调用相应的坐标计算函数计算所述新的 分类的中屯、坐标。[005引根据本专利技术的对象聚类方法可W获取包括访问权重的初始品牌数据,该访问权重 指示了所述品牌数据被访问时的重要程度,然后根据品牌数据的访问权重参与聚类过程, 那么在聚类时,访问权重高的品牌数据参与度高,由此解决了传统聚类过程中依据各类中 的品牌数据数量进行聚类,而导致品牌数据聚合度分散,聚类不够准确的问题,从而导致后 续处理计算量大,计算结果偏差大的问题,取得了聚类结果精确,使后续的处理计算量小, 偏差低的有益效果。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段, 而可依照说明书的内容予W实施,并且为了让本专利技术的上述和其它目的、特征和优点能够 更明显易懂,W下特举本专利技术的【具体实施方式】。【附图说明】 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中: 本文档来自技高网...

【技术保护点】
一种对象聚类方法,包括:获取待聚类的样本和各样本的访问权重;所述访问权重为所述样本被访问时的重要程度,所述样本包括品牌数据;将各样本划分为一个分类对象,并将相应样本的坐标作为所述分类对象的中心坐标,并将相应样本的访问权重作为所述分类对象的访问权重;根据每个分类对象的访问权重和中心坐标,将各分类对象进行聚类,获得各包括至少一个品牌数据的品牌分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕俊杨诗邓宇吕鹏罗维
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1