数据挖掘方法以及装置制造方法及图纸

技术编号:14253676 阅读:75 留言:0更新日期:2016-12-22 16:05
本发明专利技术公开了一种数据挖掘方法以及装置,涉及互联网数据挖掘技术领域。本发明专利技术的方法包括:根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;根据购买种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;基于种子用户购买过的其他商品扩充商品集合;确定商品集合中各个种子商品的平均购买周期。本发明专利技术通过商品的置信度选取种子商品,并通过购买过种子商品的用户所购买的其他商品,来扩充商品集合,结合商品置信度和用户的置信度两个维度的参考条件以及协同处理,最终从海量的商品数据中,选出商品,并确定其购买周期。

【技术实现步骤摘要】

本专利技术涉及互联网数据挖掘
,特别涉及一种数据挖掘方法以及装置
技术介绍
消费活动中,很多商品都有固定的消费周期,有效识别商品购买周期对于企业组织生产、进行商品营销等具有重要促进作用。现有技术中,通常人为选择一种或多种商品,根据购物频次和间隔进行平均值计算,从而确定出该商品的购物周期。但是,随着互联网技术的发展,商品销售者,尤其是电商销售平台,拥有品类繁多的海量商品和数以亿计的庞大用户群,针对每一种商品计算购买周期,既并不现实也没有必要。因此,计算哪些商品的购买周期,是业界非常关心和必须面对的问题。
技术实现思路
本专利技术所要解决的一个技术问题是:从海量的商品数据中,如何选取商品,并计算其购买周期。根据本专利技术的一个方面,提供的一种数据挖掘方法,包括:根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;根据购买种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;基于种子用户购买过的其他商品扩充商品集合;确定商品集合中各个商品的平均购买周期。在一个实施例中,商品的置信度根据商品的购买数量信息和购买周期信息确定。在一个实施例中,商品的置信度采用以下方法确定:确定商品的购买总量信息;确定商品的购买周期的离散程度信息;根据商品的购买总量信息和购买周期的离散程度信息确定商品的置信度。在一个实施例中,用户的置信度根据用户购买种子商品的数量信息和购买种子商品的周期信息确定。在一个实施例中,用户的置信度采用以下方法确定:确定用户购买种子商品的购买总量信息;确定用户购买种子商品的购买周期的离散程度信息;根据购买总量信息和购买周期的离散程度信息确定用户的置信度。在一个实施例中,基于种子用户购买过的其他商品扩充商品集合包括:从种子用户购买过的其他商品中选取商品的置信度高于第三预设值的商品,并添加至商品集合。在一个实施例中,统计同一商品购买数量相同的用户的人数;计算人数占购买该商品的用户总数的频率占比;对频率占比按照购买数量由少到多的顺序进行累积得到累积占比;删除频率占比和累积占比符合预设条件的用户的商品购买数据,预设条件包括频率占比低于第一预设比例且累计比例达到第二预设比例。在一个实施例中,商品的购买数据包括至少一项购买特征;该方法还包括:判断每项购买特征或购买特征的组合是否符合预设阈值,将不符合预设阈值的商品的购买数据删除。在一个实施例中,商品的购买数据中包括归一化的购买数量,归一化的购买数量是根据商品的规格对购买数量进行归一化处理得到的。在一个实施例中,归一化处理的方法包括:利用商品的规格乘以该规格的商品购买数量得到归一化的购买数量。根据本专利技术的第二个方面,提供的一种数据挖掘装置,包括:种子商品选取模块,用于根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;种子用户选取模块,用于根据购买种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;商品扩充模块,用于基于种子用户购买过的其他商品扩充商品集合;商品周期确定模块,用于确定商品集合中各个商品的平均购买周期。在一个实施例中,商品置信度确定模块,用于根据商品的购买数量信息和购买周期信息确定商品的置信度。在一个实施例中,商品置信度确定模块包括:购买总量确定单元,用于确定商品的购买总量信息;周期离散程度确定单元,用于确定商品的购买周期的离散程度信息;商品置信度确定单元,用于根据商品的购买总量信息和购买周期的离散程度信息确定商品的置信度。在一个实施例中,用户置信度确定模块,用于根据用户购买种子商品的数量信息和购买种子商品的周期信息确定。在一个实施例中,用户置信度确定模块包括:购买总量确定单元,用于确定用户购买种子商品的购买总量信息;周期离散程度确定单元,用于确定用户购买种子商品的购买周期的离散程度信息;用户置信度确定单元,用于根据购买总量信息和购买周期的离散程度信息确定用户的置信度。在一个实施例中,商品扩充模块,用于从种子用户购买过的其他商品中选取商品的置信度高于第三预设值的商品,并添加至商品集合。在一个实施例中,样本长尾截断模块,用于统计同一商品购买数量相同的用户的人数;计算人数占购买该商品的用户总数的频率占比;对频率占比按照购买数量由少到多的顺序进行累积得到累积占比;删除频率占比和累积占比符合预设条件的用户的商品购买数据,预设条件包括频率占比低于第一预设比例且累计比例达到第二预设比例。在一个实施例中,商品的购买数据包括至少一项购买特征;该装置还包括:特征强度阈值筛选模块,用于判断每项购买特征或购买特征的组合是否符合预设阈值,将不符合预设阈值的商品的购买数据删除。在一个实施例中,商品的购买数据中包括归一化的购买数量,归一化的购买数量是根据商品的规格对购买数量进行归一化处理得到的。在一个实施例中,商品数量归一化模块,用于利用商品的规格乘以该规格的商品购买数量得到归一化的购买数量。根据本专利技术的第三个方面,提供的一种数据挖掘装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器设备中的指令,执行前述人一个实施例中的数据挖掘方法。本专利技术通过商品的置信度选取种子商品,并通过购买过种子商品的用户所购买的其他商品,来扩充商品集合,结合商品置信度和用户的置信度两个维度的参考条件以及协同处理,最终从海量的商品数据中,选出商品,并确定其购买周期。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出本专利技术的一个实施例的数据挖掘装置的结构示意图。图2示出本专利技术的另一个实施例的数据挖掘装置的结构示意图。图3示出本专利技术的一个实施例的数据挖掘方法的流程示意图。图4示出本专利技术的另一个实施例的数据挖掘方法的流程示意图。图5示出本专利技术的又一个实施例的数据挖掘方法的流程示意图。图6示出本专利技术的再一个实施例的数据挖掘方法的流程示意图。图7示出本专利技术购买不同数量的商品的用户的频率占比和累积占比统计曲线。图8示出本专利技术的又一个实施例的数据挖掘方法的流程示意图。图9示出本专利技术的又一个实施例的数据挖掘装置的结构示意图。图10示出本专利技术的再一个实施例的数据挖掘装置的结构示意图。图11示出本专利技术的又一个实施例的数据挖掘装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。针对如何选取合适的商品,来统计这些商品的周期,用于营销活动的参考,提出本方案。本专利技术的实施例中的数据挖掘装置可各由各种计算设备或计算机系统来实现,下面结合图1以及图2进行描述。图1为本专利技术数据挖掘装置的一个实施例的本文档来自技高网...
数据挖掘方法以及装置

【技术保护点】
一种数据挖掘方法,其特征在于,包括:根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;根据购买所述种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;基于种子用户购买过的其他商品扩充所述商品集合;确定所述商品集合中各个种子商品的平均购买周期。

【技术特征摘要】
1.一种数据挖掘方法,其特征在于,包括:根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;根据购买所述种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;基于种子用户购买过的其他商品扩充所述商品集合;确定所述商品集合中各个种子商品的平均购买周期。2.根据权利要求1所述的方法,其特征在于,商品的置信度根据商品的购买数量信息和购买周期信息确定。3.根据权利要求2所述的方法,其特征在于,所述商品的置信度采用以下方法确定:确定商品的购买总量信息;确定商品的购买周期的离散程度信息;根据商品的购买总量信息和购买周期的离散程度信息确定商品的置信度。4.根据权利要求1所述的方法,其特征在于,用户的置信度根据用户购买种子商品的数量信息和购买种子商品的周期信息确定。5.根据权利要求4所述的方法,其特征在于,所述用户的置信度采用以下方法确定:确定用户购买种子商品的购买总量信息;确定用户购买种子商品的购买周期的离散程度信息;根据所述购买总量信息和购买周期的离散程度信息确定用户的置信度。6.根据权利要求1所述的方法,其特征在于,所述基于种子用户购买过的其他商品扩充所述商品集合包括:从种子用户购买过的其他商品中选取商品的置信度高于第三预设值的商品,并添加至所述商品集合。7.根据权利要求1所述的方法,其特征在于,还包括:统计同一商品购买数量相同的用户的人数;计算所述人数占购买该商品的用户总数的频率占比;对所述频率占比按照购买数量由少到多的顺序进行累积得到累积占比;删除所述频率占比和累积占比符合预设条件的用户的商品购买数据,所述预设条件包括频率占比低于第一预设比例且累计比例达到第二预设比例。8.根据权利要求1所述的方法,其特征在于,商品的购买数据包括至少一项购买特征;所述方法还包括:判断每项购买特征或购买特征的组合是否符合预设阈值,将不符合预设阈值的商品的购买数据删除。9.根据权利要求1-8任一项所述的方法,其特征在于,商品的购买数据中包括归一化的购买数量,所述归一化的购买数量是根据商品的规格对购买数量进行归一化处理得到的。10.根据权利要求9所述的方法,其特征在于,归一化处理的方法包括:利用商品的规格乘以该规格的商品购买数量得到归一化的购买数量。11.一种数据挖掘装置,其特征在于,包括:种子商品选取模块,用于根据商品的购买数据,选取商品的置信度满足第一预设值的种子商品,并添加至商品集合;种子用户选取模块,用于根据购买所述种子商品的用户的置信度,选取用户的置信度满足第二预设值的种子用户;商品扩充模...

【专利技术属性】
技术研发人员:刘朋飞王晓葛胜利李爱华
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1