一种样本值区间模型的优化方法和装置制造方法及图纸

技术编号:17007337 阅读:33 留言:0更新日期:2018-01-11 03:45
本发明专利技术公开了一种样本值区间模型的优化方法、装置、电子设备和计算机可读介质,涉及计算机技术技术领域,能够建立样本值区间模型,节约了配置维护成本,为用户提供更合理的样本值区间配置,提高用户体验。该方法的一个具体实施方式包括:获取数据的样本集;对给定范围的每个正整数k,应用聚类算法对所述样本集聚类以产生所述样本集的相互不重叠的k个子集,从而得到对应的样本值区间模型,当所述样本值区间模型满足预设的优化目标时,输出该样本值区间模型。

【技术实现步骤摘要】
一种样本值区间模型的优化方法和装置
本专利技术涉及计算机
,尤其涉及一种样本值区间模型的优化方法、装置、电子设备和计算机可读介质。
技术介绍
随着大数据技术的发展及应用,有针对性地对大数据进行筛选和加工是大数据应用的关键技术之一,例如,随着近年来电子商务网站的高速发展,商品(即样本)种类和价格(即样本值)的多样化特点致使用户在选择所需商品,必须要通过一定的筛选条件,才能更精确地对所需商品进行定位,其中,根据价格来对商品进行筛选是用户经常使用的方法。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:面对数量巨大的样本,如何更准确地根据需要筛选出最优的样本集是技术提升的关键。如在电子商务网站中,同一品类的商品有时数量庞大,且单价差别也很大,用户通常根据价格区间筛选所需商品,电子商务网站可通过建立商品的价格区间(即商品的样本值区间)模型的方法对商品进行筛选分类,但是对于商品价格区间的分类配置经常由运营人员根据经验人工配置维护,费时费力,易造成不合理的价格区间配置,且不能及时对数据进行更新,使得用户不易快速准确地筛选到所需商品,降低用户体验。专利技术内容有鉴于此,本专利本文档来自技高网...
一种样本值区间模型的优化方法和装置

【技术保护点】
一种样本值区间模型的优化方法,其特征在于,包括:获取数据的样本集,所述样本集中的数据元素包括样本的样本值及其对应的权重;对给定范围的每个正整数k,应用聚类算法对所述样本集聚类以产生所述样本集的相互不重叠的k个子集,从而得到对应的样本值区间模型,所述样本值区间模型包括与所述k个子集分别对应的k个样本值区间,并且当所述样本值区间模型满足预设的优化目标时,输出该样本值区间模型。

【技术特征摘要】
1.一种样本值区间模型的优化方法,其特征在于,包括:获取数据的样本集,所述样本集中的数据元素包括样本的样本值及其对应的权重;对给定范围的每个正整数k,应用聚类算法对所述样本集聚类以产生所述样本集的相互不重叠的k个子集,从而得到对应的样本值区间模型,所述样本值区间模型包括与所述k个子集分别对应的k个样本值区间,并且当所述样本值区间模型满足预设的优化目标时,输出该样本值区间模型。2.根据权利要求1所述的方法,其特征在于,所述权重是样本的发生量或指定的数值。3.根据权利要求1所述的方法,其特征在于,所述优化目标包括所述样本值区间模型中各样本值区间所对应的样本数量的标准差,以及样本值区间模型中所述样本的各样本值区间的发生量的分布均满足预定条件。4.根据权利要求1所述的方法,其特征在于,所述给定范围为3≤k≤8和所述样本的种类数量与展示页面最多可显示所述样本的种类数量的比值中的较小者。5.根据权利要求1所述的方法,其特征在于,得到所述样本值区间模型包括:对于所述样本集聚类后产生的每一个子集,选取其中样本值的最小值和最大值作为该子集对应的样本值区间的两个端点,对所有所述子集对应的样本值区间进行排序,并且把排序后的样本值区间作为所述样本值区间模型。6.根据权利要求1所述的方法,其特征在于,所述聚类算法是k均值聚类算法。7.根据权利要求1所述的方法,其特征在于,当得到的样本值区间模型满足所述优化目标后,以所述样本集中所述样本的各样本值区间的发生量的正态分布为标准的正态分布,当所述样本集发生改变时,对改变后的样本集中所述样本的各样本值区间的发生量的正态分布与所述标准的正态分布进行比较,若比较结果大于预设的阈值时,则重新对改变后的样本集进行优化,以得到新的样本值区间模型。8.一种样本值区间模型的优化装置,其特征在于,包括:样本集模块,用于获取数据的样本集,所述样本集中的数据元素包括样本的样本值及其对应的权重;聚类模块,用于对给定范围的每个正整数k,应用聚类算法对所述样本集聚类以产生所述样本集...

【专利技术属性】
技术研发人员:强晶晶
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1