将用户数据的分布形态进行划分的方法及其装置制造方法及图纸

技术编号:24035870 阅读:31 留言:0更新日期:2020-05-07 01:53
本发明专利技术提出一种用于将用户数据的分布形态进行划分的方法、装置、计算机设备和计算机可读存储介质,其中用于将用户数据的分布形态进行划分的方法可以包括:将离散的用户数据进行曲线拟合;针对得到的拟合曲线,计算拟合曲线上离散点处的曲率半径;选择最小的曲率半径作为划分用户数据的分布形态的阈值。这样可以方便地对用户数据的分布形态的用户数据进行头部和尾部的阈值划分。借助于上述的方法和装置可以有利于互联网目标用户的切分,并且可以应用于信息智能推荐、精准营销及投放,并对用户进行个性化分析和深入理解等领域。

The method and device of dividing the distribution form of user data

【技术实现步骤摘要】
将用户数据的分布形态进行划分的方法及其装置
本专利技术涉及数据处理领域,尤其涉及一种用于将用户数据的分布形态进行划分的方法、装置、计算机设备和计算机可读存储介质。
技术介绍
在互联网数据分布中,长尾分布是较为常见的一种用户数据分布形态,但是互联网研发人员通常关注长尾分布的“头部”用户,如在图5中示出的长尾分布中的区域I就是通常认为的“头部”用户数据;而对于长尾分布的“尾巴”部分的用户数据则不是那么关注,图5中示出的长尾分布中的区域II就是通常认为的“尾部”用户数据。在现有技术中一种方法是采用人工确定阈值划分的方式,在长尾分布中确定一个指标阈值,高于它的即是关注的用户群体。在现有技术中另一种方法是通过“二八开”等简单经验法则,确定一定比例的用户或者人群占比,按照指标具体排序圈取相应的用户或者人群。但是上述方法都是比较模糊的划分方式,解释性较差,不能说明为什么这部分用户或者人群即是研发人员所关注的焦点用户或者人群;同时准确性堪忧,不易应用。因此现有技术中需要一种合理的方式,将用户或者人群数据进行划分,从而筛选出头部用户或者人群数据。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。根据本专利技术的第一个方面,提供了一种用于将用户数据的分布形态进行划分的方法,可以包括:将离散的用户数据进行曲线拟合;针对得到的拟合曲线,计算拟合曲线上离散点处的曲率半径;选择最小的曲率半径作为划分用户数据的分布形态的阈值。在本专利技术第一个方面的一个实施例中,其中将离散的用户数据进行曲线拟合可以包括:将离散的用户数据平滑化。在本专利技术第一个方面的另一个实施例中,其中将离散的用户数据进行曲线拟合可以包括:根据用户数据的分布形态,选择特定的拟合函数进行曲线拟合。备选的,其中特定的拟合函数可以包括幂指数函数或者伽马函数等。根据本专利技术的第二个方面,提供了一种用于将用户数据的分布形态进行划分的装置,可以包括:拟合模块,用于将离散的用户数据进行曲线拟合;计算模块,用于针对得到的拟合曲线计算拟合曲线上离散点处的曲率半径;选择模块,用于选择最小的曲率半径作为划分用户数据的分布形态的阈值。在本专利技术第二个方面的一个实施例中,其中拟合模块还用于将离散的用户数据平滑化。在本专利技术第二个方面的另一个实施例中,其中拟合模块进一步用于根据用户数据的分布形态,选择特定的拟合函数进行曲线拟合。备选的,其中特定的拟合函数包括幂指数函数或者伽马函数。根据本专利技术的第三个方面,提供了一种计算机设备,可以包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的方法。根据本专利技术的第四个方面,提供了一种计算机可读存储介质,其存储有计算机程序,当该程序被处理器执行时实现上述的方法。借助于本专利技术的用于将用户数据的分布形态进行划分的方法或者装置,可以方便地对用户数据的分布形态,例如长尾分布的分布形态,进行头部和尾部的阈值划分,这样更精准地获取到用于划分用户数据分布形态的头部和尾部的分割点。在应对多种特征划分场景时,均有较为有效的作用。借助于上述的方法和装置可以有利于互联网目标用户的切分,并且可以应用于信息智能推荐、精准营销及投放,并对用户进行个性化分析和深入理解等领域。上述概述仅仅是为了说明的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1示意性示出根据本专利技术第一个方面的用于将用户数据的分布形态进行划分的方法的一个实施例;图2示意性示出根据本专利技术第一个方面的将离散的用户数据进行曲线拟合的一个实施例;图3示意性示出根据本专利技术第二个方面的用于将用户数据的分布形态进行划分的装置的一个实施例;图4示意性示出根据本专利技术第三个方面的关于计算机设备的一个实施例。图5是用户数据的分布形态为长尾分布情况下的示意图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。下文还可能包括其他明确的和隐含的定义。图1示意性示出了根据本专利技术第一个方面的用于将用户数据的分布形态进行划分的方法10的一个实施例,可以包括下面的步骤:步骤2,将离散的用户数据进行曲线拟合;步骤4,针对得到的拟合曲线,计算拟合曲线上离散点处的曲率半径;步骤6,选择最小的曲率半径作为划分用户数据的分布形态的阈值。在上述的步骤2中,通常每个用户数据可以认为是离散的,这时候将离散的用户数据进行曲线拟合可以使离散的数据平滑化,否则部分奇点会导致后续的导数计算得到不合适的曲率半径值。术语“奇点”通常是一个数学意义上被称为未定义的点,或当它在特别的情况下无法完序,以至于此点出现在于异常的集合中。因此从这种意义上讲,将离散的用户数据进行曲线拟合包括了步骤8,将离散的用户数据平滑化,如在图2中示出的。换句话说,拟合得到的曲线是平滑的曲线,有助于后面进行的曲率半径的计算以及其中涉及的一阶导数、二阶导数计算得到尽量合理的数值。在本专利技术的一个实施例中,其中将离散的用户数据进行曲线拟合的步骤2还可以包括步骤10,根据用户数据的分布形态,选择特定的拟合函数进行曲线拟合。这里需要指出的是,用户数据的分布形态常常是根据特定情况有所不同。在互联网用户的情况下,用户数据的分布形态通常用长尾分布进行描述,如在图5中所示的。在其他的情形下,例如线下购物得到的用户数据分布、线下买票得到的用户数据分布等等可能呈现不同的分布形态,这一点本领域技术人员是可以理解的。因此,在特定的情况下,本领域技术人员可以针对不同的用户数据分布形态选择合适的拟合函数。例如可以选择幂指数函数或者伽马函数等等。在本专利技术的各个实施例中,之所以选择使用幂指数函数或者伽马函数来拟合用户的数据分布,这是由于幂指数函数曲线或者伽马函数曲线经过多重组合之后,可能和经常使用的长尾分布曲线有相似的地方。假定在使用幂指数函数进行多重拟合的情况下,函数曲线通式是y=f(本文档来自技高网...

【技术保护点】
1.一种用于将用户数据的分布形态进行划分的方法,其特征在于,包括:/n将离散的用户数据进行曲线拟合;/n针对得到的拟合曲线,计算所述拟合曲线上离散点处的曲率半径;/n选择最小的曲率半径作为划分所述用户数据的分布形态的阈值。/n

【技术特征摘要】
1.一种用于将用户数据的分布形态进行划分的方法,其特征在于,包括:
将离散的用户数据进行曲线拟合;
针对得到的拟合曲线,计算所述拟合曲线上离散点处的曲率半径;
选择最小的曲率半径作为划分所述用户数据的分布形态的阈值。


2.根据权利要求1所述的用于将用户数据的分布形态进行划分的方法,其中所述将离散的用户数据进行曲线拟合包括:
将所述离散的用户数据平滑化。


3.根据权利要求2所述的用于将用户数据的分布形态进行划分的方法,其中所述将离散的用户数据进行曲线拟合包括:
根据所述用户数据的分布形态,选择特定的拟合函数进行曲线拟合。


4.根据权利要求3所述的用于将用户数据的分布形态进行划分的方法,其中所述特定的拟合函数包括幂指数函数或者伽马函数。


5.一种用于将用户数据的分布形态进行划分的装置,其特征在于,包括:
拟合模块,用于将离散的用户数据进行曲线拟合;
计算模块,用于针对得到的拟合曲线计算所述拟合曲线上离...

【专利技术属性】
技术研发人员:石逸轩戴明洋潘剑飞周俊罗程亮陈家伟许金泉刘少杰王栋刘康王楠王欢韦园园
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1