一种基于特征的预处理及推荐方法技术

技术编号:21952707 阅读:26 留言:0更新日期:2019-08-24 17:49
本发明专利技术涉及一种一种基于特征的预处理及推荐方法。基于特征的预处理方法,包括:根据对象的分布将待预处理的特征数据划分成多个分桶;获取多个所述分桶内待预处理的特征数据的多个均值;获取多个所述均值的多个对数;以及对多个所述对数进行归一化处理。本发明专利技术的分桶均值对数标准化方法,能够使得模型更稳定,可靠性更高,降低数据中异常分布的负面影响。

A Feature-based Preprocessing and Recommendation Method

【技术实现步骤摘要】
一种基于特征的预处理及推荐方法
本专利技术涉及一种大数据
,特别地涉及一种数据的预处理方法及系统。
技术介绍
当代社会正面临着第四次技术革命。作为第四次技术革命的代表,物联网、大数据技术和人工智能最为受到人们的关注。无论是物联网、大数据技术和人工智能,都与数据的处理密不可分。因为不同的数据有着不同的维度,不便于相互比较和处理,所以需要将大小、单位和范围变化很大数据进行预处理。例如,归一化(也可称为规范化或者标准化)就是最为常见的一种数据预处理。以多变量分析为例,例如,一篇文章的浏览量PV值的范围通常为几十到几百万,而点击率CTR的范围为0-1之间。对于综合考虑PV值和CTR的推荐模型而言,必须对PV值进行归一化处理。然而,PV值为个位数的文章与PV为百万的文章比例差异巨大,影响推荐模型的准确性。现有的预处理方法并不能很好的解决这样的问题。
技术实现思路
针对现有技术中存在的技术问题,本专利技术提出了一种基于特征的预处理方法,包括:根据对象的分布将待预处理的特征数据划分成多个分桶;获取多个所述分桶内待预处理的特征数据的多个均值;获取多个所述均值的多个对数;以及对多个所述对数进行归一化处理。如上所述的方法,其中根据对象的分布将待预处理的特征数据划分成多个分桶包括:基于待预处理的特征数据的最大值按预定百分比划分多个区间;以及根据待预处理的特征数据的值将其分配到所述多个区间中;其中所述多个区间对应于多个分桶。如上所述的方法,其中根据对象的分布将待预处理的特征数据划分成多个分桶包括:基于待预处理的特征数据的最大值划分多个区间;以及根据待预处理的特征数据的值将其分配到所述多个区间中;其中各个区间中的对象数量相同;其中所述多个区间对应于多个分桶。如上所述的方法,其中至少部分基于对象的分布的类型将待预处理的特征数据划分成多个分桶。如上所述的方法,其中至少部分基于对象的另一特征值将待预处理的特征数据划分成多个分桶。如上所述的方法,其中所述归一化处理包括以下中的任意一种或多种:Min-Max归一化法;Z-Score归一化法;Logistic归一化法;Lognormal归一化法;以及TanH归一化法。根据本专利技术的另一个方面,提出一种基于特征的推荐方法,包括:至少部分基于对象的第一特征数据和第二特征数据推荐所述对象,其中第一特征数据和第二特征数据在预定范围内;其中第一特征数据经过如下的预处理:根据对象的分布将第一特征数据划分成多个分桶;获取多个所述分桶内第一特征数据的多个均值;获取多个所述均值的多个对数;以及对多个所述对数归一化处理,使得经处理的第一特征数据在预定范围内。如上所述的方法,其中根据对象的分布将第一特征数据划分成多个分桶包括:基于第一特征数据的最大值按预定百分比划分多个区间;以及根据第一特征数据的值将其分配到所述多个区间中;其中所述多个区间对应于多个分桶。如上所述的方法,其中根据对象的分布将第一特征数据划分成多个分桶包括:基于第一特征数据的最大值划分多个区间;以及根据第一特征数据的值将其分配到所述多个区间中;其中各个区间中的对象数量相同;其中所述多个区间对应于多个分桶。如上所述的方法,其中至少部分基于对象的分布的类型将第一特征数据划分成多个分桶。如上所述的方法,其中至少部分基于对象的第二特征数据将第一特征数据划分成多个分桶。如上所述的方法,其中所述归一化处理包括以下中的任意一种或多种:Min-Max归一化法;Z-Score归一化法;Logistic归一化法;Lognormal归一化法;以及TanH归一化法。如上所述的方法,其中第一特征数据是对象的PV值,第二特征数据是对象的CTR值。如上所述的方法,其中所述的预定范围是0-1之间。如上所述的方法,其中所述至少部分基于对象的第一特征数据和第二特征数据推荐所述对象包括基于LR(LogisticRegression)模型、PLOY2模块、FM(FactorizationMachine)模型、Field-awareFM模型、BP神经网络模型、FNN模型、CCPM模型、PNN模型、DeepFM模型中的一者或多种,利用第一特征数据和第二特征数据,推荐所述对象。如上所述的方法,其中所述对象为文章、书籍、音频、视频、商品、广告、游戏中的一者或多者。本专利技术的分桶均值对数标准化方法,能够使得模型更稳定,可靠性更高,降低数据中异常分布的负面影响。附图说明下面,将结合附图对本专利技术的优选实施方式进行进一步详细的说明,其中:图1为根据本专利技术一个实施例的预处理方法的流程图;图2为根据本专利技术一个实施例的计算设备的示意图;图3为根据本专利技术一个实施例的基于特征的推荐方法的流程图;以及图4为根据本专利技术一个实施例的推荐系统的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在以下的详细描述中,可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述,使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解,还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。本专利技术提出了一种全新的基于特征的分桶对数预处理方法。在一些实施例中,应用本专利技术的预处理方法,能够使得推荐模型更稳定,可靠性更高,降低数据中异常分布的负面影响。图1是根据本专利技术的一个实施例的预处理方法的流程图。如图所示,本专利技术的基于特征的预处理方法包括如下步骤:在步骤110,根据对象的分布将待预处理的特征数据划分成多个分桶。分桶是本专利技术的一个重要的步骤,能够减小样本分布不均的带来的问题。在一些实施例中,对于离散数据,可以基于对象的最大值平均分桶。具体而言,基于待预处理的特征数据的最大值按预定百分比划分多个区间;以及根据待预处理的特征数据的值将其分配到所述多个区间中。多个区间就对应于多个分桶。以文章的PV值,即文章的浏览次数为例,假设所有文章中文章PV值最大为10000。按10%进行分桶:1-1000为10%、1000-2000为20%、2000-3000为30%……9000-10000为100%;则共分为10个分桶;接下来,就可以将所有文章按照其PV值分配到10个分桶中。本领域技术人员应当理解,10%仅为一个例子,实际分桶数可以更多或者更少。在一些实施例中,对于离散数据,可以基于对象的数量平均分桶。具体而言,基于待预处理的特征数据的最大值划分多个区间;以及根据待预处理的特征数据的值将其分配到所述多个区间中,各个区间中的对象数量相同。所述多个区间就对应于多个分桶。仍以文章的PV值为例,假设共有10000个文章,按PV值将其从小到大排序。按10%进行分桶:第1-1000个为10%、第1000-2000个为20%、第2000-3000个为30%……第9000-10000个为100%;则共分为10个分桶。这样,所有文章按照其PV值本文档来自技高网...

【技术保护点】
1.一种基于特征的预处理方法,包括:根据对象的分布将待预处理的特征数据划分成多个分桶;获取多个所述分桶内待预处理的特征数据的多个均值;获取多个所述均值的多个对数;以及对多个所述对数进行归一化处理。

【技术特征摘要】
1.一种基于特征的预处理方法,包括:根据对象的分布将待预处理的特征数据划分成多个分桶;获取多个所述分桶内待预处理的特征数据的多个均值;获取多个所述均值的多个对数;以及对多个所述对数进行归一化处理。2.根据权利要求1所述的方法,其中根据对象的分布将待预处理的特征数据划分成多个分桶包括:基于待预处理的特征数据的最大值按预定百分比划分多个区间;以及根据待预处理的特征数据的值将其分配到所述多个区间中;其中所述多个区间对应于多个分桶。3.根据权利要求1所述的方法,其中根据对象的分布将待预处理的特征数据划分成多个分桶包括:基于待预处理的特征数据的最大值划分多个区间;以及根据待预处理的特征数据的值将其分配到所述多个区间中;其中各个区间中的对象数量相同;其中所述多个区间对应于多个分桶。4.根据权利要求1所述的方法,其中至少部分基于对象的分布的类型将待预处理的特征数据划分成多个分桶。5.根据权利要求1所述的方法,其中至少部分基于对象的另一特征值将待预处理的特征数据划分成多个分桶。6.根据权利要求1所述的方法,其中所述归一化处理包括以下中的任意一种或多种:Min-Max归一化法;Z-Score归一化法;Logistic归一化法;Lognormal归一化法;以及TanH归一化法。7.一种基于特征的推荐方法,包括:至少部分基于对象的第一特征数据和第二特征数据推荐所述对象,其中第一特征数据和第二特征数据在预定范围内;其中第一特征数据经过如下的预处理:根据对象的分布将第一特征数据划分成多个分桶;获取多个所述分桶内第一特征数据的多个均值;获取多个所述均值的多个对数;以及对多个所述对数归一化处理,使得经处理的第一特征数据在预定范围内。8.根据权利要求7所述的方法,...

【专利技术属性】
技术研发人员:黎海斌乔方正
申请(专利权)人:上海基分文化传播有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1