【技术实现步骤摘要】
数据平滑方法和数据平滑装置
[0001]本公开涉及数据处理
,尤其涉及一种数据平滑方法和数据平滑装置。
技术介绍
[0002]数据的平滑处理被应用于各个方面。例如,在机器学习中,特征平滑是特征预处理中很重要的一环,目的是对统计特征进行某种方式的变换,改变特征的分布,使处理后的特征有更好的置信度,更能反应真实情况。
[0003]例如,针对某对象的操作率需要根据用户对该对象的操作次数与展示次数计算得到,如果不做任何平滑处理,即操作率等于用户对对象的操作次数与展示次数的比值。但是对于展示次数很少的对象来说,这个操作率并不准确,诸如展示对象1次,操作对象1次的操作率变为100%。因此,需要进行某种方式的平滑,使平滑之后的特征在尽可能保留先前的操作率信息的情况下,能够具有更好的置信度,更接近真实的操作率。
[0004]数据的平滑策略本质上是算法工程师根据统计分析获得的专家知识,好的平滑策略对例如模型的训练有极大的帮助,可以让模型学习到更能反应真实情况的特征,提高模型的性能。
技术实现思路
[000 ...
【技术保护点】
【技术特征摘要】
1.一种数据平滑方法,其特征在于,包括:获取针对多个对象在多个时段中的比率数据,其中,所述比率数据中的每个比率是第一变量与第二变量的比值;基于所述比率数据计算所述比率数据的均值和方差;基于所述均值和所述方差确定用于调整第一变量值和第二变量值的平滑参数;利用所述平滑参数对所述比率数据进行平滑处理。2.根据权利要求1所述的数据平滑方法,其特征在于,还包括:按照预设划分规则将所述比率数据划分为多个比率子集;针对所述多个比率子集中的每个比率子集,执行以下操作:计算该比率子集中的比率数据的子集均值和子集方差;基于所述子集均值和所述子集方差确定用于调整该比率子集中的第一变量值和第二变量值的子集平滑参数;利用所述子集平滑参数对该比率子集的比率数据进行平滑处理。3.根据权利要求1所述的数据平滑方法,其特征在于,基于所述均值和所述方差确定用于调整第一变量值和第二变量值的平滑参数,包括:确定第一变量与第二变量所服从的概率分布函数;利用贝叶斯方法确定所述概率分布函数的共轭先验分布函数;通过将所述均值作为所述共轭先验分布函数的期望并且将所述方差作为所述共轭先验分布函数的方差,来计算所述共轭先验分布函数中的参数值;基于所述共轭先验分布函数中的所述参数值来确定用于调整第一变量值和第二变量值的平滑参数。4.根据权利要求3所述的数据平滑方法,其特征在于,所述概率分布函数为二项分布函数,所述共轭先验分布函数为贝塔分布函数,所述共轭先验分布函数中的所述参数值包括第一参数值和第二参数值,其中,第一参数值被用作调整第一变量值的平滑参数,第一参数值与第二参数值之和被用作调整第二变量值的平滑参数。5.一种数据平滑装置,其特征在于,包括:获取模块,被配置为获取针对多个对象在多个时段中的比率数据,其中,所述比率数据中的每个比率是第一变量与第二变量的比值;计算模块,被配置为:基于所述比率数据计算所述比率数据的均值和方差,并且...
【专利技术属性】
技术研发人员:曹效伦,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。