【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种数据处理方法和装置。
技术介绍
目前,在数据处理中,逻辑回归模型(LogisticRegression,简称为LR)已广泛应用于广告点击率预估。然而,作为一种线性模型,逻辑回归模型的局限性在于难以学习到原始特征以及特征组合中的非线性信息。此外,逻辑回归模型的权重由一维向量表达,需要人工构造高阶特征组合,不具有自动学习空间高维特征组合的能力,这样数据处理的模型极大地依赖于人为参与的特征工程(FeatureEngineering)。相关技术中存在构造深度神经网络的点击率预估方法,比如,构造深度神经网络的广告点击率预估,可以从原始特征中学习非线性信息。一方面,在传统的机器学习框架下,学习的任务就是在给定充分训练数据的基础上来学习一个点击率预估模型,然后利用这个学习到的模型来在线实时预测用户对广告的点击行为;另一方面,互联网在线投放的数据环境本身是快速变化的,首先,用户群是快速变化的,也即,新用户不断加入且用户会不断产生新的行为和新的兴趣点;其次,新数据不断出现,同时旧数据也会不断下架。因此数据处理的模型更 ...
【技术保护点】
一种数据处理方法,其特征在于,包括:在预设场景下,获取输入至神经网络的第一待处理数据,其中,所述神经网络为待更新的模型;通过所述第一待处理数据中位于第一时间窗口内的第一目标数据对所述神经网络进行第一预设次数的迭代训练,得到所述神经网络的种子模型,其中,所述种子模型为所述神经网络的初始化模型;获取在所述第一时间窗口对应的时间之后产生的第一新增数据,并将所述第一新增数据和所述第一待处理数据合并为第二待处理数据;通过所述第二待处理数据中位于第二时间窗口内的第二目标数据对所述种子模型进行第二预设次数的迭代训练,得到所述神经网络的第一增量模型,其中,所述第二时间窗口与所述第一时间窗口 ...
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:在预设场景下,获取输入至神经网络的第一待处理数据,其中,所述神经网络为待更新的模型;通过所述第一待处理数据中位于第一时间窗口内的第一目标数据对所述神经网络进行第一预设次数的迭代训练,得到所述神经网络的种子模型,其中,所述种子模型为所述神经网络的初始化模型;获取在所述第一时间窗口对应的时间之后产生的第一新增数据,并将所述第一新增数据和所述第一待处理数据合并为第二待处理数据;通过所述第二待处理数据中位于第二时间窗口内的第二目标数据对所述种子模型进行第二预设次数的迭代训练,得到所述神经网络的第一增量模型,其中,所述第二时间窗口与所述第一时间窗口具有第一预设重叠区域,所述第二预设次数小于等于所述第一预设次数;将所述第一增量模型进行线上发布。2.根据权利要求1所述的方法,其特征在于,在将所述第一增量模型进行线上发布之后,所述方法还包括:根据第一当前时间和所述第二时间窗口确定第三时间窗口,其中,所述第三时间窗口与所述第二时间窗口具有第二预设重叠区域;获取在所述第二时间窗口对应的时间之后产生的第二新增数据,并将所述第二新增数据和所述第二待处理数据合并为第三待处理数据;通过所述第三待处理数据中位于所述第三时间窗口内的第三目标数据对所述第一增量模型进行第三预设次数的迭代训练,得到所述神经网络的第二增量模型,其中,所述第三预设次数小于等于所述第一预设次数;将所述第二增量模型进行线上发布。3.根据权利要求2所述的方法,其特征在于,根据所述第一当前时间和所述第二时间窗口确定所述第三时间窗口包括:判断是否有用于推送新模型的指示信息,其中,所述新模型包括所述第二增量模型;如果判断出有所述指示信息,将所述第一当前时间确定为所述第三时间窗口的右边界,滑动所述第二时间窗口至所述第三时间窗口的右边界,并将所述第三时间窗口的右边界向前推移所述第三时间窗口的长度,得到所述第三时间窗口的左边界,根据所述第三时间窗口的右边界和所述第三时间窗口的左边界确定所述第三时间窗口。4.根据权利要求1所述的方法,其特征在于,在将所述第一增量模型进行线上发布之后,所述方法还包括:按照预设周期判断所述第一增量模型中是否存在失效数据,其中,所述失效数据为停止推送的第一待处理数据;如果按照所述预设周期判断出所述第一增量模型中存在所述失效数据,从所述第一增量模型中清除所述失效数据,得到更新增量模型;将所述更新增量模型进行线上发布。5.根据权利要求4所述的方法,其特征在于,从所述第一增量模型中清除所述失效数据,得到所述更新增量模型包括:将所述第二时间窗口扩大预设倍数,得到第四时间窗口;获取所述第一增量模型中不在所述第四时间窗口内的第二待处理数据,其中,将所述第一增量模型中不在所述第四时间窗口内的第二待处理数据作为所述失效数据;从所述第一增量模型中清除所述失效数据,得到所述更新增量模型。6.根据权利要求5所述的方法,其特征在于,在推送所述更新增量模型上线之后,所述方法还包括:根据第二当前时间和第四时间窗口确定第五时间窗口,其中,所述第五时间窗口与所述第四时间窗口具有第三预设重叠区域;获取在所述第四时间窗口对应的时间之后产生的第三新增数据,并将所述第三新增数据和所述第二待处理数据合并为第四待处理数据;通过所述第四待处理数据中位于所述第五时间窗口内的第四目标数据对所述更新增量模型进行第四预设次数的迭代训练,得到所述神经网络的第三增量模型,其中,所述第四预设次数小于等于所述第一预设次数;将所述第三增量模型进行线上发布。7.根据权利要求1所述的方法,其特征在于,在通过所述第二时间窗口内的第一待处理数据对所述种子模型进行第二预设次数的迭代训练,得到所述神经网络的第一增量模型之后,所述方法还包括:通过所述第一增量模型对历史数据进行拟合,得到拟合结果,其中,所述历史数据为处理过的待处理数据;通过所述第一增量模型携带所述拟合结果。8.根据权利要求1所述的方法,其特征在于,通过所述第一待处理数据中位于第一时间窗口内的第一目标数据对所...
【专利技术属性】
技术研发人员:李毅,金涬,张书彬,郭志懋,薛伟,
申请(专利权)人:腾讯科技北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。