【技术实现步骤摘要】
点击数据去噪方法、装置、电子设备及存储介质
[0001]本公开涉及人工智能
,尤其涉及大数据及云服务
技术介绍
[0002]目前对点击数据进行去噪的方法是在应用中进行埋点,记录用户查看一个内容的时长,再考虑内容看完的预期时长,基于用户实际时长和预期时长的比例,过滤掉噪声行为,需要预先对应用进行埋点,需要大量的人力成本和开发成本,且去噪后的数据中还是会存在一定噪声,对点击数据的去噪效果不够显著。
技术实现思路
[0003]本公开提供了一种点击数据去噪方法、装置、电子设备及存储介质。
[0004]根据本公开的一方面,提供了一种点击数据去噪方法,包括:
[0005]获取点击数据集,所述点击数据集中包含至少两个第一点击数据和各个第一点击数据一一对应的真实标签;
[0006]利用图模型提取出各个第一点击数据的特征向量;
[0007]将多个特征向量划分为至少两个特征向量集;
[0008]利用所述至少两个特征向量集对至少两个二分类模型进行训练,得到至少两个训练后的二分 ...
【技术保护点】
【技术特征摘要】
1.一种点击数据去噪方法,包括:获取点击数据集,所述点击数据集中包含至少两个第一点击数据和各个第一点击数据一一对应的真实标签;利用图模型提取出各个第一点击数据的特征向量;将多个特征向量划分为至少两个特征向量集;利用所述至少两个特征向量集对至少两个二分类模型进行训练,得到至少两个训练后的二分类模型;利用所述至少两个训练后的二分类模型对每个特征向量进行预测,得到与各个特征向量对应的至少两个预测值;根据每个特征向量对应的至少两个预测值计算出各个特征向量的预测标签;根据所述至少两个第一点击数据和各个第一点击数据的真实标签与预测标签去除所述至少两个第一点击数据中的噪声数据。2.根据权利要求1所述的方法,所述获取点击数据集,包括:获取与各个第一点击数据关联的用户标识和推荐内容标识;根据每个第一点击数据关联的用户标识和推荐内容标识获取与各个第一点击数据关联的用户数据和内容数据。3.根据权利要求1所述的方法,所述利用图模型提取出各个第一点击数据的特征向量之前,还包括:采集点击数据训练集;利用所述点击数据训练集对图模型进行训练。4.根据权利要求1所述的方法,所述根据所述至少两个第一点击数据和各个第一点击数据的真实标签与预测标签去除所述至少两个第一点击数据中的噪声数据,包括:根据所述至少两个第一点击数据的真实标签对所述至少两个第一点击数据进行筛选,得到至少两个第二点击数据;根据所述至少两个第二点击数据的预测标签去除所述至少两个第二点击数据中的噪声数据。5.根据权利要求4所述的方法,所述根据所述至少两个第一点击数据的真实标签对所述至少两个第一点击数据进行筛选,包括:响应于第一点击数据对应的真实标签为用户点击了推荐内容;将该第一点击数据确定为第二点击数据。6.根据权利要求1所述的方法,所述利用所述至少两个特征向量集对至少两个二分类模型进行训练,包括:分至少两次每次取所述至少两个特征向量集中不同的1个特征向量集作为验证数据集,其他特征向量集作为训练数据集对至少两个二分类模型中不同的1个二分类模型进行训练,得到至少两个训练后的二分类模型。7.一种点击数据去噪装置,包括:采集模块,用于获取点击数据集,所述点击数据集中包含至少两个第一点击数据和各个第一点击数据一一对应的真实标签;提取模块,用于利用图模型提取出各个第一点击数据的特征向量;
处理模块,用于将多个特征向量划...
【专利技术属性】
技术研发人员:徐伟,夏晓玲,蒋俊翔,曹丞泰,何伯磊,陈坤斌,和为,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。