【技术实现步骤摘要】
一种异常数据处理方法、装置、设备以及存储介质
[0001]本公开涉及数据处理
,尤其涉及大数据、信息流和人工智能
,具体涉及一种异常数据处理方法、装置、设备以及存储介质。
技术介绍
[0002]随着互联网技术的快速发展,越来越多的互联网交互平台顺势而生。然而一些不法分子将互联网交互平台作为其异常数据的曝光平台,严重影响交互平台的正常运营。因此,如何精准识别出交互平台中的异常数据至关重要。
技术实现思路
[0003]本公开提供了一种异常数据处理方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种异常数据处理方法,包括:
[0005]获取至少两个交互平台的待识别搜索信息,以及所述待识别搜索信息在所述至少两个交互平台中关联的访问行为,其中,所述待识别搜索信息包括搜索词信息和/或所述搜索词信息触发的网址信息;
[0006]根据所述访问行为,确定所述待识别搜索信息的目标访问特征;
[0007]根据所述目标访问特征,识别所述待识别搜索信息中的异常数据。
[0008]根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
[0009]至少一个处理器;以及
[0010]与至少一个处理器通信连接的存储器;其中,
[0011]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例的异常数据处理方法。
[0012]根据本公开的另一方面,提供了一种存储有计算机指 ...
【技术保护点】
【技术特征摘要】
1.一种异常数据处理方法,包括:获取至少两个交互平台的待识别搜索信息,以及所述待识别搜索信息在所述至少两个交互平台中关联的访问行为,其中,所述待识别搜索信息包括搜索词信息和/或所述搜索词信息触发的网址信息;根据所述访问行为,确定所述待识别搜索信息的目标访问特征;根据所述目标访问特征,识别所述待识别搜索信息中的异常数据。2.根据权利要求1所述的方法,其中,所述根据所述访问行为,确定所述待识别搜索信息的目标访问特征,包括:根据所述访问行为,确定所述待识别搜索信息关联的交互平台,以及所述待识别搜索信息在关联的交互平台的页面浏览量;根据所述待识别搜索信息关联的交互平台,以及所述待识别搜索信息在关联的交互平台的页面浏览量,确定所述待识别搜索信息的目标访问特征。3.根据权利要求1或2所述的方法,其中,所述根据所述访问行为,确定所述待识别搜索信息的目标访问特征,包括:根据所述访问行为,确定各交互平台关联的待识别搜索信息,以及各交互平台关联的待识别搜索信息对应的页面浏览量;根据各交互平台关联的待识别搜索信息,以及各交互平台关联的待识别搜索信息对应的页面浏览量,确定所述待识别搜索信息的目标访问特征。4.根据权利要求1
‑
3中任一项所述的方法,还包括:根据所述待识别搜索信息的信息内容,确定所述待识别搜索信息的演变特征,并将所述演变特征添加到所述待识别搜索信息的目标访问特征中。5.根据权利要求1
‑
4中任一项所述的方法,其中,所述根据所述目标访问特征,识别所述待识别搜索信息中的异常数据,包括:通过异常数据识别模型,根据所述目标访问特征,识别所述待识别搜索信息中的异常数据;和/或,根据所述目标访问特征和特征阈值,识别所述待识别搜索信息中的异常数据。6.根据权利要求5所述的方法,还包括:获取样本搜索信息,并确定所述样本搜索信息关联的监督标签信息;基于所述样本搜索信息和所述监督标签信息,对所述异常数据识别模型进行有监督训练。7.根据权利要求6所述的方法,其中,所述确定所述样本搜索信息关联的监督标签信息,包括:根据所述至少两个交互平台对所述样本搜索信息的反馈信息,确定初始标签信息;根据所述样本搜索信息的信息内容和所述初始标签信息的信息内容之间的相似度,更新所述初始标签信息;根据所述样本搜索信息的样本访问特征和更新后的初始标签信息的样本访问特征之间的相似度,确定所述样本搜索信息关联的监督标签信息。8.根据权利要求1所述的方法,其中,所述获取至少两个交互平台的待识别搜索信息,包括:
获取至少两个交互平台的搜索词和所述搜索词触发的访问网址;从所述搜索词中提取异常触发词,并将所述搜索词和所述异常触发词作为待识别搜索信息的搜索词信息;从所述访问网址中提取子网址,并将所述访问网址和所述子网址作为所述待识别搜索信息的网址信息。9.根据权利要求1所述的方法,还包括:若检测到黑名单更新事件,则根据线上黑名单和所述异常数据的共现情况,更新所述线上黑名单。10.根据权利要求9所述的方法,其中,检测到黑名单更新事件,包括:检测到所述异常数据的目标访问特征达到预设要求;或者,检测到当前时刻达到所述黑名单更新周期。11.根据权利要求9所述的方法,还包括:基于所述线上黑名单,对所述至少两个交互平台的线上搜索信息进行异常数据监控。12.一种异常数据处理装置,包括:信息获取模块,用于获取至少两个交互平台的待识别搜索信息,以及所述待识别搜索信息在所述至少两个交互平台中关联的访问行为,其中,所述待识别搜索信息包括搜索词信息和/或所述搜索词信息触发的网址信息;访问特征确定模块,用于根据所述访问行为,确定所述待识别搜索信息的目标访问特征;异常数据识别模块,用于根据所述目标访问特征,识别所述待识别搜索信...
【专利技术属性】
技术研发人员:李玉婷,王晓元,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。