一种异常数据处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:33286723 阅读:42 留言:0更新日期:2022-04-30 23:55
本公开提供了一种异常数据处理方法、装置、设备以及存储介质,涉及数据处理技术领域,尤其涉及大数据、信息流和人工智能技术领域。具体实现方案为:获取至少两个交互平台的待识别搜索信息,以及所述待识别搜索信息在所述至少两个交互平台中关联的访问行为,其中,所述待识别搜索信息包括搜索词信息和/或所述搜索词信息触发的网址信息;根据所述访问行为,确定所述待识别搜索信息的目标访问特征;根据所述目标访问特征,识别所述待识别搜索信息中的异常数据。能够提高异常数据识别的精准性,为精准识别出交互平台中的异常数据提供了新的解决方案。解决方案。解决方案。

【技术实现步骤摘要】
一种异常数据处理方法、装置、设备以及存储介质


[0001]本公开涉及数据处理
,尤其涉及大数据、信息流和人工智能
,具体涉及一种异常数据处理方法、装置、设备以及存储介质。

技术介绍

[0002]随着互联网技术的快速发展,越来越多的互联网交互平台顺势而生。然而一些不法分子将互联网交互平台作为其异常数据的曝光平台,严重影响交互平台的正常运营。因此,如何精准识别出交互平台中的异常数据至关重要。

技术实现思路

[0003]本公开提供了一种异常数据处理方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种异常数据处理方法,包括:
[0005]获取至少两个交互平台的待识别搜索信息,以及所述待识别搜索信息在所述至少两个交互平台中关联的访问行为,其中,所述待识别搜索信息包括搜索词信息和/或所述搜索词信息触发的网址信息;
[0006]根据所述访问行为,确定所述待识别搜索信息的目标访问特征;
[0007]根据所述目标访问特征,识别所述待识别搜索信息中的异常数据。
[0008]根据本公开的另一方面,提供了一种电子设备,该电子设备包括:
[0009]至少一个处理器;以及
[0010]与至少一个处理器通信连接的存储器;其中,
[0011]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例的异常数据处理方法。
[0012]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例的异常数据处理方法。
[0013]本公开实施例的方案,能够从搜索信息的整个访问流程出发,来识别其中的异常数据,提高了异常数据识别的精准性,为精准识别出交互平台中的异常数据提供了新的解决方案。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0016]图1是根据本公开实施例提供的一种异常数据处理方法的流程图;
[0017]图2是根据本公开实施例提供的一种异常数据处理方法的流程图;
[0018]图3是根据本公开实施例提供的一种异常数据处理方法的流程图;
[0019]图4是根据本公开实施例提供的一种异常数据处理方法的流程图;
[0020]图5是根据本公开实施例提供的一种异常数据处理方法的流程图;
[0021]图6是根据本公开实施例提供的一种异常数据处理方法的流程图;
[0022]图7是根据本公开实施例提供的一种异常数据处理的系统架构图;
[0023]图8是根据本公开实施例提供的一种异常数据处理装置的结构示意图;
[0024]图9是用来实现本公开实施例的一种异常数据处理方法的电子设备的框图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]图1是根据本公开实施例提供的一种异常数据处理方法的流程图。本公开实施例适用于识别异常数据的情况。尤其适用于为企业端(Business,B端)用户提供异常数据识别的情况。例如,可以是对多个B端交互平台的海量搜索信息进行解析,识别其中的异常数据。该方法可以由异常数据处理装置来执行,该装置可以采用软件和/或硬件的方式实现。具体可以集成于电子设备中。例如,该电子设备可以是为多个B端交互平台提供数据分析服务的计算设备。如图1所示,本实施例提供的异常数据处理方法可以包括:
[0027]S101,获取至少两个交互平台的待识别搜索信息,以及待识别搜索信息在至少两个交互平台中关联的访问行为。
[0028]其中,所谓交互平台为能够与用户进行交互,向用户提供搜索服务的平台,该交互平台优选为B端交互平台。例如,可以是B端提供搜索服务的网站。
[0029]所谓待识别搜索信息为需要进行异常数据识别的搜索信息,该搜索信息可以是交互平台为用户提供搜索服务的过程中所产生的数据信息,具体可以包括搜索词信息和/或搜索词信息触发的网址信息。其中,搜索词信息可以是用户在交互平台的搜索引擎中输入的搜索词的相关信息。例如,可以是搜索词本身,也可以是对搜索词解析得到的信息。网址信息可以是搜索词信息在交互平台上触发的访问页面网址(即访问网址)的相关信息,即交互平台响应于用户输入的搜索词信息,所反馈的访问网址的相关信息。例如,可以是访问网址本身,也可以是对访问网址解析得到的信息。需要说明的是,本实施例中待识别搜索信息的数量优选为多个。
[0030]所谓搜索信息在交互平台中关联的访问行为可以是该搜索信息开始访问交互平台到访问完成的整个访问过程所产生的行为。可以包括但不限于:搜索信息已访问的交互平台、在交互平台访问的具体页面,以及其所访问页面的页面浏览量等。
[0031]可选的,在本实施例中,为多个交互平台提供数据分析服务的计算设备可以与各个交互平台交互,来获取各个交互平台的待识别搜索信息。具体的,一种可实施方式为:计算设备可以实时监控各交互平台的运营情况,从而获取各交互平台所产生的线上搜索词,和/或该线上搜索词所触发的页面网址,并根据一段时间内(如一天内)获取的线上搜索词和/或页面网址,生成一组待识别搜索信息。
[0032]另一种可实施方式为:计算设备可以每隔预设周期(如一天),向各交互平台发送一次数据获取请求,并接收各交互平台响应该数据获取请求所反馈的该预设周期内所产生
的所有线上搜索词,和/或该线上搜索词所触发的访问网址,并根据接收的所有线上搜索词和/或访问网址,生成一组待识别搜索信息。
[0033]其中,根据获取的线上搜索词和/或访问网址,生成一组待识别搜索信息时,可以直接将获取的线上搜索词和/或访问网址作为一组待识别搜索信息;还可以是对线上搜索词和/或访问网址进行信息解析,并将解析结果作为待识别搜索信息;还可以是将线上搜索词及其解析结果,和/或访问网址及其解析结果一并作为待识别搜索信息等。对此本实施例不进行限定。
[0034]可选的,该计算设备获取待识别搜索信息的同时,还需要进一步获取待识别搜索信息在各个交互平台中关联的访问行为。具体的获取方式可以与获取待识别搜索信息的方式类似,例如,一种可实施方式为:计算设备实时监控各交互平台的运营情况,从而获取每个待识别搜索信息在各交互平台中关联的访问行为。另一种可实施方式为:各交互平台响应数据获取请求反馈线上搜索词,和/或该线上搜索词所触发的访问网址的同时,一并反馈该线上搜索词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据处理方法,包括:获取至少两个交互平台的待识别搜索信息,以及所述待识别搜索信息在所述至少两个交互平台中关联的访问行为,其中,所述待识别搜索信息包括搜索词信息和/或所述搜索词信息触发的网址信息;根据所述访问行为,确定所述待识别搜索信息的目标访问特征;根据所述目标访问特征,识别所述待识别搜索信息中的异常数据。2.根据权利要求1所述的方法,其中,所述根据所述访问行为,确定所述待识别搜索信息的目标访问特征,包括:根据所述访问行为,确定所述待识别搜索信息关联的交互平台,以及所述待识别搜索信息在关联的交互平台的页面浏览量;根据所述待识别搜索信息关联的交互平台,以及所述待识别搜索信息在关联的交互平台的页面浏览量,确定所述待识别搜索信息的目标访问特征。3.根据权利要求1或2所述的方法,其中,所述根据所述访问行为,确定所述待识别搜索信息的目标访问特征,包括:根据所述访问行为,确定各交互平台关联的待识别搜索信息,以及各交互平台关联的待识别搜索信息对应的页面浏览量;根据各交互平台关联的待识别搜索信息,以及各交互平台关联的待识别搜索信息对应的页面浏览量,确定所述待识别搜索信息的目标访问特征。4.根据权利要求1

3中任一项所述的方法,还包括:根据所述待识别搜索信息的信息内容,确定所述待识别搜索信息的演变特征,并将所述演变特征添加到所述待识别搜索信息的目标访问特征中。5.根据权利要求1

4中任一项所述的方法,其中,所述根据所述目标访问特征,识别所述待识别搜索信息中的异常数据,包括:通过异常数据识别模型,根据所述目标访问特征,识别所述待识别搜索信息中的异常数据;和/或,根据所述目标访问特征和特征阈值,识别所述待识别搜索信息中的异常数据。6.根据权利要求5所述的方法,还包括:获取样本搜索信息,并确定所述样本搜索信息关联的监督标签信息;基于所述样本搜索信息和所述监督标签信息,对所述异常数据识别模型进行有监督训练。7.根据权利要求6所述的方法,其中,所述确定所述样本搜索信息关联的监督标签信息,包括:根据所述至少两个交互平台对所述样本搜索信息的反馈信息,确定初始标签信息;根据所述样本搜索信息的信息内容和所述初始标签信息的信息内容之间的相似度,更新所述初始标签信息;根据所述样本搜索信息的样本访问特征和更新后的初始标签信息的样本访问特征之间的相似度,确定所述样本搜索信息关联的监督标签信息。8.根据权利要求1所述的方法,其中,所述获取至少两个交互平台的待识别搜索信息,包括:
获取至少两个交互平台的搜索词和所述搜索词触发的访问网址;从所述搜索词中提取异常触发词,并将所述搜索词和所述异常触发词作为待识别搜索信息的搜索词信息;从所述访问网址中提取子网址,并将所述访问网址和所述子网址作为所述待识别搜索信息的网址信息。9.根据权利要求1所述的方法,还包括:若检测到黑名单更新事件,则根据线上黑名单和所述异常数据的共现情况,更新所述线上黑名单。10.根据权利要求9所述的方法,其中,检测到黑名单更新事件,包括:检测到所述异常数据的目标访问特征达到预设要求;或者,检测到当前时刻达到所述黑名单更新周期。11.根据权利要求9所述的方法,还包括:基于所述线上黑名单,对所述至少两个交互平台的线上搜索信息进行异常数据监控。12.一种异常数据处理装置,包括:信息获取模块,用于获取至少两个交互平台的待识别搜索信息,以及所述待识别搜索信息在所述至少两个交互平台中关联的访问行为,其中,所述待识别搜索信息包括搜索词信息和/或所述搜索词信息触发的网址信息;访问特征确定模块,用于根据所述访问行为,确定所述待识别搜索信息的目标访问特征;异常数据识别模块,用于根据所述目标访问特征,识别所述待识别搜索信...

【专利技术属性】
技术研发人员:李玉婷王晓元
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1