骚扰数据批量处理方法及装置制造方法及图纸

技术编号:18501429 阅读:24 留言:0更新日期:2018-07-21 22:40
本发明专利技术公开了一种骚扰数据批量处理方法,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,针对不同数据源批量数据(垃圾短信和电话)录入系统时,通过将相同数据标识(例如电话号码的key)的数据由同一个进程来处理,由此保证高并发性并且保证数据一致性。

Method and device for batch processing of harassment data

The present invention discloses a method for batch processing of harassing data for batch processing of multiple data initially labeled as a harassment phone or spam message, and for the same process by using the same data identification (such as the key of the telephone number) by the same data, for batch data (spam message and telephone) for different data sources. To deal with it, it ensures high concurrency and ensures data consistency.

【技术实现步骤摘要】
骚扰数据批量处理方法及装置
本专利技术涉及通信
,具体涉及一种骚扰数据批量处理方法及装置。
技术介绍
随着通信技术的发展,手机等通信终端变得越来越普及,对人们的学习工作生活等方面都产生不可忽略的影响。然而,一些不法分子正是利用手机的普及牟取私利。目前,存在很多利用自动机器或通过人工恶意拨打电话、发送骚扰短信,给用户生活带来诸多骚扰,甚至带来财产等方面的损失。目前手机等终端上可安装防骚扰电话或短信的安全软件,当有骚扰电话接入时客对用户进行“该号码可能是骚扰电话”等提醒。当用户发现某个号码可能是骚扰电话时,也可举报该号码。在安全软件的后台服务器侧,每时每刻会收到不同数据源(不同运营方、第三方平台等)提交的批量数据处理请求,请求对疑似骚扰号码的数据进行识别。如何在后台服务器对不同数据源提交的批量数据进行有效录入及分析,是本领域技术人员需要解决的一个技术问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的骚扰数据批量处理方法及装置。依据本专利技术的一个方面,提供一种骚扰数据批量处理方法,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:从不同数据源接收到多个数据处理请求;根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。在一种可选方式中,所述设置不同的数据传输队列分别对各个数据标识对应的各批数据进行处理,包括:将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;其中,各个数据处理进程并行运行。在一种可选方式中,还包括:对所述数据传输队列进行流量监控;当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。在一种可选方式中,还包括:为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。在一种可选方式中,还包括:获取所述数据处理进程或备份进程处理后的数据;将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统对数据进行线下分析。在一种可选方式中,所述计算出各个待处理的数据的数据标识包括:解析所述数据得到骚扰电话或垃圾短信所属的电话号码;根据所属的电话号码进行关键字计算,得到所述数据标识。在一种可选方式中,所述根据所述多个数据处理请求,获取到多个待处理的数据,包括:由多个分发器从不同数据源获取到所述多个待处理的数据;其中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中。在一种可选方式中,所述将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中,包括:对各个数据的各个数据标识进行归一化操作;将数据标识归一化操作结果进行冗余校验;按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。在一种可选方式中,还包括:根据不同数据源的优先级,控制所述分发器优先获取优先级高的数据源的数据。依据本专利技术的另一个方面,提供一种骚扰数据批量处理装置,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:请求接收单元,用于从不同数据源接收到多个数据处理请求;数据获取单元,用于根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;数据处理单元,用于按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。在一种可选方式中,所述数据处理单元具体用于:将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;其中,各个数据处理进程并行运行。在一种可选方式中,还包括:流量监控单元,用于对所述数据传输队列进行流量监控;告警单元,用于当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。在一种可选方式中,还包括:备份进程设置单元,用于为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。在一种可选方式中,还包括:数据分析单元,用于获取所述数据处理进程或备份进程处理后的数据;将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统对数据进行线下分析。在一种可选方式中,所述数据获取单元具体用于:解析所述数据得到骚扰电话或垃圾短信所属的电话号码;根据所属的电话号码进行关键字计算,得到所述数据标识。在一种可选方式中,所述数据获取单元具体用于:由多个分发器从不同数据源获取到所述多个待处理的数据;其中,将不同数据源提交的多个数据,按照数据平均分配策略均匀分配到各个分发器中。在一种可选方式中,所述数据获取单元具体用于:对各个数据的各个数据标识进行归一化操作;将数据标识归一化操作结果进行冗余校验;按照冗余校验结果将数据分配到分发器中,其中,不同分发器对应不同冗余校验结果对应的数据。在一种可选方式中,还包括:数据获取控制单元,用于根据不同数据源的优先级,控制所述分发器优先获取优先级高的数据源的数据。可见,本专利技术实施例提供的骚扰数据批量处理方法,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,针对不同数据源批量数据(垃圾短信和电话)录入系统时,通过将相同数据标识(例如电话号码的key)的数据由同一个进程来处理,由此保证高并发性并且保证数据一致性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的骚扰数据批量处理方法流程图;图2示出了根据本专利技术一个实施例的骚扰数据批量处理方法实例场景示意图;以及,图3示出了根据本专利技术一个实施例的骚扰数据批量处理装置结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。如前所述,在安全软件的后台服务器侧,每时每刻会收到不同数据源(不同运营方、第三方平台等)提交的批量数据处理请求,请求对疑似骚扰号码的数据进行识别。在后台服务器需要对不同数据源提交的本文档来自技高网...

【技术保护点】
1.一种骚扰数据批量处理方法,其特征在于,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:从不同数据源接收到多个数据处理请求;根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。

【技术特征摘要】
1.一种骚扰数据批量处理方法,其特征在于,用于对初步标记为骚扰电话或垃圾短信的多个数据进行批量处理,包括:从不同数据源接收到多个数据处理请求;根据所述多个数据处理请求,获取到多个待处理的数据,并计算出各个待处理的数据的数据标识;按照数据标识将数据划分为多批数据,设置不同的数据处理进程分别对各个数据标识对应的各批数据进行处理。2.根据权利要求1所述的方法,其特征在于,所述设置不同的数据传输队列分别对各个数据标识对应的各批数据进行处理,包括:将具有相同数据标识的数据依次存入同一个数据传输队列中,将具有不同数据标识的数据存入不同的数据传输队列中;为各个数据传输队列设置对应的数据处理进程,用于处理对应的数据传输队列中的数据;其中,各个数据处理进程并行运行。3.根据权利要求2所述的方法,其特征在于,还包括:对所述数据传输队列进行流量监控;当所述数据传输队列中的数据量超过最大数据阈值或者数据出入队列速度低于最低速度阈值时,生成告警信息。4.根据权利要求2所述的方法,其特征在于,还包括:为各个数据处理进程设置备份进程,当所述数据处理进程处理失败时,启动所述备份进程对数据进行处理。5.根据权利要求4所述的方法,其特征在于,还包括:获取所述数据处理进程或备份进程处理后的数据;将所述处理后的数据以压缩二进制形式存入第一分析系统,由所述第一分析系统对数据进行线上分析;和/或,将所述处理后的数据以明文形式存入第二分析系统,由所述第二分析系统...

【专利技术属性】
技术研发人员:韦祎张歆明闫绍华李振博
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1