【技术实现步骤摘要】
本专利技术涉及信息处理
,尤其涉及一种短信行为的大数据采集与分析方法及系统。
技术介绍
短信作为一种快捷、经济、有效的通信方式得到了广泛的应用,然而垃圾短信的不断泛滥也造成了用户的很大困扰。研制智能短信过滤的技术方案,为手机用户建立起一个可靠、准确、高效的短信管制过滤平台具有重要的社会价值。目前短信过滤的方式一般分为两种,从技术上分,一种是基于关键词,只要短信中包括的敏感词汇超过一定的数目就被认定为垃圾信息;另一种是基于短信内容的过滤采用机器学习方法把短信自动分为正常短信和垃圾短信,目前用于短信自动分类的机器学习方法主要有朴素贝叶斯、SVM、KNN、人工神经网络算法等。如申请号为:201010618534.2的中国专利所公开的一种垃圾短信监控与处理的系统、系统及方法,该垃圾短信监控与处理的方法,设置基本关键词规则、关键词衍生序列及垃圾短信疑似度,该方法包括接收短信,采用所设置的基本关键词规则对短信内容进行匹配,确定是否匹配成功,如果是,将该短信作 ...
【技术保护点】
一种短信行为的大数据采集与分析方法,其特征在于:包括以下步骤:步骤1:集合所有短信的数据信息;步骤2:统计所有短信的行为特征并输出;步骤3:根据步骤2的输出结果判断出最优短信过滤结果;步骤4:根据步骤3的判断结果进行短信过滤。
【技术特征摘要】
1.一种短信行为的大数据采集与分析方法,其特征在于:包括以下步骤:步骤1:
集合所有短信的数据信息;步骤2:统计所有短信的行为特征并输出;步骤3:
根据步骤2的输出结果判断出最优短信过滤结果;步骤4:根据步骤3的判断结
果进行短信过滤。
2.根据权利要求1所述的一种短信行为的大数据采集与分析方法,其特征在于:
所述步骤1基于大数据平台实现,具体步骤如下:
步骤11:将操作数据进行实时记录,并将操作数据存储至本地存储器中;
步骤12:读取本地存储器中的操作数据,并对操作数据进行预处理;
步骤13:将预处理数据定时定量的远程发送至远程存储器中;
步骤14:读取远程存储器中的预处理数据,并按照短信的发送者和接收者对
预处理数据进行分类处理,再将分类处理获得的分类数据存储至面向大数据的数
据库;
步骤15:按照分类有序读取数据库中的分类数据。
3.根据权利要求2所述的一种短信行为的大数据采集与分析方法,其特征在于:
所述步骤12中的预处理包括剔除无效数据和整合重复数据。
4.根据权利要求1所述的一种短信行为的大数据采集与分析方法,其特征在于:
所述步骤2中短信行为特征为对应的短信接收者的数量。
5.根据权利要求4所述的一种短信行为的大数据采集与分析方法,其特征在于:
所述步骤2:短信行为特征的提取基于Hadoop平台和MapReduce函数完成,具体
步骤如下:
步骤21:从采集到的数据中将短信的发送者和接收者列表提取作为输入;
步骤22:通过Map函数并行的将短信的发送者和接收者记录转换成发送者
和每个接收者一对一的发送关系;
步骤23:通过Reduce函数计算每个发送者对应的短信接收者的个数;
步骤24:输出每个发送者对应的短信接收者的个数。
6.根...
【专利技术属性】
技术研发人员:陈磊,吴长福,张如兵,高宏翔,方俊湘,
申请(专利权)人:深圳市深讯数据科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。