基于快递大数据的异常检测方法技术

技术编号:21142116 阅读:80 留言:0更新日期:2019-05-18 05:27
本发明专利技术涉及一种基于快递大数据的异常检测方法,该方法以用户快递数据为基础,根据专家经验从统计、时间和地理三方面特征分析用户的历史寄递行为,发现正常用户与嫌疑用户之间的行为差异,将无监督异常检测方法和有监督分类算法巧妙地结合,进而用于嫌疑人的识别。本发明专利技术首先采用无监督异常检测方法剔除正常用户,能够缩小正负类数据不平衡问题,但仍存在较高的误检率,进一步使用有监督分类方法对异常用户进行识别,能够有效地降低误检率。

【技术实现步骤摘要】
基于快递大数据的异常检测方法
本专利技术利用用户历史快递数据解析公共安全问题,涉及到统计学的各种分析方法及数据挖掘的主要任务之一—异常检测。具体地说,以用户的历史快递数据为基础,针对用快递方式实施犯罪的某一类犯罪行为,从统计、时间和地理三方面特征进行了详细的分析,进而采用异常检测方法识别嫌疑人。
技术介绍
近年来,随着网络购物的逐渐兴起,越来越多的人通过快递进行物品的邮递,它是推动流通方式转型和消费升级的重要产物。但是在给社会公众带来巨大便捷的同时,也伴随着难以控制的流动性风险,给公共安全带来严峻的挑战。例如,偷窃的赃物通过快递方式进行销赃,利用快递方式运输毒品、爆炸物等危险物品。目前,在公共安全领域利用快递数据分析用户行为特征的研究并没有开展,还停留在个案的简单分析阶段。往往是在案发后,根据案情的实际需要进行邮件检查,进而发现犯罪嫌疑人。通过分析历史快递记录中用户的寄递行为规律,不难发现嫌疑人与正常用户之间存在着明显的差异,举例来说,嫌疑人寄件时间主要集中在晚上20:00左右,而正常用户则选择在18:00左右;利用现有的技术和方法,对快递数据进行分析挖掘,得出用户行为特征的分析结果,进而对犯罪嫌疑人进行识别检测,这样可以更好地为侦察办案和情报信息工作服务,使得预防犯罪成为可能。专利CN200910027374.1公开了一种基于改进CURE聚类算法的无监督异常检测方法和系统。该检测方法包括步骤:对训练集进行聚类,将异常行为数据与正常行为数据分类;对已经分类的数据进行标记;根据标记为正常行为的数据进行建模,其建模算法为基于超矩形的建模算法;将待检测数据与正常行为模型进行对比,判断是否为异常数据。专利CN201410810860.1公开了一种网络异常检测方法,包括:第一步骤,用于根据待检测网络来确定将被聚类的MIB数据的属性,生成属性向量X;第二步骤,用于对预定时间内的MIB数据进行采样;第三步骤,用于对采集到的MIB数据执行聚类分析处理;第四步骤,用于对聚类分析处理结果执行进行孤立点检测。在第四步骤中,将聚类分析处理结果中成员数目小于指定阈值的聚类判断为孤立事件,而且判断孤立事件所对应的时间内发生了网络异常。这些专利的不足之处就是忽略了正负类数据的不平衡问题,并且存在较高的误检率。只有缩小负类的数量,在实施分类算法时才不会导致结果偏向占比较大的负类,实验结果的准确性才会提高。
技术实现思路
要解决的技术问题为了避免现有技术的不足之处,本专利技术提出一种基于快递大数据的异常检测方法,首先采用无监督异常检测方法剔除正常用户,能够缩小正负类数据不平衡问题,但仍存在较高的误检率,进一步使用有监督分类方法对异常用户进行识别,能够有效地降低误检率。技术方案一种基于快递大数据的异常检测方法,其特征在于步骤如下:步骤1:对大量的真实快递记录进行预处理,预处理包括数据清洗、数据补全,脱敏、地址经纬度转换和物品分类;步骤2:结合专家经验知识提取统计学特征、时间特征和地理特征;步骤3:基于提取的统计学特征,使用比较分析法研究用户长期的寄递行为规律,并发掘它们之间的差异性;步骤4:基于提取的时间特征,使用比较分析法研究用户的寄递行为时间规律,并发掘它们之间的差异性;步骤5:基于提取的地理特征,使用比较分析法研究用户寄递行为活动规律,并发掘它们之间的差异性;步骤6:基于以上提取的特征,使用无监督异常检测方法计算平均路径长度来估计样本的异常得分,将异常得分低的用户进行删除;步骤7:对于步骤6中剩余的研究对象,一部分是异常用户,另一部分是误判的正常用户,进一步使用分类方法对嫌疑人进行识别。步骤3中所述的统计学特征反映了用户长期寄递的行为规律,包括寄件量、收件人个数、寄件物品的种类数、物品重量的众数及方差。步骤4中所述的时间特征反映用户的时间活动规律,包括寄件量最大的月份、寄件时间和相邻时间间隔。步骤5中所述的地理特征反映用户的行为活动规律,包括寄件地址与收件地址的平均距离、用户常驻地址周边的POI数量以及用户的活动半径。步骤6中所述的无监督异常检测方法采用的是IForest算法。步骤7中所述的分类方法采用的是NaiveBayes或DecisionTree算法。有益效果本专利技术提出的一种基于快递大数据的异常检测方法,在该方法中,更加全面的利用了用户历史的快递数据,从统计、时间和地理三方面特征进行分析,发现了正常用户与嫌疑用户的寄递行为差异,然后巧妙地将无监督异常检测方法与有监督的分类算法进行结合,不仅能缩小正负类数据数量差异,还可以有效的降低误检率。本专利技术通过将无监督异常检测方法与有监督分类方法巧妙结合起来用于检测快递数据中的异常用户,不仅能够缩小正负类数据不平衡问题,还能够有效地降低误检率,使得识别准确率更高。附图说明图1为本专利技术实施例提供的一种基于快递大数据异常检测方法的流程图;图2为本专利技术实施例提供的一种基于快递大数据异常检测方法中部分统计学特征分布图;图3为本专利技术实施例提供的一种基于快递大数据异常检测方法中部分时间特征分布图;图4为本专利技术实施例提供的一种基于快递大数据异常检测方法中部分地理特征分布图;图5为本专利技术实施例提供的一种基于快递大数据异常检测方法中具体方案的流程图。具体实施方式现结合实施例、附图对本专利技术作进一步描述:为了能够识别出利用快递方式实施犯罪的某一类犯罪嫌疑人,本专利技术提供一种基于快递大数据的异常检测方法,该方法以用户快递数据为基础,根据专家经验从统计、时间和地理三方面特征分析用户的历史寄递行为,发现正常用户与嫌疑用户之间的行为差异,将无监督异常检测方法和有监督分类算法巧妙地结合,进而用于嫌疑人的识别。为实现上述目的,本专利技术提供了如下方案:一种基于快递大数据的异常检测方法,包括以下骤:S1、对大量的真实快递记录进行预处理。S2、结合专家经验知识提取统计学特征、时间特征和地理特征。S3、基于提取的统计学特征,使用比较分析法研究用户长期的寄递行为规律,并发掘它们之间的差异性。S4、基于提取的时间特征,使用比较分析法研究用户的寄递行为时间规律,并发掘它们之间的差异性。S5、基于提取的地理特征,使用比较分析法研究用户寄递行为活动规律,并发掘它们之间的差异性。S6、建立异常检测模型,该模型主要分为两步:第一步:过滤正常用户;第二步:嫌疑人识别;进一步地,一种基于快递大数据的异常检测方法S1中用户的历史快递记录预处理,主要包括数据清洗、数据补全,脱敏、地址经纬度转换和物品分类等过程。在经过数据预处理之后还包含四部分信息,分别是快递信息、寄件信息、收件信息、物品信息。快递信息指的是快递的运单号、寄件时间、快递公司名称等,寄件信息包括寄件人姓名、寄件人电话号码以及寄件人地址,收件信息对应于寄件信息;物品信息包括物品名称、物品重量等。进一步地,一种基于快递大数据的异常检测方法S3中的统计特征,包含每位用户一年的寄件量、收件人个数、寄件物品的种类数、物品重量的众数及方差等,可用于反映用户长时间的寄递行为规律。进一步地,一种基于快递大数据的异常检测方法S4中的时间特征,是每位用户选择寄递包裹的时间,它反映了用户的时间活动规律。可以从不同角度进行分析,例如寄件量最大的月份、寄件时间(小时)和相邻时间间隔等。进一步地,一种基于快递大数据的本文档来自技高网
...

【技术保护点】
1.一种基于快递大数据的异常检测方法,其特征在于步骤如下:步骤1:对大量的真实快递记录进行预处理,在经过数据预处理之后还包含四部分信息,分别是快递信息、寄件信息、收件信息、物品信息;所述的预处理包括数据清洗、数据补全,脱敏、地址经纬度转换和物品分类;步骤2:结合专家经验知识提取统计学特征、时间特征和地理特征;步骤3:基于提取的统计学特征,使用比较分析法研究用户长期的寄递行为规律,并发掘它们之间的差异性;步骤4:基于提取的时间特征,使用比较分析法研究用户的寄递行为时间规律,并发掘它们之间的差异性;步骤5:基于提取的地理特征,使用比较分析法研究用户寄递行为活动规律,并发掘它们之间的差异性;步骤6:基于以上提取的特征,使用无监督异常检测方法计算平均路径长度来估计样本的异常得分,将异常得分低的用户进行删除;步骤7:对于步骤6中剩余的研究对象,一部分是异常用户,另一部分是误判的正常用户,进一步使用分类方法对嫌疑人进行识别。

【技术特征摘要】
2018.07.19 CN 20181079766581.一种基于快递大数据的异常检测方法,其特征在于步骤如下:步骤1:对大量的真实快递记录进行预处理,在经过数据预处理之后还包含四部分信息,分别是快递信息、寄件信息、收件信息、物品信息;所述的预处理包括数据清洗、数据补全,脱敏、地址经纬度转换和物品分类;步骤2:结合专家经验知识提取统计学特征、时间特征和地理特征;步骤3:基于提取的统计学特征,使用比较分析法研究用户长期的寄递行为规律,并发掘它们之间的差异性;步骤4:基于提取的时间特征,使用比较分析法研究用户的寄递行为时间规律,并发掘它们之间的差异性;步骤5:基于提取的地理特征,使用比较分析法研究用户寄递行为活动规律,并发掘它们之间的差异性;步骤6:基于以上提取的特征,使用无监督异常检测方法计算平均路径长度来估计样本的异常得分,将异常得分低的用户进行删除;步骤7:对于步骤6中剩余的研究对象,一部分是异常用户,另一部...

【专利技术属性】
技术研发人员:於志文张曼任思源郭斌
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1