一种基于Apriori的公安交管业务异常数据研判方法技术

技术编号:21143440 阅读:13 留言:0更新日期:2019-05-18 05:50
本发明专利技术公开了一种基于Apriori的公安交管业务异常数据研判方法,其步骤如下:针对数据库中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据;整合数据库中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化;根据Apriori算法,生成候选项集Ck和频繁项集Lk。当数据库D2增加新的数据集d时,引入参数i(1

An Apriori-based method for judging abnormal data of public security traffic management business

【技术实现步骤摘要】
一种基于Apriori的公安交管业务异常数据研判方法
本专利技术涉及交通数据分析领域。具体而言是一种基于Apriori的公安交管业务异常数据研判方法。
技术介绍
近年来,各级公安交管部门在智能交通管理和车管、驾管、违法、事故等业务管理建立了较为完整的信息化应用体系,围绕人、车、违法、事故等核心业务对象建立了综合业务数据库,在公安交通管理和服务方面发挥着重要支撑作用。但是,随着业务不断深入开展和系统建设的快速发展,特别是围绕核心业务数据库开展综合分析与数据挖掘需求越来越强烈,现有数据库中数据缺项、业务逻辑错误、均值偏离等问题逐步显现,对自动查找错项数据、自主研判业务异常等提升异常数据研判和分析效率的系统需求强烈。目前,一些深层次的业务逻辑问题和异常状态数据的发现还主要依靠分析人员的工作经验,缺乏系统的、有效的异常数据识别方法,评估效率低、覆盖范围小、难以为业务开展提供很好的指导作用。
技术实现思路
本专利技术的目的在于提出一种基于Apriori的公安交管业务异常数据研判方法,将Apriori算法应用于公安交管业务数据分析中,提高公安交管人员的数据分析效率,扩大数据分析覆盖范围。为实现上述专利技术目的,本专利技术采用如下的技术方案:步骤一:建立公安交管业务数据库D1。本专利技术涉及的公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据。步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据。(1)通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;(2)对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;(3)对存在其他确定性函数关系的字段,建立函数关系,判断数据异常。步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化。步骤四:根据Apriori算法,生成候选项集和频繁项集。(1)设置最小支持度min_sup和最小置信度min_conf;(2)扫描数据库D2,计算D2中每个数据项出现的次数,生成候选1项集C1;(3)计算C1中每个项的支持度,若支持度大于等于min_sup,则从C1中确定频繁1项集L1;(4)将L1与自身相连接产生候选2项集C2;(5)计算C2中每个项的支持度,若支持度大于等于min_sup,则从C2中确定频繁项集L2,以此类推得到不同频繁项集L3……Lk-1、Lk,其中Lk-1表示频繁k-1项集,Lk表示频繁k项集。步骤五:当数据库D2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集Lk’。(1)保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集。(2)计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间。步骤六:计算强关联规则。从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则。步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型。步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。与现有技术相比,本专利技术的有益效果是:本专利技术通过Apriori算法对公安交管业务数据进行分析,这样可以自动发现大量业务数据中关联性较强的数据项,组成强关联规则。根据强关联规则建立异常数据研判模型,能够快速有效地检测到交管业务数据中的异常数据,解决目前公安交管业务数据存在大量异常数据人工分析效率低、范围小等实际问题。附图说明图1为本专利技术的流程图。具体实施方式下面结合实际过程对本专利技术做具体的介绍。本专利技术的实现路线包括以下几步:步骤一:建立公安交管业务数据库D1。本专利技术涉及的公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据。从公安交通管理综合应用平台中获取上述数据的一年历史数据。步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据。(1)通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;(2)对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;(3)对存在其他确定性函数关系的字段,建立函数关系,判断数据异常。以人员信息登记表中身份证号字段和性别字段为例。若身份证号码的第17位为奇数,则性别应当为“男”;若身份证号码的第17位为偶数,则性别应当为“女”。根据此函数关系可以判别性别字段的异常数据。步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化。步骤四:根据Apriori算法,生成候选项集和频繁项集。(1)设置最小支持度min_sup和最小置信度min_conf;(2)扫描数据库D2,计算D2中每个数据项出现的次数,生成候选1项集C1;(3)计算C1中每个项的支持度,若支持度大于等于min_sup,则从C1中确定频繁1项集L1;(4)将L1与自身相连接产生候选2项集C2;(5)计算C2中每个项的支持度,若支持度大于等于min_sup,则从C2中确定频繁项集L2,以此类推得到不同频繁项集L3……Lk-1、Lk,其中Lk-1表示频繁k-1项集,Lk表示频繁k项集。步骤五:当数据库D2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集Lk’。(1)保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集。(2)计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间。步骤六:计算强关联规则。从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则。以能够导出事故形态中的“侧面相撞”为例,设置最小支持度为4.0%,最小置信度为60.0%,计算出事故数据间的关联规则如下:规则①即不按规定让行所导致的交通事故为侧面相撞,该规则的支持度为15.53%,置信度为74.02%。规则②即在四路交叉口处违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.65%,置信度为64.11%。规则③即在混合式物理隔离道路上违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.33%,置信度为63.77%。规则④即在分车分向式物理隔离方式的正常路段上超速行驶所导致的交通事故为侧面相撞,该规则的支持度为4.37%,置信度为60.02%。规则⑤即在分车式物理隔离的城市主干道上违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.30%,置信度为62.79%。规则⑥即夜晚有灯照明条件下在四路交叉口处雨水路面上违章掉头所导致的交通事故为侧面相撞,该规则的支持度为4.03%,置信度为62.89%。规则⑦即在有冰雪覆盖的分车分向式物理隔离的沥青道路上超速行驶所导致的交通事故为侧面相撞,该规则的支持度为6.14%,本文档来自技高网...

【技术保护点】
1.一种基于Apriori的公安交管业务异常数据研判方法,其特征在于,所述的方法的步骤如下:步骤一:建立公安交管业务数据库D1公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据;将上述数据存储到所述公安交管业务数据库D1中;步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据;通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;对存在其他确定性函数关系的字段,建立函数关系,判断数据异常;步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化;步骤四:根据Apriori算法,生成候选项集和频繁项集设置Apriori算法的最小支持度min_sup和最小置信度min_conf;扫描数据库D2,计算D2中每个数据项出现的次数,生成候选1项集C1;计算C1中每个项的支持度,若支持度大于等于最小支持度,则从C1中确定频繁1项集L1;将L1与自身相连接产生候选2项集C2;计算C2中每个项的支持度,若支持度大于等于最小支持度,则从C2中确定频繁项集L2,以此类推得到不同频繁项集L3……Lk‑1、Lk,其中Lk‑1表示频繁k‑1项集,Lk表示频繁k项集;步骤五:当数据库D2增加新的数据集d时,引入参数i(1<i<∞),计算新的频繁项集Lk’。保存原数据库中支持度不小于min_sup/i的频繁项目集和新增的数据集;计算新的频繁项集时,不再扫描整个数据库,只扫描原数据库中支持度不小于min_sup/i的频繁项目集和和新增的数据集,缩短扫描时间;步骤六:计算强关联规则从频繁项集中生成关联规则,计算每个关联规则的置信度,若置信度大于等于最小置信度,则将该关联规则定义为强关联规则;步骤七:根据强关联规则和交管业务历史数据,建立数据异常研判模型;步骤八:向训练好的模型中传入实时交管业务数据,从而实时判断是否出现业务异常数据。...

【技术特征摘要】
1.一种基于Apriori的公安交管业务异常数据研判方法,其特征在于,所述的方法的步骤如下:步骤一:建立公安交管业务数据库D1公安交管业务数据包括机动车登记数据、驾驶证管理数据、交通事故处理数据、交通违法处理数据、剧毒化学品公路运输数据、交警队基础信息数据;将上述数据存储到所述公安交管业务数据库D1中;步骤二:针对数据库D1中的数量属性字段,利用极大极小值、线性模型或者确定性的函数关系模型识别异常数据;通过极大极小值建立字段的正常逻辑范围,当该字段的输入数据超出正常范围时,则判定为异常数据;对存在一元线性关系的字段,建立线性模型,偏离直线的数值判定为异常数据;对存在其他确定性函数关系的字段,建立函数关系,判断数据异常;步骤三:整合数据库D1中未建立异常数据识别规则的字段,建立数据库D2,对数据库D2中的数量属性字段进行离散化;步骤四:根据Apriori算法,生成候选项集和频繁项集设置Apriori算法的最小支持度min_sup和最小置信度min_conf;扫描数据库D2,计算D2中每个数据项出现的...

【专利技术属性】
技术研发人员:王家捷吕建成叶明辉吕潭裴有斌
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1