一种基于Apriori算法的人员预警方法及系统技术方案

技术编号:38889041 阅读:12 留言:0更新日期:2023-09-22 14:15
本发明专利技术公开一种基于Apriori算法的人员预警方法,属于大数据处理和数据挖掘领域;该方法包括:获取历史数据集;所述历史数据集包括若干历史人员信息;对历史人员信息进行特征提取,得到历史人员信息的历史特征;根据Apriori算法对历史人员信息的历史特征进行挖掘,得到频繁项集;根据频繁项集,生成关联规则;获取待预测人员信息;根据人员预测模型,对待预测人员信息进行预测,得到预测结果。本发明专利技术通过业务技术和机器学习算法的深度融合对人员的情况进行及时预警、控制,实现城市治安管理的现代化的整治。代化的整治。代化的整治。

【技术实现步骤摘要】
一种基于Apriori算法的人员预警方法及系统


[0001]本专利技术涉及大数据处理和数据挖掘领域,具体涉及一种基于Apriori算法的人员预警方法及系统。

技术介绍

[0002]通过深度融合业务技术和Apriori算法技术用以解决对人员行为的预警及防范,存在的技术问题分别是:
[0003]1.深度分析基本信息中特定人群,出现的特征及场景。
[0004]2.关联分析是从大规模的数据集中寻找出隐含的关联关系是一件十分耗时的任务,计算代价比较高,蛮力搜索并没法解决问题。

技术实现思路

[0005]本专利技术的目的在于提供一种对人员的特定情况进行及时预警、控制的基于Apriori算法的人员预警方法。
[0006]为解决上述技术问题,本专利技术提供一种基于Apriori算法的人员预警方法,包括以下步骤:
[0007]获取历史数据集;所述历史数据集包括若干历史人员信息;
[0008]对历史人员信息进行特征提取,得到历史人员信息的历史特征;
[0009]根据Apriori算法对历史人员信息的历史特征进行挖掘,得到频繁项集;
[0010]根据频繁项集,生成关联规则;
[0011]根据关联规则,建立人员预测模型;
[0012]获取待预测人员信息;
[0013]根据人员预测模型,对待预测人员信息进行预测,得到预测结果。
[0014]优选地,根据Apriori算法对历史人员信息的历史特征进行挖掘,得到频繁项集,具体包括以下步骤:/>[0015]根据历史人员信息的历史特征,生成候选项集;
[0016]对候选项集进行迭代剪枝处理,直至无法找到更高的频繁项集为止,得到频繁项集。
[0017]优选地,所述剪枝处理包括以下步骤:
[0018]计算候选项集中的历史人员信息的历史特征的支持度;
[0019]去除候选项集中支持度小于预设最小支持度阈值的项。
[0020]优选地,所述支持度的计算公式为:
[0021]Support(X,Y)=number(XY)/num(AllSamples)
[0022]式中:X为历史人员信息的历史特征中的感染因子特征项,Y为历史人员信息的历史特征中的风险可能性因子特征项;Support(X,Y)表示同时拥有X和Y的历史人员信息占历史数据集的比例,作为支持度;number(XY)表示同时拥有X和Y的历史人员信息数量;num
(AllSamples)表示历史数据集中历史人员信息总数。
[0023]优选地,根据频繁项集,生成关联规则,具体包括以下步骤:
[0024]计算频繁项集中各个历史特征的置信度;
[0025]去除频繁项集中置信度小于预设最小置信度阈值的项,得到处理后频繁项集;
[0026]根据处理后频繁项集,得到关联规则。
[0027]优选地,所述置信度的计算公式为:
[0028][0029]式中:为拥有X的历史人员信息总数占拥有Y的历史人员信息总数的比例,作为置信度;P(XY)表示同时拥有X和Y的历史人员信息占历史数据集的比例;P(Y)表示拥有Y的历史人员信息占历史数据集的比例。
[0030]优选地,预设最小支持度阈值和预设最小置信度阈值的确定方法为:
[0031]确定预设最小支持度和预设最小置信度的联合选择方法,建立综合评分公式,选择评分最高的预设最小支持度和预设最小置信度组合。
[0032]优选地,建立综合评分公式,选择评分最高的预设最小支持度和预设最小置信度组合,具体包括以下步骤:
[0033]设确定预设最小支持度support,最小置信度confidence,整个人员预警算法的运算事件runtime,合并率mergerate,最后的模型评估得分result,为了获得模型评估得分result的最大值,利用遗传算法进行求取,F1,F2分别是设置的拟合函数;
[0034]runtime=F1(support)
[0035]merageate=F2(confidence)
[0036]式中:merageate=F2(confidence)表示合并率与预设最小支持度的一次拟合函数;merageate=F2(confidence)为运算事件与预设最小置信度的一次拟合函数。
[0037]优选地,获取待预测人员信息,具体包括以下步骤:
[0038]获取满足检测条件的人员的信息,作为预测待预测人员信息;所述检测条件包括特定学生在上课时间在圈外触网且满足一定频次、非工作签证人员在中国就业、旅游签证人员签证时间已过且超过一定期限在国内逗留、签证时间超过对应期限且还存在旅馆住宿及网络购物记录。
[0039]本专利技术提供一种基于Apriori算法的人员预警系统,包括:
[0040]第一获取模块,用于获取历史数据集;所述历史数据集包括若干历史人员信息;
[0041]特征提取模块,用于对历史人员信息进行特征提取,得到历史人员信息的历史特征;
[0042]挖掘模块,用于根据Apriori算法对历史人员信息的历史特征进行挖掘,得到频繁项集;
[0043]关联规则生成模块,用于根据频繁项集,生成关联规则;
[0044]模型建立模块,用于根据关联规则,建立人员预测模型;
[0045]第二获取模块,用于获取待预测人员信息;
[0046]预测模块,用于根据人员预测模型,对待预测人员信息进行预测,得到预测结果。
[0047]与现有技术相比,本专利技术的有益效果为:
[0048]本专利技术通过业务技术和机器学习算法的深度融合为对人员的特定情况进行及时预警、控制,实现城市治安管理的现代化的整治。
附图说明
[0049]下面结合附图对本专利技术的具体实施方式作进一步详细说明。
[0050]图1是本专利技术一种基于Apriori算法的人员预警方法的流程示意图;
[0051]图2是实施例1利用Apriori算法实现预测模型的流程示意图;
[0052]图3频繁项集策略示意图。
具体实施方式
[0053]在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施的限制。
[0054]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0055]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Apriori算法的人员预警方法,其特征在于,包括以下步骤:获取历史数据集;所述历史数据集包括若干历史人员信息;对历史人员信息进行特征提取,得到历史人员信息的历史特征;根据Apriori算法对历史人员信息的历史特征进行挖掘,得到频繁项集;根据频繁项集,生成关联规则;根据关联规则,建立人员预测模型;获取待预测人员信息;根据人员预测模型,对待预测人员信息进行预测,得到预测结果。2.根据权利要求1所述的基于Apriori算法的人员预警方法,其特征在于,根据Apriori算法对历史人员信息的历史特征进行挖掘,得到频繁项集,具体包括以下步骤:根据历史人员信息的历史特征,生成候选项集;对候选项集进行迭代剪枝处理,直至无法找到更高的频繁项集为止,得到频繁项集。3.根据权利要求2所述的基于Apriori算法的人员预警方法,其特征在于,所述剪枝处理包括以下步骤:计算候选项集中的历史人员信息的历史特征的支持度;去除候选项集中支持度小于预设最小支持度阈值的项。4.根据权利要求3所述的基于Apriori算法的人员预警方法,其特征在于,所述支持度的计算公式为:Support(X,Y)=number(XY)/num(AllSamples)式中:X为历史人员信息的历史特征中的感染因子特征项,Y为历史人员信息的历史特征中的风险可能性因子特征项;Support(X,Y)表示同时拥有X和Y的历史人员信息占历史数据集的比例,作为支持度;number(XY)表示同时拥有X和Y的历史人员信息数量;num(AllSamples)表示历史数据集中历史人员信息总数。5.根据权利要求4所述的基于Apriori算法的人员预警方法,其特征在于,根据频繁项集,生成关联规则,具体包括以下步骤:计算频繁项集中各个历史特征的置信度;去除频繁项集中置信度小于预设最小置信度阈值的项,得到处理后频繁项集;根据处理后频繁项集,得到关联规则。6.根据权利要求5所述的基于Apriori算法的人员预警方法,其特征在于,所述置信度的计算公式为:式中:为拥有X的历史人员信息总数占拥有Y的历史人员信息总数的比例,作为置信度;P(XY)表示同时拥有X和Y的历史人员信息占历史数据集的比例;P(Y)表示拥有Y的历史人员信息占历史数据集的比例。7.根据...

【专利技术属性】
技术研发人员:陈关良原攀峰陈廷梁史奇
申请(专利权)人:浙江数新网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1