一种基于可解释性机器学习的犯罪数量预测方法及系统技术方案

技术编号:39415195 阅读:9 留言:0更新日期:2023-11-19 16:06
本发明专利技术公开了一种基于可解释性机器学习的犯罪数量预测方法及系统,所述方法包括:搜集与犯罪相关的数据并进行预处理,建立犯罪数据集;通过犯罪数据集训练和测试XGBoost模型,得到最优犯罪预测模型;通过最优犯罪预测模型进行犯罪数量预测;用SHAP可解释性机器学习框架对最优犯罪预测模型的预测结果进行解释。本发明专利技术采用基于XGBoost机器学习模型的犯罪预测方法,结合SHAP可解释性机器学习框架,方便直观理解每个特征对每个样本预测值的贡献和每个特征的总体重要性,有助于理解XGBoost模型的犯罪数量预测过程和结果,提高犯罪数量预测的可靠性。的可靠性。的可靠性。

【技术实现步骤摘要】
一种基于可解释性机器学习的犯罪数量预测方法及系统


[0001]本专利技术属于犯罪地理领域,具体涉及一种基于可解释性机器学习的犯罪数量预测方法及系统。

技术介绍

[0002]机器学习是计算机程序通过经验或训练数据来优化模型性能的过程。它可以结合各种数据集,并依靠计算机的自动训练和分析能力获得最佳模型,而无需研究人员设置特定参数。此外,通过机器学习算法拟合模型通常比传统回归方法产生更好的结果。目前,机器学习技术已广泛应用于许多领域,包括健康研究、天气预报、电力系统等。随着人工智能的发展,各种机器学习算法不断涌现。常用的机器学习算法包括支持向量机、K

最近邻、随机森林和梯度提升。然而,这些机器学习算法的一个缺点是它们的不透明性和不可解释性。这使得用户难以理解模型的结果,从而难以发现错误并改善模型性能。由于这些缺陷,一些学者对机器学习模型的结果提出了质疑。例如,相关学者指出不要盲目相信具有高预测准确性的模型的结果。
[0003]使用机器学习方法进行犯罪分析和建模成为治安防治的新方向,当使用机器学习方法进行犯罪分析和建模时,这些“黑盒”模型将不利于研究人员理解为什么会出现这样的结果以及哪些变量对犯罪的发生有显著影响。例如公开号为CN106096623A公开了一种犯罪识别与预测方法,可以挖掘出犯罪行为与地理地址之间的联系,公开号为CN112949923A的专利技术专利公开了一种基于LSTM的犯罪数量预测方法,可以基于犯罪数据进行犯罪数量预测。但是这些模型的推演过程都存在不透明和不可解释性问题,导致这些“黑盒”模型的预测结果不能为有关部门制定犯罪预防和控制策略提供实质性指导。因此,迫切需要找到有效的方法来解决犯罪分析和建模时的不透明性和不可解释性问题。

技术实现思路

[0004]有鉴于此,本专利技术提出了一种基于可解释性机器学习的犯罪数量预测方法及系统,用于解决解决犯罪分析和建模时的不透明性的问题。
[0005]本专利技术第一方面,公开一种基于可解释性机器学习的犯罪数量预测方法,所述方法包括:
[0006]搜集与犯罪相关的数据并进行预处理,建立犯罪数据集;
[0007]通过犯罪数据集训练和测试XGBoost模型,得到最优犯罪预测模型;
[0008]通过最优犯罪预测模型进行犯罪数量预测;
[0009]用SHAP可解释性机器学习框架对最优犯罪预测模型的预测结果进行解释。
[0010]在以上技术方案的基础上,优选的,所述与犯罪相关的数据包括:社会经济指标、犯罪吸引地/发生地、街道空间环境、警务防控数据;
[0011]所述社会经济指标包括目标地区的人口密度、户籍构成、人口富裕度和受教育程度;犯罪吸引地/发生地包括公交车站、地铁站、火车站、大型商场和零售店;街道空间环境
包括树木、灌木、草坪和人行道状况;警务防控数据包括巡逻点和监控摄像头点位数据。
[0012]在以上技术方案的基础上,优选的,所述预处理具体包括:
[0013]犯罪相关的数据中的变量进行相关性检验和共线性检验,提出相关性大于0.8的变量以及方差膨胀因子大于10的变量。
[0014]在以上技术方案的基础上,优选的,通过犯罪数据集训练和测试XGBoost模型的过程中,每次迭代时,平均绝对误差、均方误差和均方根误差来评价模型精度。
[0015]在以上技术方案的基础上,优选的,平均绝对误差的计算公式为:
[0016][0017]均方误差的计算公式为:
[0018][0019]均方根误差的计算公式为:
[0020][0021]其中,MAE为平均绝对误差,MSE均方误差,RSME均方根误差,y
i
为真实值,f(x
i
)为模型的预测值。
[0022]在以上技术方案的基础上,优选的,所述用SHAP可解释性机器学习框架对最优犯罪预测模型的预测结果进行解释具体包括:
[0023]通过SHAP可解释性机器学习框架对犯罪数据集中的样本进行解析,解析得到每个样本每个特征对应的shapely值,建立解释模型;
[0024]通过解释模型及每个样本每个特征对应的shapely值解释每个特征对每个样本预测值的局部贡献程度;
[0025]根据解释模型及所有样本中特定变量的Shapley值的平均值来表征每个特征的总体重要性程度。
[0026]在以上技术方案的基础上,优选的,设第i个样本第j个特征的shaply值为f(x
i(j)
),解释模型的表达式为:
[0027]h
i
=y
base
+f(x
i(1)
)+

+f(x
i(K)
)
[0028][0029]其中,h
i
代表解释模型,j=1,2,...,K,K为样本i的特征总数;y
base
为SHAP基准值,代表样本i的预测输出值,m为样本总数。
[0030]本专利技术第二方面,公开一种基于可解释性机器学习的犯罪数量预测系统,所述系统包括:
[0031]数据收集模块:用于搜集与犯罪相关的数据并进行预处理,建立犯罪数据集;
[0032]模型建立模块:用于通过犯罪数据集训练和测试XGBoost模型,得到最优犯罪预测模型;
[0033]模型预测模块:用于通过最优犯罪预测模型进行犯罪数量预测;
[0034]模型解释模块:用于通过SHAP可解释性机器学习框架对最优犯罪预测模型的预测结果进行解释。
[0035]本专利技术第三方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
[0036]其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
[0037]所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如本专利技术第一方面所述的方法。
[0038]本专利技术第四方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现如本专利技术第一方面所述的方法。
[0039]本专利技术相对于现有技术具有以下有益效果:
[0040]1)本专利技术采用基于XGBoost机器学习模型的犯罪预测方法,相比于常用的线性回归模型,XGBoost模型可以通过组合多个决策树来对非线性关系进行建模,相对于线性回归模型更加灵活,结合SHAP可解释性机器学习框架,可以评估每个特征的重要性和每个样本的预测值,有助于理解XGBoost模型的犯罪数量预测过程和结果,提高犯罪数量预测的可靠性。
[0041]2)本专利技术根据每个样本中每个特征对应得shapely值,建立了解释模型,可以用于分析特征的局部重要性和全局重要性,方便直观理解每个特征对每个样本预测值的贡献和每个特征的总体重要性,提高犯罪预测的透明性和可解释性,可快速筛选出对犯罪的发生有显著影响的变量,为有关部门制定犯罪预防和控制策略提供实质性指导本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于可解释性机器学习的犯罪数量预测方法,其特征在于,所述方法包括:搜集与犯罪相关的数据并进行预处理,建立犯罪数据集;通过犯罪数据集训练和测试XGBoost模型,得到最优犯罪预测模型;通过最优犯罪预测模型进行犯罪数量预测;用SHAP可解释性机器学习框架对最优犯罪预测模型的预测结果进行解释。2.根据权利要求1所述的基于可解释性机器学习的犯罪数量预测方法,其特征在于,所述与犯罪相关的数据包括:社会经济指标、犯罪吸引地/发生地、街道空间环境、警务防控数据;所述社会经济指标包括目标地区的人口密度、户籍构成、人口富裕度和受教育程度;犯罪吸引地/发生地包括公交车站、地铁站、火车站、大型商场和零售店;街道空间环境包括树木、灌木、草坪和人行道状况;警务防控数据包括巡逻点和监控摄像头点位数据。3.根据权利要求1所述的基于可解释性机器学习的犯罪数量预测方法,其特征在于,所述预处理具体包括:犯罪相关的数据中的变量进行相关性检验和共线性检验,提出取相关性大于第一预设阈值的变量以及方差膨胀因子大于第二预设阈值的变量。4.根据权利要求1所述的基于可解释性机器学习的犯罪数量预测方法,其特征在于,通过犯罪数据集训练和测试XGBoost模型的过程中,每次迭代时,平均绝对误差、均方误差和均方根误差来评价模型精度。5.根据权利要求3所述的基于可解释性机器学习的犯罪数量预测方法,其特征在于,平均绝对误差的计算公式为:均方误差的计算公式为:均方根误差的计算公式为:其中,MAE为平均绝对误差,MSE均方误差,RSME均方根误差,y
i
为第i个样本的真实值,f(x
i
)为第i个样本的的预测值,m为犯罪数据集中的样本总数。6.根据权利要求1所述的基于可解释性机器学习的犯罪数量预测方法,其特征在于,所述用SHAP可解释性机器学习框架对最优犯罪预测模型的预测结果进行解释具体包括:通过SHAP可解释性机器学习框架...

【专利技术属性】
技术研发人员:郝建中徐磊岳瀚
申请(专利权)人:南京北斗创新应用科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1