僵尸许可证智能识别方法、装置、设备及存储介质制造方法及图纸

技术编号:33854834 阅读:27 留言:0更新日期:2022-06-18 10:42
本发明专利技术涉及人工智能技术,揭露了一种僵尸许可证智能识别方法,包括:获取预设历史时间段内的商户信息,利用商户信息构建数据特征集;利用训练集及正负样本对预构建的随机森林模型进行训练,得到初步训练完成的随机森林模型及各个数据特征的权重,删除权重低的数据特征,重新构建随机森林模型,并利用测试集对所述重构随机森林模型进行迭代训练,得到训练完成的随机森林模型;利用随机森林模型筛查待分析商户的许可证,得到许可证是否为疑似僵尸许可证的结论。此外,本发明专利技术还涉及区块链技术,商户信息可存储于区块链的节点。本发明专利技术还提出一种僵尸许可证智能识别装置、电子设备以及存储介质。本发明专利技术可以提高僵尸许可证识别效率及准确度。确度。确度。

【技术实现步骤摘要】
僵尸许可证智能识别方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种僵尸许可证智能识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着各省市持续深化商事登记制度改革,推出了“秒批”“综窗服务”等多项措施,有效提升了商事登记及许可证办理服务的水平,商事主体及许可证数量增长迅速。但查无下落、脱离监管、无年度报告和纳税记录的“失联商事主体”和“僵尸许可证”数量也逐年增长,不仅长期占用字号、商号等有限资源,还带来了市场交易安全隐患,增大了市场交易成本,特别是在食品监管领域,食品经营者流动性大、经营方式更换频次高,且食品经营者主体资格依法终止但食品经营许可证未注销的行为尤为明显,给食品安全带来极大的隐患。
[0003]目前“僵尸许可证”只能依靠人工在市场监管过程中,通过实地走访得到数据,让当地政府在资源调配、全局决策上看不清现状,不了解底数,影响到事中监管任务规划安排,给监管带来极大的挑战。当前僵尸许可证识别方法效率低,且存在因人工判断存在主观性或经验不足导致准确率不高的问题。

技术实现思路

[0004]本专利技术提供一种僵尸许可证智能识别方法、装置及计算机可读存储介质,其主要目的在于解决进行僵尸许可证识别效率及准确率较低的问题。
[0005]为实现上述目的,本专利技术提供的一种僵尸许可证智能识别方法,包括:
[0006]获取预设历史时间段内的商户信息,利用所述商户信息构建数据特征集;
[0007]基于所述数据特征集,利用K折交叉验证算法构建训练集及测试集;
[0008]将所述训练集及所述测试集中的正常数据和异常数据分别标记为正负样本;
[0009]利用所述训练集及所述正负样本训练预构建的随机森林模型,得到初步训练完成的随机森林模型及各个数据特征的权重,根据所述权重对所述数据特征进行筛选,得到保留的数据特征;
[0010]利用所述保留的数据特征重新构建所述初步训练完成的随机森林模型,得到重构随机森林模型,并利用所述测试集对所述重构随机森林模型进行迭代训练,直至得到训练完成的随机森林模型;
[0011]利用所述训练完成的随机森林模型筛查待分析商户的许可证,得到所述许可证是否为疑似僵尸许可证的结果。
[0012]可选地,利用所述商户信息构建数据特征集,包括:
[0013]清洗所述商户信息,并对清洗后的所述商户信息进行多维度拆分,得到多个维度数据;
[0014]提取所述多个维度数据的信息特征及所述维度数据之间的关联特征,利用所述信息特征及所述关联特征构建对应的关联关系表;
[0015]利用所述关联关系表,构建数据特征集。
[0016]可选地,所述将所述训练集及所述测试集中的正常数据和异常数据分别标记为正负样本,包括:
[0017]将所述训练集及所述测试集中一址多证中历史监管查无实处的相关数据定义为异常数据,且标记为负样本;
[0018]将所述训练集及所述测试集中活跃商家且经营地址、经营范围与许可证一致的相关数据定义为正常数据,且标记为正样本。
[0019]可选地,所述利用所述训练集及所述正负样本训练预构建的随机森林模型,得到初步训练完成的随机森林模型及各个数据特征的权重,根据所述权重对所述数据特征进行筛选,得到保留的数据特征,包括:
[0020]利用所述预构建的随机森林模型中的决策层,从所述训练集中的数据特征中选取根节点;
[0021]根据所述根节点,利用所述预构建的随机森林模型中的分类层对所述训练集中剩余数据特征进行分类,得到多个叶子节点及初步训练完成的随机森林模型;
[0022]根据所述正负样本的准确率平均值,利用所述预构建的随机森林模型中的激活函数计算每个所述叶子节点的基尼系数,得到各个数据特征的权重;
[0023]判断所述权重是否满足预设条件;
[0024]若所述权重不满足预设条件,调整所述初步训练完成的随机森林模型的参数,删除不满预设条件权重对应的数据特征并返回执行根据所述根节点,利用所述预构建的随机森林模型中的分类层对所述训练集中剩余数据特征进行分类的步骤;
[0025]若所述权重满足预设条件,得到保留的数据特征。
[0026]可选地,所述利用所述预构建的随机森林模型中的决策层,从所述训练集中的数据特征中选取根节点,包括:
[0027]利用所述决策层中的决策算法计算所述训练数据的数据特征在所述商户信息中的信息增益值;
[0028]将所述信息增益值最高的数据特征作为所述根节点。
[0029]可选地,所述基于所述数据特征集,利用K折交叉验证算法构建训练集及测试集,包括:
[0030]将所述数据特征集均分为K个数据特征子集;
[0031]不重复地选取其中一个数据特征子集,得到K个参考样本集;
[0032]依次将每个所述参考样本集作为测试集,将剩余的K

1个参考样本集作为训练集。
[0033]可选地,所述得到所述许可证是否为疑似僵尸许可证的结果之后,所述方法还包括:
[0034]将所述结果中疑似僵尸许可证的对应商户相关信息同步到预设的数据库;
[0035]接收根据所述疑似僵尸许可证的相关信息制定的监管计划,根据所述监管计划通知预设业务部门进行现场核实,得到核实结果;
[0036]根据所述核实结果对所述许可证进行打标,得到所述许可证是否为僵尸许可证的标签,并将所述标签同步到监管部门。
[0037]为了解决上述问题,本专利技术还提供一种僵尸许可证智能识别装置,所述装置包括:
[0038]数据特征集构建模块,用于获取预设历史时间段内的商户信息,利用所述商户信息构建数据特征集;
[0039]训练集及测试集构建模块,用于基于所述数据特征集,利用K折交叉验证算法构建训练集及测试集;
[0040]正负样本标记模块,用于将所述训练集及所述测试集中的正常数据和异常数据分别标记为正负样本;
[0041]随机森林模型训练模块,用于利用所述训练集及所述正负样本训练预构建的随机森林模型,得到初步训练完成的随机森林模型及各个数据特征的权重,根据所述权重对所述数据特征进行筛选,得到保留的数据特征;利用所述保留的数据特征重新构建所述初步训练完成的随机森林模型,得到重构随机森林模型,并利用所述测试集对所述重构随机森林模型进行迭代训练,直至得到训练完成的随机森林模型;
[0042]筛查模块,用于利用所述训练完成的随机森林模型筛查待分析商户的许可证,得到所述许可证是否为疑似僵尸许可证的结果。
[0043]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0044]至少一个处理器;以及,
[0045]与所述至少一个处理器通信连接的存储器;其中,
[0046]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种僵尸许可证智能识别方法,其特征在于,所述方法包括:获取预设历史时间段内的商户信息,利用所述商户信息构建数据特征集;基于所述数据特征集,利用K折交叉验证算法构建训练集及测试集;将所述训练集及所述测试集中的正常数据和异常数据分别标记为正负样本;利用所述训练集及所述正负样本训练预构建的随机森林模型,得到初步训练完成的随机森林模型及各个数据特征的权重,根据所述权重对所述数据特征进行筛选,得到保留的数据特征;利用所述保留的数据特征重新构建所述初步训练完成的随机森林模型,得到重构随机森林模型,并利用所述测试集对所述重构随机森林模型进行迭代训练,直至得到训练完成的随机森林模型;利用所述训练完成的随机森林模型筛查待分析商户的许可证,得到所述许可证是否为疑似僵尸许可证的结果。2.如权利要求1所述的僵尸许可证智能识别方法,其特征在于,所述利用所述商户信息构建数据特征集,包括:清洗所述商户信息,并对清洗后的所述商户信息进行多维度拆分,得到多个维度数据;提取所述多个维度数据的信息特征及所述维度数据之间的关联特征,利用所述信息特征及所述关联特征构建对应的关联关系表;利用所述关联关系表,构建数据特征集。3.如权利要求1所述的僵尸许可证智能识别方法,其特征在于,所述将所述训练集及所述测试集中的正常数据和异常数据分别标记为正负样本,包括:将所述训练集及所述测试集中一址多证中历史监管查无实处的相关数据定义为异常数据,且标记为负样本;将所述训练集及所述测试集中活跃商家且经营地址、经营范围与许可证一致的相关数据定义为正常数据,且标记为正样本。4.如权利要求1所述的僵尸许可证智能识别方法,其特征在于,所述利用所述训练集及所述正负样本训练预构建的随机森林模型,得到初步训练完成的随机森林模型及各个数据特征的权重,根据所述权重对所述数据特征进行筛选,得到保留的数据特征,包括:利用所述预构建的随机森林模型中的决策层,从所述训练集中的数据特征中选取根节点;根据所述根节点,利用所述预构建的随机森林模型中的分类层对所述训练集中剩余数据特征进行分类,得到多个叶子节点及初步训练完成的随机森林模型;根据所述正负样本的准确率平均值,利用所述预构建的随机森林模型中的激活函数计算每个所述叶子节点的基尼系数,得到各个数据特征的权重;判断所述权重是否满足预设条件;若所述权重不满足预设条件,调整所述初步训练完成的随机森林模型的参数,删除不满预设条件权重对应的数据特征并返回执行根据所述根节点,利用所述预构建的随机森林模型中的分类层对所述训练集中剩余数据特征进行分类的步骤;若所述权重满足预设条件,得到保留的数据特征。5.如权利要求4中所述的僵尸许可证智能识别方...

【专利技术属性】
技术研发人员:成露露
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1