违规商户识别模型构建方法及装置、违规商户识别方法制造方法及图纸

技术编号:35555289 阅读:14 留言:0更新日期:2022-11-12 15:36
本发明专利技术涉及违规商户识别模型构建方法。该方法包括:初始样本获取步骤,作为初始样本获取第一类型的商户样本数据并构成训练集;模型训练步骤,基于训练集进行模型训练得到分类器;边缘采样步骤,利用分类器对于第二类型的商户样本数据进行分类并通过边缘采样获取规定边缘的商户样本数据;样本添加步骤,将规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据并添加到训练集中;条件判断步骤,判断分类器是否满足规定条件,若满足则继续以下的模型输出步骤,否则重复进行模型训练步骤、边缘采样步骤以及样本添加步骤直至分类器满足规定条件;以及模型输出步骤,将当前的分类器作为违规商户识别模型输出。前的分类器作为违规商户识别模型输出。前的分类器作为违规商户识别模型输出。

【技术实现步骤摘要】
违规商户识别模型构建方法及装置、违规商户识别方法


[0001]本专利技术涉及数据处理技术,具体地涉及一种违规商户识别模型构建方法、违规商户识别方法。

技术介绍

[0002]对于违规商户的监控侦测难度不断提升,为了降低筛查违规商户的时长,已经出现使用机器学习和违规商户识别场景相结合的监控方式。但是在数据初步探索收集正负样本的过程中,发现当前已确定的商户是否违规样本量过低,剩余的大量商户属于未标注样本,而传统的机器学习方法需要使用大规模的有标记数据才能取得高质量的模型,然而获得大量的有标记数据是一件非常耗时耗力的工作,在当前业务场景中有限的资源情况下,这几乎是一件不可能完成的事。

技术实现思路

[0003]鉴于上述问题,本专利技术旨在提供一种能够智能推荐高质量样本的违规商户识别模型构建方法。
[0004]进一步,本专利技术还旨在提供一种能够提升违规商户识别的覆盖率和准确率的违规商户识别方法及违规商户识别系统。
[0005]本专利技术的违规商户识别模型构建方法,其特征在于,包括:初始样本获取步骤,作为初始样本获取第一类型的商户样本数据并构成训练集;模型训练步骤,基于训练集进行模型训练以及调优训练得到分类器;边缘采样步骤,利用所述模型训练步骤获得的分类器对于第二类型的商户样本数据进行分类并通过边缘采样获取规定边缘的商户样本数据;样本添加步骤,将所述边缘采样步骤中获取的规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据并添加到训练集中;条件判断步骤,判断所述分类器是否满足规定条件,若所述分类器满足规定条件,则继续以下的模型输出步骤,否则重复进行所述模型训练步骤、所述边缘采样步骤以及所述样本添加步骤直至所述分类器满足规定条件;以及模型输出步骤,将当前的分类器作为违规商户识别模型输出。
[0006]可选地,所述第一类型的商户样本数据为已标注黑样本和白样本的商户样本数据,所述第二类型的商户样本数据为未标注黑样本和白样本的商户样本数据。
[0007]可选地,在所述条件判断步骤中,判断所述分类器是否满足规定条件包括:判断利用所述分类器进行边缘采样得到的规定边缘的样本数据是否满足第一规定条件。
[0008]可选地,判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件包括:判断利用所述分类器进行边缘采样得到的规定边缘的样本数据是否小于第一阈值。
[0009]可选地,在所述条件判断步骤中,判断所述分类器是否满足规定条件包括:判断所
述分类器的训练集中的商户样本数据是否满足第二规定条件。
[0010]可选地,判断所述分类器的训练集中的商户样本数据是否满足第二规定条件包括:判断所述分类器的训练集中的商户样本数据是否大于第二阈值。
[0011]可选地,所述通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练步骤获得的分类器进行边缘采样,将预测概率满足规定阈值范围的商户样本数据作为所述规定边缘的商户样本数据。
[0012]可选地,所述通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练步骤获得的分类器进行边缘采样,将置信度满足规定阈值范围的商户样本数据作为所述规定边缘的商户样本数据。
[0013]可选地,将所述预测概率为0.4

0.6的商户样本数据作为所述规定边缘的商户样本数据。
[0014]可选地,将所述边缘采样步骤中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据包括:对于所述边缘采样步骤中获取的所述规定边缘的商户样本数据标注黑样本和白样本。
[0015]可选地,所述分类器采用xgboost。
[0016]本专利技术的一方面的违规商户识别方法其特征在于,包括:获取待识别的商户特征数据;将待识别的商户特征数据输入到利用权利要求1~11任意一项所述的违规商户识别模型构建方法所构建的违商户识别模型中;以及利用所述商户识别模型识别待识别的商户特征数据是否为表征违规商户。
[0017]可选地,违规商户识别模型构建装置,其特征在于,包括:初始样本获取模块,作为初始样本获取第一类型的商户样本数据并构成训练集;模型训练模块,基于训练集进行模型训练以及调优训练得到分类器;边缘采样模块,利用所述模型训练模块获得的分类器对于第二类型的商户样本数据进行分类并通过边缘采样获取规定边缘的商户样本数据;样本添加模块,将所述边缘采样模块中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据并添加到所述训练集中;条件判断模块,判断所述分类器是否满足规定条件,若所述分类器满足规定条件,则执行以下的模型输出模块的动作,否则重复进行所述模型训练模块、所述边缘采样模块以及所述样本添加模块执行的动作直至所述分类器满足规定条件;以及模型输出模块,将当前的分类器作为违规商户识别模型输出。
[0018]可选地,所述第一类型的商户样本数据为已标注黑样本和白样本的商户样本数据,所述第二类型的商户样本数据为未标注黑样本和白样本的商户样本数据。
[0019]可选地,在所述条件判断模块中,判断所述分类器是否满足规定条件包括:判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件。
[0020]可选地,在所述条件判断模块中,判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件包括:判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否小于第一阈值。
[0021]可选地,在所述条件判断模块中,所述判断所述分类器是否满足规定条件包括:判
断所述分类器的训练集中的商户样本数据是否满足第二规定条件。
[0022]可选地,在所述条件判断模块中,判断所述分类器的训练集中的商户样本数据是否满足第二规定条件包括:判断所述分类器的训练集中的商户样本数据是否大于第二阈值。
[0023]可选地,在所述边缘采样模块中,通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练模块获得的分类器进行边缘采样,将预测概率为规定阈值范围的商户样本数据作为所述规定边缘的商户样本数据。
[0024]可选地,在所述边缘采样模块中,通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练模块获得的分类器进行边缘采样,将置信度满足规定阈值的商户样本数据作为所述规定边缘的商户样本数据。
[0025]可选地,在所述边缘采样模块中,将所述预测概率为0.4

0.6的商户样本数据作为所述规定边缘的商户样本数据。
[0026]可选地,在所述样本添加模块中,将所述边缘采样模块中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据包括:对于所述边缘采样模块中获取的所述规定边缘的商户样本数据标注黑样本和白样本。
[0027]可选地,所述分类器采用xgboost。
[0028]本专利技术一方面的计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种违规商户识别模型构建方法,其特征在于,包括:初始样本获取步骤,作为初始样本获取第一类型的商户样本数据并构成训练集;模型训练步骤,基于训练集进行模型训练以及调优训练得到分类器;边缘采样步骤,利用所述模型训练步骤获得的分类器对于第二类型的商户样本数据进行分类并通过边缘采样获取规定边缘的商户样本数据;样本添加步骤,将所述边缘采样步骤中获取的规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据并添加到训练集中;条件判断步骤,判断所述分类器是否满足规定条件,若所述分类器满足规定条件,则继续以下的模型输出步骤,否则重复进行所述模型训练步骤、所述边缘采样步骤以及所述样本添加步骤直至所述分类器满足规定条件;以及模型输出步骤,将当前的分类器作为违规商户识别模型输出。2.如权利要求1所述的违规商户识别模型构建方法,其特征在于,所述第一类型的商户样本数据为已标注黑样本和白样本的商户样本数据,所述第二类型的商户样本数据为未标注黑样本和白样本的商户样本数据。3.如权利要求1所述的违规商户识别模型构建方法,其特征在于,在所述条件判断步骤中,判断所述分类器是否满足规定条件包括:判断利用所述分类器进行边缘采样得到的规定边缘的样本数据是否满足第一规定条件。4.如权利要求3所述的违规商户识别模型构建方法,其特征在于,判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件包括:判断利用所述分类器进行边缘采样得到的规定边缘的样本数据是否小于第一阈值。5.如权利要求1所述的违规商户识别模型构建方法,其特征在于,在所述条件判断步骤中,判断所述分类器是否满足规定条件包括:判断所述分类器的训练集中的商户样本数据是否满足第二规定条件。6.如权利要求5所述的违规商户识别模型构建方法,其特征在于,判断所述分类器的训练集中的商户样本数据是否满足第二规定条件包括:判断所述分类器的训练集中的商户样本数据是否大于第二阈值。7.如权利要求1所述的违规商户识别模型构建方法,其特征在于,所述通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练步骤获得的分类器进行边缘采样,将预测概率满足规定阈值范围的商户样本数据作为所述规定边缘的商户样本数据。8.如权利要求1所述的违规商户识别模型构建方法,其特征在于,所述通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练步骤获得的分类器进行边缘采样,将置信度满足规定阈值范围的商户样本数据作为所述规定边缘的商户样本数据。9.如权利要求7所述的违规商户识别模型构建方法,其特征在于,将所述预测概率为0.4

0.6的商户样本数据作为所述规定边缘的商户样本数据。10.如权利要求2所述的违规商户识别模型构建方法,其特征在于,将所述边缘采样步骤中获取的所述规定边缘的商户样本数据进行规定处理以得到第
一类型的商户样本数据包括:对于所述边缘采样步骤中获取的所述规定边缘的商户样本数据标注黑样本和白样本。11.如权利要求1所述的违规商户识别模型构建方法,其特征在于,所述分类器采用xgboost。12.一种违规商户识别方法,其特征在于,包括:获取待识别的商户特征数据;将待识别的商户特征数据输入到利用权利要求1~11任意一项所述的违规商户识别模型构建方法所构建的违商户识别模型中;以及利用所述商户识别模型识别待识别的商户特征数据是否为表征违规商户。13.一种违规商户识别模型构建装置,其特征在于,包括:初始样本获取模块,作为初始样本获取第一类型的商户样本数据并构成训练集;模型训练模块,基于训练集...

【专利技术属性】
技术研发人员:潘骏牛媛媛王颖卓邹勇
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1