一种数据筛查方法、装置及系统制造方法及图纸

技术编号:38345647 阅读:9 留言:0更新日期:2023-08-02 09:25
本说明书公开了一种数据筛查方法、装置及系统,涉及人机交互技术领域,该方法基于初始数据集训练一个模型;采用模型对目标数据集中未经人工标记数据进行预测,得到预测值;选取预测结果中置信度低于预定阈值的数据以由人工进行标记;在新标记的数据中按照预定比例抽取正负样本并入原数据集从而得到新的数据集;基于最新的数据集,训练多个目标模型;对于目标数据集中的目标数据,分别采用各模型进行预测,并将预测结果进行加权求和得到目标数据的标记,根据目标数据的标记对数据进行数据筛查。本方案能够以较少的数据标记代价扩充训练数据集,且能够提高训练数据集的质量,根据多模型预测得到的数据标记进行数据筛查的准确率较高。率较高。率较高。

【技术实现步骤摘要】
一种数据筛查方法、装置及系统


[0001]本申请涉及人机交互
,可用于金融领域,特别涉及一种数据筛查方法、装置及系统。

技术介绍

[0002]数据筛查是金融机构的一项重要义务,基于模糊匹配的筛查引擎误报警率高是各大金融机构面临的一个普遍性问题,需要大量业务人员对所有误报警进行逐条审核,然而需要向央行上报的真实正样本极少,浪费了大量人力的同时也容易出现错漏的情况,尤其在多地设有分支机构的金融机构,该问题更加突出。在模糊匹配算法短时间内无法取得突破性进展的情况下,目前有部分机构开始尝试在基于模糊匹配的筛查引擎之后,增加一个人工智能模型进行二次筛选。为提高该人工智能模型的准确率,需要业务人员对全量误报警数据进行标记,然后基于标记样本训练人工智能模型。
[0003]该方法存在以下问题:1、由于全量误报警数据量太大,业务人员标记工作量极大,这导致训练数据中容易出现部分误标记情况,进而使得人工智能模型的预测准确率较低,数据筛查结果不准确;2、训练数据集中的正负样本极不均衡,正样本极少,而人工智能模型的效果主要依赖于正样本的分布形成的决策边界,当不同时间段少量正样本的数量和特征分布出现较大变化时,人工智能模型的效果会急剧下降,因此训练数据集中的正负样本不均衡会导致人工智能模型的稳定性较差、预测准确率较低。

技术实现思路

[0004]本申请实施方式的目的是提供一种数据筛查方法、装置及系统,以解决现有数据筛查方法准确率低、业务人员标记工作量较大的问题。
[0005]为解决上述技术问题,本说明书第一方面提供一种数据筛查方法,包括:获取初始数据集,所述初始数据集包括从目标数据集中抽取出、再由人工添加标记的数据;基于所述初始数据集,训练一个模型;重复以下步骤,直至所述模型的预测结果置信度均达到预定阈值:采用所述模型对所述目标数据集中未经人工标记数据进行预测,得到预测值;选取预测结果中置信度低于预定阈值的数据以由人工进行标记;在新标记的数据中按照预定比例抽取正负样本并入原数据集,从而得到新的数据集;基于最新的数据集,训练多个目标模型;获取各目标模型的权重;对于目标数据集中的目标数据,分别采用各模型进行预测,并将预测结果进行加权求和;将求和结果作为目标数据的标记,根据目标数据的标记对目标数据集中的数据进行筛查。
[0006]在一些实施例中,基于最新的数据集,训练多个目标模型,包括:将最新的数据集划分为各目标区域分别对应的数据集;判断各目标区域对应的数据集中的数据量是否达到预定数量;在未达到的情况下,从其他机构获取对应目标区域的带标记的数据并入数据集中,以使得各目标区域对应的数据集中的数据量均达到预定数量;对于各目标区域对应的数据集分别训练至少一个目标模型。
[0007]在一些实施例中,从其他机构获取对应目标区域的带标记的数据并入数据集中,包括:基于各目标区域分别对应的数据集,训练分类模型,所述分类模型用于区分目标数据所属的目标区域;重复以下步骤,直至各目标区域对应的数据集中的数据量均达到预定数量:从其他机构获取目标数据;采用所述分类模型确定所述目标数据所属的目标区域;将所述目标数据并入所述分类模型输出的目标区域对应的数据集。
[0008]在一些实施例中,获取各目标模型的权重,包括:计算各目标模型的F1值,并根据F1值计算模型的权重。
[0009]在一些实施例中,获取初始数据集,包括:对目标数据集进行聚类,得到多个数据簇;从每个数据簇中选取预定数量的数据,并将选取的数据合并形成初始数据集。
[0010]在一些实施例中,获取初始数据集,包括:采用模糊匹配的方法对待筛查数据集中的数据进行第一筛查,得到不合规的第一数据集;采用预先训练的人工智能模型对所述第一数据集进行第二筛查,得到不合规的第二数据集;将所述第二数据集作为所述目标数据集;所述目标数据集中选取多个数据;接收所述多个数据的人工标记结果;将带有人工标记结果的多个数据形成的数据集作为初始数据集。
[0011]本说明书第二方面提供一种数据筛查装置,包括:第一获取单元,用于获取初始数据集,所述初始数据集包括从目标数据集中抽取出、再由人工添加标记的数据;第一训练单元,用于基于所述初始数据集,训练一个模型;扩充单元,用于重复以下步骤,直至所述模型的预测结果置信度均达到预定阈值:采用所述模型对所述目标数据集中未经人工标记数据进行预测,得到预测值;选取预测结果中置信度低于预定阈值的数据以由人工进行标记;在新标记的数据中按照预定比例抽取正负样本并入原数据集,从而得到新的数据集;第二训练单元,用于基于最新的数据集,训练多个目标模型;第二获取单元,用于获取各目标模型的权重;预测单元,用于对于目标数据集中的目标数据,分别采用各模型进行预测,并将预测结果进行加权求和;筛查单元,用于将求和结果作为目标数据的标记,根据目标数据的标记对目标数据集中的数据进行筛查。
[0012]在一些实施例中,所述第二训练单元包括:划分子单元,用于将最新的数据集划分为各目标区域分别对应的数据集;判断子单元,用于判断各目标区域对应的数据集中的数据量是否达到预定数量;第一扩充子单元,用于在未达到的情况下,从其他机构获取对应目标区域的带标记的数据并入数据集中,以使得各目标区域对应的数据集中的数据量均达到预定数量;第一训练子单元,用于对于各目标区域对应的数据集分别训练至少一个目标模型。
[0013]在一些实施例中,所述第一扩充子单元包括:第二训练子单元,用于基于各目标区域分别对应的数据集,训练分类模型,所述分类模型用于区分目标数据所属的目标区域;第二扩充子单元,用于重复以下步骤,直至各目标区域对应的数据集中的数据量均达到预定数量:从其他机构获取目标数据;采用所述分类模型确定所述目标数据所属的目标区域;将所述目标数据并入所述分类模型输出的目标区域对应的数据集。
[0014]在一些实施例中,所述第二获取单元包括:计算子单元,用于计算各目标模型的F1值,并根据F1值计算模型的权重。
[0015]在一些实施例中,所述第一获取单元包括:聚类子单元,用于对目标数据集进行聚类,得到多个数据簇;合并子单元,用于从每个数据簇中选取预定数量的数据,并将选取的
数据合并形成初始数据集。
[0016]在一些实施例中,所述第一获取单元包括:第一筛查子单元,用于采用模糊匹配的装置对待筛查数据集中的数据进行第一筛查,得到不合规的第一数据集;第二筛查子单元,用于采用预先训练的人工智能模型对所述第一数据集进行第二筛查,得到不合规的第二数据集;将所述第二数据集作为所述目标数据集;选取子单元,用于所述目标数据集中选取多个数据;接收子单元,用于接收所述多个数据的人工标记结果;确定子单元,用于将带有人工标记结果的多个数据形成的数据集作为初始数据集。
[0017]本说明书第三方面提供一种数据筛查系统,包括:显示设备,用于显示待人工标记的数据;输入设备,用于接收人工标记的数据;处理器,用于执行第一方面任一项所述方法的步骤。
[0018]本说明书第四方面提供一种电子设备,包括:存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据筛查方法,其特征在于,包括:获取初始数据集,所述初始数据集包括从目标数据集中抽取出、再由人工添加标记的数据;基于所述初始数据集,训练一个模型;重复以下步骤,直至所述模型的预测结果置信度均达到预定阈值:采用所述模型对所述目标数据集中未经人工标记数据进行预测,得到预测值;选取预测结果中置信度低于预定阈值的数据以由人工进行标记;在新标记的数据中按照预定比例抽取正负样本并入原数据集,从而得到新的数据集;基于最新的数据集,训练多个目标模型;获取各目标模型的权重;对于目标数据集中的目标数据,分别采用各模型进行预测,并将预测结果进行加权求和;将求和结果作为目标数据的标记,根据目标数据的标记对目标数据集中的数据进行筛查。2.根据权利要求1所述的方法,其特征在于,基于最新的数据集,训练多个目标模型,包括:将最新的数据集划分为各目标区域分别对应的数据集;判断各目标区域对应的数据集中的数据量是否达到预定数量;在未达到的情况下,从其他机构获取对应目标区域的带标记的数据并入数据集中,以使得各目标区域对应的数据集中的数据量均达到预定数量;对于各目标区域对应的数据集分别训练至少一个目标模型。3.根据权利要求2所述的方法,其特征在于,从其他机构获取对应目标区域的带标记的数据并入数据集中,包括:基于各目标区域分别对应的数据集,训练分类模型,所述分类模型用于区分目标数据所属的目标区域;重复以下步骤,直至各目标区域对应的数据集中的数据量均达到预定数量:从其他机构获取目标数据;采用所述分类模型确定所述目标数据所属的目标区域;将所述目标数据并入所述分类模型输出的目标区域对应的数据集。4.根据权利要求1所述的方法,其特征在于,获取各目标模型的权重,包括:计算各目标模型的F1值,并根据F1值计算模型的权重。5.根据权利要求1所述的方法,其特征在于,获取初始数据集,包括:对目标数据集进行聚类,得到多个数据簇;从每个数据簇中选取预定数量的数据,并将选取的数据合并形成初始数据集。6.根据权利要求1所述的方法,其特征在于,获取初始数...

【专利技术属性】
技术研发人员:缪敏鹏张发波方景星
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1