一种数据筛查方法、装置及系统制造方法及图纸

技术编号：38345647 阅读：9 留言：0更新日期：2023-08-02 09:25

本说明书公开了一种数据筛查方法、装置及系统，涉及人机交互技术领域，该方法基于初始数据集训练一个模型；采用模型对目标数据集中未经人工标记数据进行预测，得到预测值；选取预测结果中置信度低于预定阈值的数据以由人工进行标记；在新标记的数据中按照预定比例抽取正负样本并入原数据集从而得到新的数据集；基于最新的数据集，训练多个目标模型；对于目标数据集中的目标数据，分别采用各模型进行预测，并将预测结果进行加权求和得到目标数据的标记，根据目标数据的标记对数据进行数据筛查。本方案能够以较少的数据标记代价扩充训练数据集，且能够提高训练数据集的质量，根据多模型预测得到的数据标记进行数据筛查的准确率较高。率较高。率较高。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据筛查方法、装置及系统

[0001]本申请涉及人机交互
，可用于金融领域，特别涉及一种数据筛查方法、装置及系统。

技术介绍

[0002]数据筛查是金融机构的一项重要义务，基于模糊匹配的筛查引擎误报警率高是各大金融机构面临的一个普遍性问题，需要大量业务人员对所有误报警进行逐条审核，然而需要向央行上报的真实正样本极少，浪费了大量人力的同时也容易出现错漏的情况，尤其在多地设有分支机构的金融机构，该问题更加突出。在模糊匹配算法短时间内无法取得突破性进展的情况下，目前有部分机构开始尝试在基于模糊匹配的筛查引擎之后，增加一个人工智能模型进行二次筛选。为提高该人工智能模型的准确率，需要业务人员对全量误报警数据进行标记，然后基于标记样本训练人工智能模型。
[0003]该方法存在以下问题：1、由于全量误报警数据量太大，业务人员标记工作量极大，这导致训练数据中容易出现部分误标记情况，进而使得人工智能模型的预测准确率较低，数据筛查结果不准确；2、训练数据集中的正负样本极不均衡，正样本极少，而人工智能模型的效果主要依赖于正样本的分布形成的决策边界，当不同时间段少量正样本的数量和特征分布出现较大变化时，人工智能模型的效果会急剧下降，因此训练数据集中的正负样本不均衡会导致人工智能模型的稳定性较差、预测准确率较低。

技术实现思路

[0004]本申请实施方式的目的是提供一种数据筛查方法、装置及系统，以解决现有数据筛查方法准确率低、业务人员标记工作量较大的问题。
[0005]为解决上述技术问题，本说明书第一...

【技术保护点】

【技术特征摘要】
1.一种数据筛查方法，其特征在于，包括：获取初始数据集，所述初始数据集包括从目标数据集中抽取出、再由人工添加标记的数据；基于所述初始数据集，训练一个模型；重复以下步骤，直至所述模型的预测结果置信度均达到预定阈值：采用所述模型对所述目标数据集中未经人工标记数据进行预测，得到预测值；选取预测结果中置信度低于预定阈值的数据以由人工进行标记；在新标记的数据中按照预定比例抽取正负样本并入原数据集，从而得到新的数据集；基于最新的数据集，训练多个目标模型；获取各目标模型的权重；对于目标数据集中的目标数据，分别采用各模型进行预测，并将预测结果进行加权求和；将求和结果作为目标数据的标记，根据目标数据的标记对目标数据集中的数据进行筛查。2.根据权利要求1所述的方法，其特征在于，基于最新的数据集，训练多个目标模型，包括：将最新的数据集划分为各目标区域分别对应的数据集；判断各目标区域对应的数据集中的数据量是否达到预定数量；在未达到的情况下，从其他机构获取对应目标区域的带标记的数据并入数据集中，以使得各目标区域对应的数据集中的数据量均达到预定数量；对于各目标区域对应的数据集分别训练至少一个目标模型。3.根据权利要求2所述的方法，其特征在于，从其他机构获取对应目标区域的带标记的数据并入数据集中，包括：基于各目标区域分别对应的数据集，训练分类模型，所述分类模型用于区分目标数据所属的目标区域；重复以下步骤，直至各目标区域对应的数据集中的数据量均达到预定数量：从其他机构获取目标数据；采用所述分类模型确定所述目标数据所属的目标区域；将所述目标数据并入所述分类模型输出的目标区域对应的数据集。4.根据权利要求1所述的方法，其特征在于，获取各目标模型的权重，包括：计算各目标模型的F1值，并根据F1值计算模型的权重。5.根据权利要求1所述的方法，其特征在于，获取初始数据集，包括：对目标数据集进行聚类，得到多个数据簇；从每个数据簇中选取预定数量的数据，并将选取的数据合并形成初始数据集。6.根据权利要求1所述的方法，其特征在于，获取初始数...

【专利技术属性】
技术研发人员：缪敏鹏，张发波，方景星，
申请(专利权)人：建信金融科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人