金融交易数据处理方法、欺诈行为的监测方法和装置制造方法及图纸

技术编号:26173738 阅读:19 留言:0更新日期:2020-10-31 13:58
本发明专利技术公开了一种金融交易数据处理方法、欺诈行为的监测方法和装置,该方法包括:获取第一预设数量的有效样本;接收第二预设数量的第一指令,基于第一指令将训练过程循环计算第二预设数量次;训练过程:将第一预设数量的有效样本分成K份,轮流将K‑1份作为第一训练集,剩下的1份作为第一测试集;轮流采用聚类模型得到第一分类标签,将第一分类标签分别加入对应的有效样本;轮流将有效样本输入到第一预测模型,确定第一预测模型的训练模型参数;轮流验证每次训练过程得到的第一预测模型的预测准确率;确定每次循环过程的评价指标;将循环过程中评价指标最高的初始模型参数和训练模型参数作为目标模型参数,这样可预测用户出现欺诈行为概率。

【技术实现步骤摘要】
金融交易数据处理方法、欺诈行为的监测方法和装置
本专利技术涉及计算机领域,尤其涉及一种金融交易数据处理方法、欺诈行为的监测方法和装置。
技术介绍
一般地,在提取公积金或贷款时需要对用户提交的材料进行人工审核。其中,人工审核的部分主要是审核提交材料的真实性及是否满足中心的政策条件:购房收据、房产证等是否真实;是否满足提取的条件;是否满足连续缴存的条件;申请贷款额度是否符合政策条件等。但是,通过人工审核无法确定用户出现欺诈行为(骗提或骗贷)的概率,无法有效降低风险,且人工审核的工作量较大会导致审核效率低。
技术实现思路
有鉴于此,本专利技术实施例提供一种金融交易数据处理方法、欺诈行为的监测方法和装置,能够解决人工审核方式无法确定用户出现欺诈行为的概率的问题。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种金融交易数据处理方法。本专利技术实施例的金融交易数据处理方法包括:获取第一预设数量的有效样本;其中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次;所述聚类模型以及所述第一预测模型的训练过程:将所述第一预设数量的有效样本分成K份,轮流将其中K-1份作为第一训练集,剩下的1份作为第一测试集,每个所述第一测试集对应一次训练过程,共经过K次训练过程;轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率;根据每次循环过程中K次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。可选地,所述将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数的步骤之后,所述方法还包括:获取第四预设数量的第一有效样本;其中,所述第一有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据;接收第五预设数量的第二指令,不同的所述第二指令指示了不同的第二预测模型的初始模型参数,基于所述第五预设数量的第二指令,将第二预测模型的训练过程循环计算所述第五预设数量次;所述第二预测模型的训练过程:将所述第四预设数量的第一有效样本分成K份,轮流将其中K-1份作为第二训练集,剩下的1份作为第二测试集;轮流将所述第一预测模型所得的预测结果作为第二分类标签加入所述第一有效样本中,将所述第一有效样本输入第二预测模型中,确定每次迭代计算得到的所述第二预测模型的模型参数;轮流通过每个所述第二测试集验证每次训练过程得到的所述第二预测模型的预测准确率;根据每次循环过程中K次训练过程的预测准确率,确定每次循环过程对应的第二评价指标;将所述第五预设数量的循环过程中所述第二评价指标最高的初始模型参数和训练模型参数作为所述第二预测模型的目标模型参数,通过所述第二预测模型确定在同意用户的提取或贷款请求后用户出现欺诈行为的概率。可选地,在获取第一预设数量的有效样本的步骤或获取第四预设数量的第一有效样本的步骤之前,所述方法还包括:获取一个或多个用户的金融交易数据;从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本;筛选掉所述候选样本中身份特征不是有效数据的样本;将筛选后的候选样本按照预设的清洗规则进行清洗处理,以得到有效样本。可选地,所述预设的清洗规则包括:1)若所述候选样本中有超过第六预设数量的特征数据为空,则删除所述候选样本;2)若每个所述候选样本的第一特征为空或无效,则删除所述第一特征;3)若每个所述候选样本的第二特征为相同值,则删除所述第二特征。可选地,从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本,包括:以用户为颗粒度且以用户的身份特征作为识别,基于spark框架从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本。可选地,在将所述第一预设数量的有效样本分成K份,轮流将其中K-1份作为第一训练集,剩下的1份作为第一测试集的步骤或者将所述第四预设数量的第一有效样本分成K份,轮流将其中K-1份作为第二训练集,剩下的1份作为第二测试集的步骤之后,所述方法还包括:将每一期测试集与整个K-1份训练集拼接;其中,所述测试集为第一测试集或第二测试集,所述训练集对应为第一训练集或第二训练集;去除每一期所述测试集中每个有效样本的异常值。可选地,所述去除每一期所述测试集中每个有效样本的异常值,包括:确定拼接后的集合中不同有效样本的相同特征数据的分位点;判断拼接后的集合中不同有效样本的相同特征数据的分位点是否低于第一分位点或高于第二分位点;若第一特征数据的分位点低于第一分位点,则将所述第一特征数据的分位点用所述第一分位点代替;若第二特征数据的分位点高于第二分位点,则将所述第二特征数据的分位点用所述第二分位点代替。可选地,在将所述第一预设数量的有效样本划分为第一训练集和第一测试集的步骤之后,所述方法还包括:将每个所述训练集中有效样本的特征数据进行标准化处理。可选地,所述将每个所述训练集中有效样本的特征数据进行标准化处理,包括:根据以下公式,将每个所述训练集中有效样本的特征数据进行标准化处理:其中,x表示每个所述第一训练集或第二训练集中有效样本的特征数据;median(x)表示中位数函数;std(x)表示标准差函数。可选地,所述有效样本包括以下维度:身份特征、履约能力、履约意愿、行为轨迹、社会关系和标的特征。可选地,所述聚类模型为Kmeans聚类模型,所述第一预测模型和所述第二预测模型为Xgboost模型。为实现上述目的,根据本专利技术实施例的另一个方面,提供了一种欺诈行为的监测方法。本专利技术实施例的欺诈行为的监测方法包括:接收用户发送的提取或贷款的请求,根据所述请求获取所述用户在预设的特征库中的特征数据;所述请求携带有所述用户上报的金融交易数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;根据所述用户上报的金融交易数据以及所述用户在预设的特征库本文档来自技高网...

【技术保护点】
1.一种金融交易数据处理方法,其特征在于,包括:/n获取第一预设数量的有效样本;其中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;/n接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次;/n所述聚类模型以及所述第一预测模型的训练过程:将所述第一预设数量的有效样本分成K份,轮流将其中K-1份作为第一训练集,剩下的1份作为第一测试集,每个所述第一测试集对应一次训练过程,共经过K次训练过程;轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率;/n根据每次循环过程中K次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。/n...

【技术特征摘要】
1.一种金融交易数据处理方法,其特征在于,包括:
获取第一预设数量的有效样本;其中,所述有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据,所述金融交易数据至少包括:个人信息以及缴存、提取和/或贷款的数据;
接收第二预设数量的第一指令,不同的所述第一指令指示了不同的第一预测模型的初始模型参数,基于所述第二预设数量的第一指令,将聚类模型以及第一预测模型的训练过程循环计算所述第二预设数量次;
所述聚类模型以及所述第一预测模型的训练过程:将所述第一预设数量的有效样本分成K份,轮流将其中K-1份作为第一训练集,剩下的1份作为第一测试集,每个所述第一测试集对应一次训练过程,共经过K次训练过程;轮流采用聚类模型将每个所述第一训练集聚类成第三预设数量的簇,以得到每个所述第一训练集中有效样本的第一分类标签,将每个所述第一训练集中有效样本的第一分类标签分别加入对应的有效样本;轮流将加入所述第一分类标签的有效样本输入到第一预测模型中,确定每次迭代计算得到的所述第一预测模型的训练模型参数;轮流通过每个所述第一测试集验证每次训练过程得到的所述第一预测模型的预测准确率;
根据每次循环过程中K次训练过程的预测准确率,确定每次循环过程对应的第一评价指标;将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数,通过训练得到的所述聚类模型和所述第一预测模型确定用户出现欺诈行为的概率。


2.根据权利要求1所述的方法,其特征在于,所述将所述第二预设数量的循环过程中所述第一评价指标最高的初始模型参数和训练模型参数作为所述第一预测模型的目标模型参数的步骤之后,所述方法还包括:
获取第四预设数量的第一有效样本;其中,所述第一有效样本是从用户的金融交易数据中提取得到的至少一个维度的特征数据;
接收第五预设数量的第二指令,不同的所述第二指令指示了不同的第二预测模型的初始模型参数,基于所述第五预设数量的第二指令,将第二预测模型的训练过程循环计算所述第五预设数量次;
所述第二预测模型的训练过程:将所述第四预设数量的第一有效样本分成K份,轮流将其中K-1份作为第二训练集,剩下的1份作为第二测试集;轮流将所述第一预测模型所得的预测结果作为第二分类标签加入所述第一有效样本中,将所述第一有效样本输入第二预测模型中,确定每次迭代计算得到的所述第二预测模型的训练模型参数;轮流通过每个所述第二测试集验证每次训练过程得到的所述第二预测模型的预测准确率;
根据每次循环过程中K次训练过程的预测准确率,确定每次循环过程对应的第二评价指标;将所述第五预设数量的循环过程中所述第二评价指标最高的初始模型参数和训练模型参数作为所述第二预测模型的目标模型参数,通过所述第二预测模型确定在同意用户的提取或贷款请求后用户出现欺诈行为的概率。


3.根据权利要求2所述的方法,其特征在于,在获取第一预设数量的有效样本的步骤或获取第四预设数量的第一有效样本的步骤之前,所述方法还包括:
获取一个或多个用户的金融交易数据;
从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本;
筛选掉所述候选样本中身份特征不是有效数据的样本;
将筛选后的候选样本按照预设的清洗规则进行清洗处理,以得到有效样本。


4.根据权利要求3所述的方法,其特征在于,所述预设的清洗规则包括:
1)若所述候选样本中有超过第六预设数量的特征数据为空,则删除所述候选样本;
2)若每个所述候选样本的第一特征为空或无效,则删除所述第一特征;
3)若每个所述候选样本的第二特征为相同值,则删除所述第二特征。


5.根据权利要求3所述的方法,其特征在于,从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本,包括:
以用户为颗粒度且以用户的身份特征作为识别,基于spark框架从所述一个或多个用户的金融交易数据中提取预设的特征库中每个维度的特征数据,得到候选样本。


6.根据权利要求2所述的方法,其特征在于,在将所述第一预设数量的有效样本分成K份,轮流将其中K-1份作为第一训练集,剩下的1份作为第一测试集的步骤或者将所述第四预设数量的第一有效样本分成K份,轮流将其中K-1份作为第二训练集,剩下的1份作为第二测试集的步骤之后,所述方法还包括:
将每一期测试集与整个K-1份训练集拼接;其中,所述测试集为第一测试集或第二测试集,所述训练集对应为第一训练集或第二训练集;
去除每一期所述测试集中每个有效样本的异常值。


7.根据权利要求6所述的方法,其特征在于,所述去除每一期所述测试集中每个有效样本的异常值,包括:
确定拼接后的集合中不同有效样本的相同特征数据的分位点;
判断拼接后的集合中不同有效样本的相同特征数据的分位点是否低于第一分位点或高于第二分位点;
若第一特征数据的分位点低于第一分位点,则将所述第一特征数据的分位点用所述第一分位点代替;
若第二特征数据的分位点高于第二分位点,则将所述第二特征数据的分位点用所述第二分位点代替。


8.根据权利要求6所述的方法,其特征在于,在将所述第一预设数量的有效样本划分为第一训练集和第一测试集的步骤之后,所述方法还包括:
将每个所述训练集中有效样本的特征数据进行标准化处理。


9.根据权利要求8所述的方法,其特征在于,所述将每个所述训练集中有效样本的特征数据进行标准化处理,包括:
根据以下公式,将每个所述训练集中有效样本的特征数据进行标准化处理:



其中,x表示每个所述第一训练集或第二训练集中有效样本的特征...

【专利技术属性】
技术研发人员:罗粒刘朔臣谢康黄艳秋郭翔刘鑫
申请(专利权)人:中国建设银行股份有限公司建信金融科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1