一种风险防控决策方法、装置、系统及设备制造方法及图纸

技术编号：24614201 阅读：27 留言：0更新日期：2020-06-24 01:30

本说明书提供一种风险防控决策方法、装置、系统及设备，所述方法包括：利用风险防控系统调用风险决策模型，进行风险决策。其中，风险决策模型是利用强化学习算法，将历史风险事件数据作为样本数据训练构建获得。将强化学习应用到风险防控系统中，从使用优化算法去求一个满足多目标的决策空间问题，回归到决策问题本身。

A decision-making method, device, system and equipment for risk prevention and control

全部详细技术资料下载

【技术实现步骤摘要】
一种风险防控决策方法、装置、系统及设备
本说明书属于计算机领域，尤其涉及一种风险防控决策方法、装置、系统及设备。
技术介绍
随着计算机技术和互联网技术的发展，工作、生活中使用互联网的场景越来越多，互联网方便了人们的生活和工作，但对于互联网交流或工作的安全性也越来越被看重，风险防控就显得越来越重要。如：利用互联网进行线上交易的用户逐渐增多，日常流量特别是在大促的流量呈指数式增长，风险形式也日趋复杂多变，风险防控越来越重要。风险防控中核心的功能可以认为是风险的识别和决策，识别是指需要快速并准确识别风险；决策是指依据识别出的风险进行决策如何管控，在需要在风险和体验之间进行平衡，既要防风险又要保体验。
技术实现思路
本说明书实施例的目的在于提供一种风险防控决策方法、装置、系统及设备，提高了风险防控决策的效率和准确性。一方面，本说明书提供了一种风险防控决策方法，包括：获取待防控的风险事件数据；利用风险防控系统中的风险决策模型对所述风险事件数据进行风险防控，获得所述待防控的风险事件数据的风险决...

【技术保护点】
1.一种风险防控决策方法，包括：/n获取待防控的风险事件数据；/n利用风险防控系统中的风险决策模型对所述风险事件数据进行风险防控，获得所述待防控的风险事件数据的风险决策结果，其中，所述风险决策模型是利用强化学习算法，将历史风险事件数据和所述历史风险事件数据对应的风险结果作为样本数据，进行模型训练构建获得。/n

【技术特征摘要】
1.一种风险防控决策方法，包括：
获取待防控的风险事件数据；
利用风险防控系统中的风险决策模型对所述风险事件数据进行风险防控，获得所述待防控的风险事件数据的风险决策结果，其中，所述风险决策模型是利用强化学习算法，将历史风险事件数据和所述历史风险事件数据对应的风险结果作为样本数据，进行模型训练构建获得。

2.如权利要求1所述的方法，所述风险防控系统包括多层风险防控层，所述利用风险防控系统中的风险决策模型对所述风险事件数据进行风险防控，包括：
按照风险防控层的等级由低到高的次序，依次利用所述风险防控系统中各风险防控层调用所述风险决策模型，对所述待防控的风险事件数据进行风险防控，其中，低一等级的风险防控层输出的风险防控结果为非安全事件的风险事件数据，作为高一等级的风险防控层的输入风险事件数据，直至目标风险防控层输出风险防控结果；
将所述目标风险防控层的风险防控结果作为所述待防控的风险事件数据的风险决策结果。

3.如权利要求1所述的方法，所述风险决策模型中包括风险决策约束条件，所述风险决策约束条件的设置方法包括：
基于业务场景、用户分群、交易渠道，设置不同的打扰率、案件率和交易失败率；
基于交易渠道和风险类型，设置不同的风险核身方法。

4.如权利要求3所述的方法，各层风险防控层调用所述风险决策模型对风险事件数据进行风险防控的方法包括：
获取所述风险事件数据对应的业务场景、用户信息、交易渠道以及风险类型；
调用所述风险决策模型，结合所述风险决策约束条件和获取到的业务场景、用户信息、交易渠道以及风险类型，确定出对应的风险防控结果。

5.如权利要求1所述的方法，利用强化学习算法构建所述风险决策模型的过程包括：
设置所述风险决策模型的环境参数、风险防控动作参数、奖励参数，其中：
所述环境参数包括：业务场景、交易渠道、用户分群、风险类型、交易金额、风险分值、当天交易笔数、管控次数；
所述风险防控动作参数包括：放行、风险核身方法、直接失败交易、直接限权用户；
所述奖励参数包括不同大小的奖励值；
将历史风险事件数据输入到所述风险决策模型中，基于所述环境参数、所述风险防控动作参数、所述奖励参数对所述风险决策模型进行训练，根据所述风险决策模型输出的风险防控结果和所述历史风险事件数据对应的风险结果，返回对应的奖励值，直至模型精度达到预设阈值。

6.如权利要求5所述的方法，所述根据所述风险决策模型输出的风险防控结果和所述历史风险事件数据对应的风险结果，返回对应的奖励值，包括：
若所述历史风险事件数据对应的风险结果为安全用户，输出的风险防控结果为管控且核身通过，返回正向的第一奖励值；
若所述历史风险事件数据对应的风险结果为安全用户，输出的风险防控结果为管控且未核身通过管控，返回负向的第二奖励值，其中，所述第二奖励值大于所述第一奖励值；
若所述历史风险事件数据对应的风险结果为安全用户，输出的风险防控结果为不管控，返回正向的第三奖励值，所述第三奖励值大于所述第二奖励值；
若所述历史风险事件数据对应的风险结果为风险用户，输出的风险防控结果为管控且核身通过，返回负向的第二奖励值；
若所述历史风险事件数据对应的风险结果为风险用户，输出的风险防控结果为管控且未核身通过，返回正向的第三奖励值；
若所述历史风险事件数据对应的风险结果为风险用户，输出的风险防控结果为不管控，返回负向的第三奖励值。

7.如权利要求5所述的方法，所述方法还包括：
根据所述待防控的风险事件数据的风险决策结果和所述奖励参数，返回对应的奖励值。

8.一种风险防控决策装置，包括：
数据获取模块，用于获取待防控的风险事件数据；
风险决策模块，用于利用风险防控系统中的风险决策模型对所述风险事件数据进行风险防控，获得所述待防控的风险事件数据的风险决策结果，其中，所述风险决策模型是利用强化学习算法，将历史风险事件数据和所述历史风险事件数据对应的风险结果作为样本数据，进行模型训练构建获得。

9.如权利要求8所述的装置，所述风险防控系统包括多层风险防控层，所述风险决策模块具体用于：
按照风险防控层的等级由低到高的次序，依次利用所述风险防控系统中各风险防控层调用所述风险决策模型，对所述待防控的风险事...

【专利技术属性】
技术研发人员：付大鹏，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人