风险识别方法、装置、设备及介质制造方法及图纸

技术编号：22818074 阅读：22 留言：0更新日期：2019-12-14 13:30

本申请公开了一种风险识别方法、装置、设备及介质，应用于人工智能中的机器学习领域。该方法包括：获取在线网络业务的业务数据；将所述业务数据输入至风险识别模型中得到风险识别结果，所述风险识别模型是根据总训练集训练得到的，所述总训练集包括：观察时间达到表现期的第一白样本集和第一黑样本集，以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集；根据所述风险识别结果对所述在线网络业务进行处理。该方法可以将表现期不足的样本用于模型训练。

全部详细技术资料下载

【技术实现步骤摘要】
风险识别方法、装置、设备及介质
本申请涉及人工智能中的机器学习领域，特别涉及一种风险识别方法、装置、设备及介质。
技术介绍
基于互联网提供的网络服务中存在一定的安全风险。比如对于金融借贷类的网络服务中，需要识别用户的信用程度。相关技术中采用机器学习模型对网络服务的风险进行识别。预先收集白样本和黑样本，白样本包括多个在表现期内没有风险行为的样本，黑样本包括多个在表现期内存在风险行为的样本。采用白样本和黑样本对机器学习模型进行分类任务的训练，得到具有分类能力的机器学习模型。上述表现期的时间长度较长，比如6个月或1年，因此在实际训练过程中能够用来训练的样本数量有限。
技术实现思路
本申请实施例提供了一种风险识别方法、装置、设备及介质，可以解决表现期的时间长度较长，比如6个月或1年，因此在实际训练过程中能够用来训练的样本数量有限的问题。所述技术方案如下：根据本申请的一个方面，提供了一种风险识别方法，所述方法包括：获取在线网络业务的业务数据；将所述业务数据输入至风险识别模型中得到风险识别结果，所述风险识别模型是根据总训练集训练得到的，所述总训练集包括：观察时间达到表现期的第一白样本集和第一黑样本集，以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集；根据所述风险识别结果对所述在线网络业务进行处理。根据本申请的另一方面，提供了一种音乐片段的选取装置，所述装置包括：获取模块，用于获取在线网络业务的业务数据；风险识别模块，用...

【技术保护点】
1.一种风险识别方法，其特征在于，所述方法包括：/n获取在线网络业务的业务数据；/n将所述业务数据输入至风险识别模型中得到风险识别结果，所述风险识别模型是根据总训练集训练得到的，所述总训练集包括：观察时间达到表现期的第一白样本集和第一黑样本集，以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集；/n根据所述风险识别结果对所述在线网络业务进行处理。/n

【技术特征摘要】
1.一种风险识别方法，其特征在于，所述方法包括：
获取在线网络业务的业务数据；
将所述业务数据输入至风险识别模型中得到风险识别结果，所述风险识别模型是根据总训练集训练得到的，所述总训练集包括：观察时间达到表现期的第一白样本集和第一黑样本集，以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集；
根据所述风险识别结果对所述在线网络业务进行处理。

2.根据权利要求1所述的方法，其特征在于，所述第二白样本集是基于所述第一白样本集对所述观察时间未达到所述表现期的目标样本集进行半监督学习得到的；
所述第二黑样本集是在所述观察时间内出现风险行为的样本集。

3.根据权利要求2所述的方法，其特征在于，所述第二白样本集中的第二白样本是采用如下方式训练得到的：
采用自训练集训练得到分类模型，所述自训练集包括所述第一白样本集和所述第一黑样本集；
采用所述分类模型对所述目标样本集中的样本进行识别，得到所述目标样本集中的每个样本的识别标定结果；
将所述识别标定结果为白样本且与所述第一白样本集之间的聚类距离满足聚类条件的样本，作为所述第二白样本添加至所述自训练集中；
重新执行所述采用自训练集训练得到所述分类模型的步骤。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：
计算所述第一白样本集的第一均值和第一方差作为聚类中心；
计算所述识别标定结果为白样本的样本与所述聚类中心的欧式距离，作为所述聚类距离。

5.根据权利要求3所述的方法，其特征在于，所述采用所述分类模型对所述目标样本集中的样本进行识别，得到所述目标样本集中的每个样本的识别标定结果，包括：
采用所述分类模型对所述目标样本集中的样本进行识别，得到所述目标样本集中的每个样本的识别标定概率；
当所述目标样本集中的样本的所述识别标定概率大于黑白划分阈值时，确定所述样本的识别标定结果为所述黑样本；
当所述目标样本集中的样本的所述识别标定概率小于所述黑白划分阈值时，确定所述样本的识别标定结果为所述白样本；
其中，所述黑白样本划分阈值是基于所述识别标定概率标定为白样本和黑样本时的阈值。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：
将所述第二黑样本集的识别准确率大于第一阈值，且对所述第二黑样本集的召回率大于第二阈值时的识别标定概率，确定为所述黑白样本划分阈值。

7.根据权利要...

【专利技术属性】
技术研发人员：杨情，房溪，朱晨，陈鹏程，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人