风险识别方法、装置及服务器制造方法及图纸

技术编号:21953720 阅读:20 留言:0更新日期:2019-08-24 18:12
本说明书实施例提供了一种风险识别方法,获得待识别样本的内部信息,基于该内部信息,从公开网络中爬取获得待识别样本对应的外部信息,然后基于该样本的内部信息和所述外部信息,确定特征信息,最后,将特征信息输入目标风险识别模型,通过目标风险识别模型对所述待识别样本进行风险识别,获得风险识别结果。这样,可通过样本的内部信息去挖掘更为全面的外部信息,使得样本对应的用户画像更为全面。而目标风险识别模型也是基于训练样本的内部信息和外部信息进行训练得到,目标风险识别模型的输入考虑了样本的内部信息和外部信息。所以,能够对于外部信息中的一些潜在风险进行识别,使得风险防控能力更为全面。

Risk identification methods, devices and servers

【技术实现步骤摘要】
风险识别方法、装置及服务器
本说明书实施例涉及互联网
,尤其涉及一种风险识别方法、装置及服务器。
技术介绍
随着互联网的快速发展,越来越多的业务可以通过网络实现,如在线支付、在线购物等互联网业务。互联网在给人们生活提供便利的同时,也带来了风险。不法人员可能会进行电子业务欺诈,给其它用户造成损失。现有的风险识别主要是依靠用户预留在系统的相关信息以及在系统内部的交易信息等信息进行风险识别模型训练,风险防控能力较为单一,对于是否有剩余风险的把控和是否有新风险的探索主要靠合规经验及运营人工探索为主。所以,为了能够提升整体风控能力,亟需设计一种能够准确全面对样本进行风险识别的方案。
技术实现思路
本说明书实施例提供及一种风险识别方法、装置及服务器。第一方面,本说明书实施例提供一种风险识别方法,包括:获得待识别样本的内部信息,基于所述内部信息,从公开网络中爬取获得所述待识别样本对应的外部信息;基于所述内部信息和所述外部信息,确定特征信息;将所述特征信息输入目标风险识别模型,通过所述目标风险识别模型对所述待识别样本进行风险识别,获得风险识别结果。第二方面,本说明书实施例提供一种风险识别模型训练方法,包括:针对训练样本集中每个训练样本,基于该训练样本的内部信息,从公开网络中爬取获得该训练样本的外部信息,其中,所述训练样本集中包括已标定属性的黑样本和未标定属性的未知样本;针对训练样本集中每个训练样本,基于该基于所述训练样本集中每个训练样本对应的内部信息和外部信息,确定与该训练样本对应的特征信息;基于所述训练样本集中所有训练样本的特征信息,采用半监督机器学习算法对风险识别模型进行训练,获得目标风险识别模型。第三方面,本说明书实施例提供一种风险识别装置,包括:获取单元,用于获得待识别样本的内部信息,基于所述内部信息,从公开网络中爬取获得所述待识别样本对应的外部信息;确定单元,用于基于所述内部信息和所述外部信息,确定特征信息;识别单元,用于将所述特征信息输入目标风险识别模型,通过所述目标风险识别模型对所述待识别样本进行风险识别,获得风险识别结果。第四方面,本说明书实施例提供一种风险识别模型训练装置,包括:获取单元,用于针对训练样本集中每个训练样本,基于该训练样本的内部信息,从公开网络中爬取获得该训练样本的外部信息,其中,所述训练样本集中包括已标定属性的黑样本和未标定属性的未知样本;确定单元,用于针对训练样本集中每个训练样本,基于该基于所述训练样本集中每个训练样本对应的内部信息和外部信息,确定与该训练样本对应的特征信息;训练单元,用于基于所述训练样本集中所有训练样本的特征信息,采用半监督机器学习算法对风险识别模型进行训练,获得目标风险识别模型。第五方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述风险识别方法和所述风险识别模型训练方法的步骤。第六方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述风险识别模型训练方法的步骤。本说明书实施例有益效果如下:本说明书实施例中,首先,获得待识别样本的内部信息,基于该内部信息,从公开网络中爬取获得待识别样本对应的外部信息,然后基于该样本的内部信息和所述外部信息,确定特征信息,最后,将特征信息输入目标风险识别模型,通过目标风险识别模型对所述待识别样本进行风险识别,获得风险识别结果。这样,可通过样本的内部信息去挖掘更为全面的外部信息,使得样本对应的用户画像更为全面。而目标风险识别模型也是基于训练样本的内部信息和外部信息进行训练得到,目标风险识别模型的输入考虑了样本的内部信息和外部信息。所以,能够对于外部信息中的一些潜在风险进行识别,使得风险防控能力更为全面,可以对未知风险进行有效防控。附图说明图1为本说明书实施例风险识别应用场景示意图;图2为本说明书实施例第一方面风险识别方法流程图;图3为本说明书实施例第三方面风险识别装置结构示意图;图4为本说明书实施例第五方面服务器结构示意图。具体实施方式为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。请参见图1,为本说明书实施例的风险识别模型训练应用场景示意图。终端100位于用户侧,与网络侧的服务器200通信。用户可通过终端100中的APP或网站产生实时事件以及相关的一些业务数据。服务器200收集各个终端通过系统产生的实时事件,即可挑选出训练样本。本说明书实施例可应用于风险样本识别的风控场景。第一方面,本说明书实施例提供一种风险识别方法,请参考图2,包括步骤S201-S203。S201:获得待识别样本的内部信息,基于内部信息,从公开网络中爬取获得待识别样本对应的外部信息;S202:基于内部信息和外部信息,确定特征信息;S203:将特征信息输入目标风险识别模型,通过目标风险识别模型对待识别样本进行风险识别,获得风险识别结果。其中,目标风险识别模型通过如下步骤训练获得:针对训练样本集中每个训练样本,基于该训练样本的内部信息,从公开网络中爬取获得该训练样本的外部信息,其中,训练样本集中包括已标定属性的黑样本和未标定属性的未知样本;针对训练样本集中每个训练样本,确定与该训练样本对应的特征信息;基于训练样本集中所有训练样本的特征信息,采用半监督机器学习算法对风险识别模型进行训练,获得目标风险识别模型。具体的,在本实施例中,在采用目标风险识别模型对待识别样本进行风险识别之前,需要预先进行目标风险识别模型的训练,在训练时,首先确定训练样本,训练样本如前述所示,可以是各个终端侧在系统内产生的业务数据,训练样本中包括已经标记好属性的黑样本,还包括未知属性的未知样本。例如:在反洗钱场景中,训练样本为申请资金转移的用户,其中,确定洗钱用户对应的样本为黑样本。又如:在保险理赔场景中,训练样本为申请理赔的用户,其中,确定骗保用户对应的样本为黑样本,反洗钱和保险理赔场景中已定反洗钱事实和骗保事实的黑样本较少,缺乏大量黑样本标记,从而导致风险识别模型训练模型精准度大大折扣,如何解决这种场景下的模型训练问题是非常重要工作。本实施例中的方法,通过引入内部已标注的样本,来充分运用外部网络爬取的外部信息进行风险挖掘,与内部的风险监控相辅相成,在对外部的信息进行爬取,然后针对样本的内部信息和外部信息,提取到对应的特征信息后,结合内部具体的场景标注的黑样本信息,利用半监督机器学习算法对训练样本进行模型训练,得到的目标风险识别模型可以防御些新型未知风险,并且,由于训练样本对应的信息更加全面,目标风险识别模型的识别精度也会随之提升,提升外部情报数据对内部风险防控所产生的价值。本实施例中的内部信息是指系统内部能够获取到的信息,外部信息是公开在公开网络中的信息。首先,本实施例中的方法,通过步骤S201针对训练样本集中每个训练样本,基于该训练样本的内部信息,从公开网络中爬取获得该训练样本的外部信息。具体的,可通过如下本文档来自技高网...

【技术保护点】
1.一种风险识别方法,包括:获得待识别样本的内部信息,基于所述内部信息,从公开网络中爬取获得所述待识别样本对应的外部信息;基于所述内部信息和所述外部信息,确定特征信息;将所述特征信息输入目标风险识别模型,通过所述目标风险识别模型对所述待识别样本进行风险识别,获得风险识别结果。

【技术特征摘要】
1.一种风险识别方法,包括:获得待识别样本的内部信息,基于所述内部信息,从公开网络中爬取获得所述待识别样本对应的外部信息;基于所述内部信息和所述外部信息,确定特征信息;将所述特征信息输入目标风险识别模型,通过所述目标风险识别模型对所述待识别样本进行风险识别,获得风险识别结果。2.根据权利要求1所述的方法,所述基于所述内部信息,从公开网络中爬取获得所述待识别样本对应的外部信息,包括:以所述内部信息中的身份信息作为关键信息,通过预设搜索引擎对所述关键信息进行搜索,从搜索结果中爬取获得每个搜索结果的摘要信息作为外部信息;和/或以所述内部信息中的身份信息作为关键信息,将从预设门户网站中爬取的与所述关键信息对应的信息作为外部信息。3.根据权利要求1所述的方法,所述基于所述内部信息和所述外部信息,确定特征信息,包括:从预设维度对所述内部信息和所述外部信息进行特征提取,形成与所述待识别样本对应的特征向量。4.根据权利要求3所述的方法,所述预设维度包括相似性维度,所述从预设维度对所述内部信息和所述外部信息进行特征提取,形成与所述待识别样本对应的特征向量,包括:确定预设黑样本对应的目标特征向量;将所述内部信息和所述外部信息转换为词向量形式的信息后,从所述词向量形式的信息中提取出与所述目标特征向量对应的相似性特征向量。5.根据权利要求3所述的方法,所述预设维度包括统计性维度,所述从预设维度对所述内部信息和所述外部信息进行特征提取,形成与所述待识别样本对应的特征向量,包括:从所述内部信息和所述外部信息中提取出统计性特征,形成统计性特征向量。6.根据权利要求3所述的方法,所述预设维度包括独特性维度,所述从预设维度对所述内部信息和所述外部信息进行特征提取,形成与所述待识别样本对应的特征向量,包括:将所述内部信息和所述外部信息转换为词向量形式的信息后,从所述词向量形式的信息中提取出与独特性特征向量,其中,所述独特性特征向量包括出现在所述内部信息和所述外部信息中的多个元素分别对应的独特性值,每个元素的独特性值为该元素在所述内部信息和所述外部信息中出现的次数与该元素在预设样本集对应的信息出现的总次数的比值。7.根据权利要求3所述的方法,所述预设维度包括情报性维度,所述从预设维度对所述内部信息和所述外部信息进行特征提取,形成与所述待识别样本对应的特征向量,包括:将所述内部信息和所述外部信息转换为词向量形式的信息后,将所述词向量形式的信息通过特征均值处理得到情报性特征向量或将所述词向量形式的信息通过主成分分析处理得到情报性特征向量。8.根据权利要求3-7中任一权利要求所述的方法,将所述特征信息输入目标风险识别模型之前,通过如下步骤训练获得所述目标风险识别模型:针对训练样本集中每个训练样本,基于该训练样本的内部信息,从公开网络中爬取获得该训练样本的外部信息,其中,所述训练样本集中包括已标定属性的黑样本和未标定属性的未知样本;针对训练样本集中每个训练样本,确定与该训练样本对应的特征信息;基于所述训练样本集中所有训练样本的特征信息,采用半监督机器学习算法对风险识别模型进行训练,获得目标风险识别模型。9.一种风险识别模型训练方法,包括:针对训练样本集中每个训练样本,基于该训练样本的内部信息,从公开网络中爬取获得该训练样本的外部信息,其中,所述训练样本集中包括已标定属性的黑样本和未标定属性的未知样本;针对训练样本集中每个训练样本,基于该训练样本对应的内部信息和外部信息,确定与该训练样本对应的特征信息;基于所述训练样本集中所有训练样本的特征信息,采用半监督机器学习算法对风险识别模型进行训练,获得目标风险识别模型...

【专利技术属性】
技术研发人员:周绪刚
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1