风险识别方法、装置、设备及介质制造方法及图纸

技术编号:22818074 阅读:22 留言:0更新日期:2019-12-14 13:30
本申请公开了一种风险识别方法、装置、设备及介质,应用于人工智能中的机器学习领域。该方法包括:获取在线网络业务的业务数据;将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;根据所述风险识别结果对所述在线网络业务进行处理。该方法可以将表现期不足的样本用于模型训练。

【技术实现步骤摘要】
风险识别方法、装置、设备及介质
本申请涉及人工智能中的机器学习领域,特别涉及一种风险识别方法、装置、设备及介质。
技术介绍
基于互联网提供的网络服务中存在一定的安全风险。比如对于金融借贷类的网络服务中,需要识别用户的信用程度。相关技术中采用机器学习模型对网络服务的风险进行识别。预先收集白样本和黑样本,白样本包括多个在表现期内没有风险行为的样本,黑样本包括多个在表现期内存在风险行为的样本。采用白样本和黑样本对机器学习模型进行分类任务的训练,得到具有分类能力的机器学习模型。上述表现期的时间长度较长,比如6个月或1年,因此在实际训练过程中能够用来训练的样本数量有限。
技术实现思路
本申请实施例提供了一种风险识别方法、装置、设备及介质,可以解决表现期的时间长度较长,比如6个月或1年,因此在实际训练过程中能够用来训练的样本数量有限的问题。所述技术方案如下:根据本申请的一个方面,提供了一种风险识别方法,所述方法包括:获取在线网络业务的业务数据;将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;根据所述风险识别结果对所述在线网络业务进行处理。根据本申请的另一方面,提供了一种音乐片段的选取装置,所述装置包括:获取模块,用于获取在线网络业务的业务数据;风险识别模块,用于将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;处理模块,用于根据所述风险识别结果对所述在线网络业务进行处理。根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的风险识别方法。根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的风险识别方法。本申请实施例提供的技术方案带来的有益效果至少包括:通过利用含有观察时间达到表现期的第一白样本集和第一黑样本集,以及观察时间未达到表现期的第二白样本集和第二黑样本集的总训练集训练风险识别模型,使样本的收集不局限于表现期充足的样本,还有效利用了表现期不足的样本,扩大了样本的收集范围,为训练模型提供了更多的有效样本。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本申请一个示例性实施例提供的服务器的实施环境框图;图2是本申请一个示例性实施例提供的风险识别方法的流程图;图3是本申请一个示例性实施例提供的表现期示意图;图4是本申请另一个示例性实施例提供的风险识别方法的流程图;图5是本申请另一个示例性实施例提供的风险识别方法的流程图;图6是本申请一个示例性实施例提供的准确率和召回率示意图;图7是本申请另一个示例性实施例提供的风险识别方法的流程图;图8是本申请另一个示例性实施例提供的风险识别方法的流程图;图9是本申请另一个示例性实施例提供的风险识别方法的流程图;图10是本申请一个示例性实施例提供的风险识别装置的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。参考图1,示出了本申请一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括终端120和服务器140。终端120与服务器140之间通过有线或者无线网络相互连接。可选地,终端120可以包括笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人中的至少一种。终端120包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现收集样本的方法。第一存储器可以包括但不限于以下几种:随机存取存储器(RandomAccessMemory,RAM)、只读存储器(ReadOnlyMemory,ROM)、可编程只读存储器(ProgrammableRead-OnlyMemory,PROM)、可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM)、以及电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)。第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(CentralProcessingUnit,CPU)或者网络处理器(NetworkProcessor,NP)。可选地,终端120中包括显示器;显示器用于显示样本特征,例如,样本借贷状态、样本是否逾期未还款、样本信誉度等。服务器140包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本申请提供的风险识别方法。示例性的,第二存储器中存储有风险识别模型144,上述风险识别模型144被第二处理器调用以实现风险识别方法中服务器侧执行的步骤。可选地,第二存储器可以包括但不限于以下几种:RAM(RandomAccessMemory,随机存取存储器)、ROM(ReadOnlyMemory,只读存储器)、PROM(ProgrammableReadOnlyMemory,可编程只读存储器)、EPROM(ErasableProgrammableReadOnlyMemory,可擦除可编程只读存储器)、EEPROM(ElectricallyErasableProgrammableReadOnlyMemory,带电可擦除可编程只读存储器)。可选地,第二处理器通过调用第二存储器中存储的风险识别模型144,以实现上述风险识别方法。可选地,第二处理器可以是通用处理器,比如,CPU(CentralProcessingUnit,中央处理器)或者NP(NetworkProcessor,网络处理器)。示意性的,本申请提供的风险识别方法可以应用于贷款软件、信用软件、支付软件等金融产品(终端)中。图2示出了本申请一个示例性实施例提供的风险识别方法的流程图。该方法可以由图1所示的服务器来执行。所述方法包括:本文档来自技高网...

【技术保护点】
1.一种风险识别方法,其特征在于,所述方法包括:/n获取在线网络业务的业务数据;/n将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;/n根据所述风险识别结果对所述在线网络业务进行处理。/n

【技术特征摘要】
1.一种风险识别方法,其特征在于,所述方法包括:
获取在线网络业务的业务数据;
将所述业务数据输入至风险识别模型中得到风险识别结果,所述风险识别模型是根据总训练集训练得到的,所述总训练集包括:观察时间达到表现期的第一白样本集和第一黑样本集,以及所述观察时间未达到所述表现期的第二白样本集和第二黑样本集;
根据所述风险识别结果对所述在线网络业务进行处理。


2.根据权利要求1所述的方法,其特征在于,所述第二白样本集是基于所述第一白样本集对所述观察时间未达到所述表现期的目标样本集进行半监督学习得到的;
所述第二黑样本集是在所述观察时间内出现风险行为的样本集。


3.根据权利要求2所述的方法,其特征在于,所述第二白样本集中的第二白样本是采用如下方式训练得到的:
采用自训练集训练得到分类模型,所述自训练集包括所述第一白样本集和所述第一黑样本集;
采用所述分类模型对所述目标样本集中的样本进行识别,得到所述目标样本集中的每个样本的识别标定结果;
将所述识别标定结果为白样本且与所述第一白样本集之间的聚类距离满足聚类条件的样本,作为所述第二白样本添加至所述自训练集中;
重新执行所述采用自训练集训练得到所述分类模型的步骤。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
计算所述第一白样本集的第一均值和第一方差作为聚类中心;
计算所述识别标定结果为白样本的样本与所述聚类中心的欧式距离,作为所述聚类距离。


5.根据权利要求3所述的方法,其特征在于,所述采用所述分类模型对所述目标样本集中的样本进行识别,得到所述目标样本集中的每个样本的识别标定结果,包括:
采用所述分类模型对所述目标样本集中的样本进行识别,得到所述目标样本集中的每个样本的识别标定概率;
当所述目标样本集中的样本的所述识别标定概率大于黑白划分阈值时,确定所述样本的识别标定结果为所述黑样本;
当所述目标样本集中的样本的所述识别标定概率小于所述黑白划分阈值时,确定所述样本的识别标定结果为所述白样本;
其中,所述黑白样本划分阈值是基于所述识别标定概率标定为白样本和黑样本时的阈值。


6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述第二黑样本集的识别准确率大于第一阈值,且对所述第二黑样本集的召回率大于第二阈值时的识别标定概率,确定为所述黑白样本划分阈值。


7.根据权利要...

【专利技术属性】
技术研发人员:杨情房溪朱晨陈鹏程
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1