基于人工智能的风险识别方法、装置、计算机设备及介质制造方法及图纸

技术编号:26378432 阅读:31 留言:0更新日期:2020-11-19 23:47
本发明专利技术涉及人工智能技术领域,提供一种基于人工智能的风险识别方法、装置、计算机设备及介质,包括:采用XDeep FM模型提取出多个结构化数据中的多个高阶特征数据;根据结构化数据和高阶特征生成正负样本数据集,根据正负样本数据集中的风险样本对之间的相似度确定正负样本数据集的相似度分布,根据相似度分布为正负样本数据集生成不同的权重;基于正样本数据集及对应的权重、负样本数据集及对应的权重训练神经网络得到风险识别模型;输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。本发明专利技术可应用于金融领域,能够提高识别用户的风险级别的准确率。

【技术实现步骤摘要】
基于人工智能的风险识别方法、装置、计算机设备及介质
本专利技术涉及人工智能
,具体涉及一种基于人工智能的风险识别方法、装置、计算机设备及介质。
技术介绍
随着互联网、物联网、传感器等技术的快速发展,催生出了一种新的金融工具-互联网金融服务。互联网金融服务能够为没有抵押品且很可能被传统金融机构拒绝的人群提供了帮助,在金融领域中起着重要作用。对于提供此类金融服务的平台,主要挑战在于对用户进行风险管理和信用评分。然而,专利技术人在实现本专利技术的的过程中发现,在对用户进行风险管理时,经常要面对大量原始数据,而传统的风险评分或者信用评分在很大程度上取决于领域专家知识,且一次仅能构建一个特征,特征构建效率极其低下,导致风险评估效率较低;此外,凭直觉和反复试验构建的特征和权重,导致风险评估准确率较低。
技术实现思路
鉴于以上内容,有必要提出一种基于人工智能的风险识别方法、装置、计算机设备及介质,能够自动生成数据集并为数据集分配不同的权重,能够提高识别用户的风险级别的准确率。本专利技术的第一方面提供一种基于人工智能的风险识别方法,所述方法包括:对多个用户数据进行结构化处理得到多个结构化数据;采用XDeepFM模型提取出所述多个结构化数据中的多个高阶特征数据;根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对;根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布;根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重;基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得到风险识别模型;输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。根据本专利技术的一个可选的实施例,所述根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集包括:将所述多个高阶特征数据与所述多个结构化数据进行两两组合得到多个样本数据;为每个用户数据生成第一风险标识或者第二风险标识;根据所述第一风险标识及与所述第一风险标识对应的样本数据生成正样本数据集;根据所述第二风险标识及与所述第二风险标识对应的样本数据生成负样本数据集。根据本专利技术的一个可选的实施例,所述对多个用户数据进行结构化处理得到多个结构化数据包括:获取所述多个用户数据中的多个非结构化数据及多个原始结构化数据;采用证据权重算法对所述多个非结构化数据进行编码得到多个编码数据;对所述多个编码数据及所述多个原始结构化数据进行数据清洗得到多个结构化数据。根据本专利技术的一个可选的实施例,所述根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重包括:基于所述第一相似度分布及所述第二相似度分布,确定分类正确的第一样本数据集及确定分类错误的第二样本数据集;将所述第一相似度分布与所述第二相似度分布的交叉点对应的相似度作为样本数据集的相似度分布的均值;在所述均值的基础上减少预设第一值并作为所述第一样本数据集中每个风险样本对的第一权重;在所述均值的基础上增加预设第二值并作为所述第二样本数据集中每个风险样本对的第二权重。根据本专利技术的一个可选的实施例,在确定分类正确的第一样本数据集及确定分类错误的第二样本数据集之后,所述方法还包括:对所述第一样本数据集进行缺失值填充得到第一目标样本数据集,对所述第二样本数据集进行缺失值填充得到第二目标样本数据集;计算所述第一目标样本数据集的第一群体稳定性指标和第一信息价值指标,及计算所述第二目标样本数据集的第二群体稳定性指标和第二信息价值指标;根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集。根据本专利技术的一个可选的实施例,所述根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集包括:剔除所述第一目标样本数据集中大于第一群体稳定性指标阈值的第一群体稳定性指标对应的第一目标风险样本对,并对剔除所述第一目标风险样本对之后的第一目标样本数据集中的风险样本对的第一信息价值指标进行排序,获取排序在前预设第一数量的第一信息价值指标对应的第二目标风险样本对,确定所述第二目标风险样本对为更新后的第一目标样本数据集;剔除所述第二目标样本数据集中大于第二群体稳定性指标阈值的第二群体稳定性指标对应的第三目标风险样本对,并对剔除所述第三目标风险样本对之后的第二目标样本数据集中的风险样本对的第二信息价值指标进行排序,获取排序在前预设第二数量的第二信息价值指标对应的第四目标风险样本对,确定所述第四目标风险样本对为更新后的所述第二目标样本数据集。根据本专利技术的一个可选的实施例,基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练所述神经网络得到风险识别模型包括:基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重对所述神经网络进行第一轮训练;获取第一轮训练的每个用户的预测结果及对应的真实结果;根据所述预测结果及对应的真实结果计算准确率;当所述准确率小于所述预设准确率阈值时,在所述第一权重的基础上减少所述预设第一值得到第三权重,及在所述第二权重的基础上增加所述预设第二值得到第四权重;基于所述正样本数据集及所述第三权重、所述负样本数据集及所述第四权重对所述神经网络进行第二轮训练,重复上述过程,直至所述准确率大于或者等于所述预设准确率阈值,停止所述神经网络的训练,得到风险识别模型。本专利技术的第二方面提供一种基于人工智能的风险识别装置,所述装置包括:结构化处理模块,用于对多个用户数据进行结构化处理得到多个结构化数据;特征提取模块,用于采用XDeepFM模型提取出所述多个结构化数据中的多个高阶特征数据;数据集生成模块,用于根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对;分布确定模块,用于根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布;权重生成模块,用于根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重;模型训练模块,用于基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得本文档来自技高网...

【技术保护点】
1.一种基于人工智能的风险识别方法,其特征在于,所述方法包括:/n对多个用户数据进行结构化处理得到多个结构化数据;/n采用XDeep FM模型提取出所述多个结构化数据中的多个高阶特征数据;/n根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对;/n根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布;/n根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重;/n基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得到风险识别模型;/n输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。/n

【技术特征摘要】
1.一种基于人工智能的风险识别方法,其特征在于,所述方法包括:
对多个用户数据进行结构化处理得到多个结构化数据;
采用XDeepFM模型提取出所述多个结构化数据中的多个高阶特征数据;
根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集,所述正样本数据集包括多个第一风险样本对,所述负样本数据集包括多个第二风险样本对;
根据所述第一风险样本对之间的相似度确定所述正样本数据集的第一相似度分布,根据所述第二风险样本对之间的相似度确定所述负样本数据集的第二相似度分布;
根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重;
基于所述正样本数据集及所述第一权重、所述负样本数据集及所述第二权重训练神经网络得到风险识别模型;
输入目标用户的多个目标用户数据至所述风险识别模型中进行识别得到风险级别。


2.如权利要求1所述的基于人工智能的风险识别方法,其特征在于,所述根据所述多个结构化数据和所述多个高阶特征生成正样本数据集和负样本数据集包括:
将所述多个高阶特征数据与所述多个结构化数据进行两两组合得到多个样本数据;
为每个用户数据生成第一风险标识或者第二风险标识;
根据所述第一风险标识及与所述第一风险标识对应的样本数据生成正样本数据集;
根据所述第二风险标识及与所述第二风险标识对应的样本数据生成负样本数据集。


3.如权利要求1所述的基于人工智能的风险识别方法,其特征在于,所述对多个用户数据进行结构化处理得到多个结构化数据包括:
获取所述多个用户数据中的多个非结构化数据及多个原始结构化数据;
采用证据权重算法对所述多个非结构化数据进行编码得到多个编码数据;
对所述多个编码数据及所述多个原始结构化数据进行数据清洗得到多个结构化数据。


4.如权利要求1所述的基于人工智能的风险识别方法,其特征在于,所述根据所述第一相似度分布为所述正样本数据集生成第一权重,根据所述第二相似度分布为所述负样本数据集生成第二权重包括:
基于所述第一相似度分布及所述第二相似度分布,确定分类正确的第一样本数据集及确定分类错误的第二样本数据集;
将所述第一相似度分布与所述第二相似度分布的交叉点对应的相似度作为样本数据集的相似度分布的均值;
在所述均值的基础上减少预设第一值并作为所述第一样本数据集中每个风险样本对的第一权重;
在所述均值的基础上增加预设第二值并作为所述第二样本数据集中每个风险样本对的第二权重。


5.如权利要求4所述的基于人工智能的风险识别方法,其特征在于,在确定分类正确的第一样本数据集及确定分类错误的第二样本数据集之后,所述方法还包括:
对所述第一样本数据集进行缺失值填充得到第一目标样本数据集,对所述第二样本数据集进行缺失值填充得到第二目标样本数据集;
计算所述第一目标样本数据集的第一群体稳定性指标和第一信息价值指标,及计算所述第二目标样本数据集的第二群体稳定性指标和第二信息价值指标;
根据所述第一群体稳定性指标和所述第一信息价值指标更新所述第一目标样本数据集,及根据所述第二群体稳定性指标和所述第二信息价值指标更新所述第二目标样本数据集。


6.如权利要求5所述的基于人工智能的风险识别方法,其特征在于,所述根据所述第一群体稳定性指标和所述...

【专利技术属性】
技术研发人员:卢佳卉
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1