一种违规账户的风险评估与识别方法及装置制造方法及图纸

技术编号:37509320 阅读:16 留言:0更新日期:2023-05-07 09:48
本申请公开了一种违规账户的风险评估与识别方法及装置,其方法包括:获取账户的交易文本数据,交易文本数据包含不同类型的数据;对数据做标识化分词并输入线性投射层,获得文本向量;将向量输入账户特征提取模型,获得特征向量;将特征向量输入风险评估模型,获得风险概率分布后进行向量拼接,获得风险概率分布矩阵;将风险概率分布矩阵输入卷积神经网络模型,获得风险特征向量,对风险特征向量做平均池化融合并输入Softmax函数,获得识别结果;根据结果确定是否违规。本发明专利技术通过深度学习技术提取账户交易文本数据,评估风险概率,融合概率信息识别违规账户,实现了违规账户自动风险评估和智能识别。评估和智能识别。评估和智能识别。

【技术实现步骤摘要】
一种违规账户的风险评估与识别方法及装置


[0001]本专利技术涉及机器学习和企业风控领域,具体涉及一种违规账户的风险评估与识别方法及装置、存储介质、电子设备和计算机程序产品。

技术介绍

[0002]企业违规账户是指在交易过程中存在违规行为的账户。随着企业经营规模的扩大,用户账户数量也日益增多,违规行为会对企业经营产生风险,对账户进行有效的风险管理对企业的正常经营和生产有着十分重要的作用。
[0003]目前账户的违规检测方法十分有限,主要依靠人工识别和人为举报。由于企业账户交易信息量巨大且类型尤为复杂,对账户进行人工核查需要大量时间,就导致了难以及时处理相关违规账户,从而增大违规账户带来的企业经营风险。
[0004]所以如何更高效、准确地识别违规账户避免其带来的企业风险,是待解决的技术问题。

技术实现思路

[0005]基于此,有必要针对现有的问题,提供一种违规账户的风险评估与识别方法及装置。
[0006]第一方面,本申请实施例提供了一种违规账户的风险评估与识别方法,所述方法包括:获取账户的交易文本数据,所述交易文本数据包含多个不同类型的文本数据;采用独热编码方式对所述交易文本数据处理得到标识化分词,将所述标识化分词输入可学习的线性投射层,获得账户文本向量;将所述账户文本向量输入预先训练得到的账户特征提取模型,获得账户特征向量;将所述账户特征向量输入账户风险评估模型,获得账户风险概率分布;将不同类型的交易文本数据对应的账户风险概率分布进行向量拼接,获得账户风险概率分布矩阵;将所述账户风险概率分布矩阵输入卷积神经网络模型,获得风险特征向量,对所述风险特征向量进行二维平均池化融合并输入Softmax函数,获得账户识别结果;根据所述账户识别结果确定所述账户是否为违规账户。
[0007]优选地,所述采用独热编码方式对所述交易文本数据处理得到标识化分词,将所述标识化分词输入可学习的线性投射层,获得账户文本向量包括:采用独热编码方式对账户交易的所有类型文本数据进行处理,得到标识化分词,再将标识化的分词输入可学习的线性投射层,将账户交易文本数据向量化,由如下公式(1)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);
其中,线性投射层包含一层全连接神经网络,输出n个维度为256的账户文本向量。
[0008]优选地,按照下述方式预先训练得到所述账户特征提取模型:获取初始预训练模型及账户文本向量样本集,其中,所述初始预训练模型为LSTM算法构建的神经网络模型;通过所述账户文本向量样本集对所述初始预训练模型进行训练,获得所述账户特征提取模型。
[0009]优选地,所述将所述账户文本向量输入预先训练得到的账户特征提取模型,获得所述账户特征向量,包括:神经网络模型,包含4层全连接神经网络,每层网络的神经元个数为128,基于句子顺序预测的代理任务,以句子为单位随机打乱账户文本向量顺序,每次选取两个句子拼接后作为输入,使用模型提取账户特征,由如下公式(2)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2);其中,F为账户特征向量;将账户特征向量F输入一层全连接网络,神经元个数为2,再经过Softmax函数计算输出二分类结果,由如下公式(3)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);其中,为长度为2的概率分布,两个概率值分别代表句子顺序正确以及顺序错误,利用账户交易文本数据原文中的上下文信息做监督信号,采用随机梯度下降算法自监督训练优化神经网络参数,使神经网络学习账户交易文本数据中的上下文信息,优化神经网络的数据表征能力,构建账户特征提取模型,以提取出账户特征向量。
[0010]优选地,所述将所述账户特征向量输入账户风险评估模型,获得账户风险概率分布,包括:根据上述账户特征向量提取模型,提取出账户特征向量F后,再采用多层感知机网络模型,对账户特征向量F求平均作为多层感知机网络模型的输入,再将账户特征信息映射为多维度的风险概率,由如下公式(4)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4);其中,R为风险概率分布,为平均算子,多层感知机包含4层全连接神经网络,神经元个数分别为128、1024、1024、m,其中m为风险类型数量,不同风险值表示不同风险事件发现的概率,概率值域范围为(0,1),人工标注风险事件发生概率,基于均方差损失函数拟合风险概率值,利用梯度下降反向传播算法,优化神经网络概率预测的准确度,构建账户风险评估模型,最后输出账户风险概率分布。
[0011]优选地,所述将不同类型的交易文本数据对应的账户风险概率分布进行向量拼接,获得所述账户风险概率分布矩阵,包括:根据不同类型的账户文本信息利用账户特征提取模型,提取多个类型的账户特征向量,再使用账户风险评估模型,对不同类型的账户特征
进行风险评估,输出各类型账户特征的风险概率分布,将评估出的概率分布进行向量拼接,构建出二维账户风险概率分布矩阵,由如下公式(5)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5);其中,M为账户风险概率分布矩阵,为向量拼接算子,矩阵行表示不同文本数据类型,矩阵列表示不同风险类型。
[0012]优选地,所述将所述账户风险概率分布矩阵输入卷积神经网络模型,获得风险特征向量,对所述风险特征向量进行二维平均池化融合并输入Softmax函数,获得账户识别结果,包括:根据账户风险概率分布矩阵M,采用卷积神经网络模型,以概率分布矩阵M为输入,卷积神经网络输出风险特征向量,再采用二维平均池化融合账户风险特征,然后经过Softmax函数处理,最后输出账户违规状况二分类概率,由如下公式(6)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6);其中,为账户违规状况二分类概率,卷积神经网络包含4层步长为2的3x3卷积层,通道数分别为32、64、128、256;再基于人工标注的违规账户标签,计算交叉熵损失函数,由如下公式(7)计算得出:
ꢀꢀꢀ
(7);其中,p为违规状态概率值,y为人工标注,当账户状态违规时为1,否则为0,为网络权重参数;接着,采用梯度下降反向传播算法,最小化损失函数,优化卷积神经网络的违规账户分类能力,实现违规账户智能识别;利用优化后的卷积神经网络,计算分类索引,通过索引对应的账户状态输出违规账户识别结果。
[0013]第二方面,本申请实施例提供了一种违规账户的风险评估与识别装置,所述装置包括:文本数据获取单元,用于获取账户的交易文本数据,所述交易文本数据包含多个不同类型的文本数据;文本向量生成单元,用于采用独热编码方式对所述交易文本数据处理得到标识化分词,将所述标识化分词输入可学习的线性投射层,获得账户文本向量;特征向量生成单元,用于将所述账户文本向量输入预先训练得到的账户特征提取模型,获得账户特征向量;风险概率分布生成单元,用于将所述账户特征向量输入账户风险评估模型,获得账户风险概率分布;风险概率分布矩阵生成单元,用于将不同类型的交易文本数据对应的账户风险概
率分布进行向量拼接,获得账户风险概率分布矩阵;识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种违规账户的风险评估与识别方法,其特征在于,包括:获取账户的交易文本数据,所述交易文本数据包含多个不同类型的文本数据;采用独热编码方式对所述交易文本数据处理得到标识化分词,将所述标识化分词输入可学习的线性投射层,获得账户文本向量;将所述账户文本向量输入预先训练得到的账户特征提取模型,获得账户特征向量;将所述账户特征向量输入账户风险评估模型,获得账户风险概率分布;将不同类型的交易文本数据对应的账户风险概率分布进行向量拼接,获得账户风险概率分布矩阵;将所述账户风险概率分布矩阵输入卷积神经网络模型,获得风险特征向量,对所述风险特征向量进行二维平均池化融合并输入Softmax函数,获得账户识别结果;根据所述账户识别结果确定所述账户是否为违规账户。2.根据权利要求1所述的方法,其特征在于,所述采用独热编码方式对所述交易文本数据处理得到标识化分词,将所述标识化分词输入可学习的线性投射层,获得账户文本向量包括:采用独热编码方式对账户交易的所有类型文本数据进行处理,得到标识化分词,再将标识化的分词输入可学习的线性投射层,将账户交易文本数据向量化,由如下公式(1)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);其中,线性投射层包含一层全连接神经网络,输出n个维度为256的账户文本向量。3.根据权利要求1所述的方法,其特征在于,按照下述方式预先训练得到所述账户特征提取模型:获取初始预训练模型及账户文本向量样本集,其中,所述初始预训练模型为LSTM算法构建的神经网络模型;通过所述账户文本向量样本集对所述初始预训练模型进行训练,获得所述账户特征提取模型。4.根据权利要求3所述的方法,其特征在于,所述将所述账户文本向量输入预先训练得到的账户特征提取模型,获得所述账户特征向量,包括:神经网络模型,包含4层全连接神经网络,每层网络的神经元个数为128,基于句子顺序预测的代理任务,以句子为单位随机打乱账户文本向量顺序,每次选取两个句子拼接后作为输入,使用模型提取账户特征,由如下公式(2)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2);其中,F为账户特征向量;将账户特征向量F输入一层全连接网络,神经元个数为2,再经过Softmax函数计算输出二分类结果,由如下公式(3)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);其中,为长度为2的概率分布,两个概率值分别代表句子顺序正确以及顺序错误,
利用账户交易文本数据原文中的上下文信息做监督信号,采用随机梯度下降算法自监督训练优化神经网络参数,使神经网络学习账户交易文本数据中的上下文信息,优化神经网络的数据表征能力,构建账户特征提取模型,以提取出账户特征向量。5.根据权利要求4所述的方法,其特征在于,所述将所述账户特征向量输入账户风险评估模型,获得账户风险概率分布,包括:根据上述账户特征向量提取模型,提取出账户特征向量F后,再采用多层感知机网络模型,对账户特征向量F求平均作为多层感知机网络模型的输入,再将账户特征信息映射为多维度的风险概率,由如下公式(4)计算得出:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4);其中,R为风险概率分布,为平均算子,多层感知机包含4层全连接神经网络,神经元个数分别为128、1024、1024、m,其中m为风险类型数量,不同风险值表示不同风险事件发现的概率,概率值域范围为(0,1),人工标注风...

【专利技术属性】
技术研发人员:胡为民郑喜刘钊
申请(专利权)人:深圳市迪博企业风险管理技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1