一种基于BERT模型的多目标任务信用风险识别方法及系统技术方案

技术编号:35033665 阅读:52 留言:0更新日期:2022-09-24 23:09
本申请公开了一种基于BERT模型的多目标任务信用风险识别方法及系统。首先获取目标用户的多条文本数据,通过标识符将目标用户的多条文本数据进行依次拼接得到目标识别文本;然后将目标识别文本载入预先建立并训练完成的BERT模型中,确定信用风险识别结果。本发明专利技术从底层运营商文本数据直接出发,运用BERT预训练模型获取文本的Embedding向量,结合多目标任务的全连接分类层,只需开发一个神经网络模型,将其运用于不同目标定义的业务或渠道上,且相较于分别开发的各个传统模型都有明显的效果提升。效果提升。效果提升。

【技术实现步骤摘要】
一种基于BERT模型的多目标任务信用风险识别方法及系统


[0001]本专利技术涉及风险识别领域,特别涉及一种基于BERT模型的多目标任务信用风险识别方法及系统。

技术介绍

[0002]随着互联网金融的发展,金融行业利用大数据进行风控已经取得了一定的成效。在风控的过程中,需要实时观察客户的资产、负债以及信用信息等数据信息,以便更准确地将用户划分到对应的客户群体,得到对应的风控评分和评级,并对该用户执行对应的风控规则,以有效管控客户的风险。
[0003]现有风控模型通常包括的步骤有:
[0004](1)依靠正则表达式解析底层运营商数据,将非结构化文本数据转化为可继续加工的半结构化数据;
[0005](2)对数据进一步加工,通过人工特征工程,得到大量统计特征,供后续模型开发使用;
[0006](3)根据不同的业务目标,开发不同Y目标定义的风控模型(例如短期MOB3

DPD30+、中长期MOB6

DPD30+等);同时,各个模型都需要对应完成精细化的特征选择与稳定性评估。以上开发完成的不同目标定义的多个模型,会在适合的不同业务线或渠道上进行使用。
[0007]然而,现有风控模型有以下几个缺点:
[0008](1)对于底层运营商数据的文本解析,需要依靠大量人工寻找规律,运用不同的正则表达式制定不同的解析模板,提取文本中的有效信息。同时,一旦数据中的文本规律发生变化,解析模板就会失效,无法提取或提取出错误的信息,以致于需要再次开放;
[0009](2)特征工程需要大量时间,其效果往往取决于人工经验。往往所开发的特征数量会以万计,其中难免会包含许多冗余、无效的特征;
[0010](3)特征过程只能获得一些统计信息,会将一些底层文本数据中原本包含的有效信息丢失;
[0011](4)在不同的业务线中,由于客群的差异,往往需要开发多个不同Y目标定义的模型,同时需要各自进行特征选择与稳定性评估,模型数量过多,且开发过程长。
[0012](5)以单个Y目标定义所开发的模型,往往只能关注单个目标信息。举例来说,如模型以短期MOB3

30+为目标进行开发,模型无法得知用户中长期(如MOB6

30+)的表现情况信息,也就无法获取用户整体的逾期表现情况。

技术实现思路

[0013]基于此,本申请实施例提供了一种基于BERT模型的多目标任务信用风险识别方法及系统,从底层运营商文本数据直接出发,运用BERT预训练模型获取文本的Embedding向量,结合多目标任务的全连接分类层,将其运用于不同目标定义的业务或渠道上,且相较于分别开发的各个传统模型都有明显的效果提升。
[0014]第一方面,提供了一种基于BERT模型的多目标任务信用风险识别方法,该方法包括:
[0015]获取目标用户的多条文本数据,通过标识符将目标用户的多条文本数据进行依次拼接得到目标识别文本;
[0016]将所述目标识别文本载入预先建立并训练完成的BERT模型中,确定信用风险识别结果;
[0017]其中,所述BERT模型的建立和训练过程具体包括:
[0018]选取训练集中每个用户的多条文本数据,通过标识符将每个用户的多条文本数据进行依次拼接得到多个训练识别文本;其中,所述训练识别文本的数量与选取的训练集用户数量相对应;
[0019]将所述多个训练识别文本进行分词,并获取分词后的训练识别文本中每个词语Embedding向量,并基于所述Embedding向量的维度和训练识别文本中词语的数量得到分词矩阵;
[0020]将所述分词矩阵进行池化得到每个用户的向量结果;
[0021]构建多目标任务的分类器,并利用每个用户的向量结果对所述分类器进行训练,得到训练完成的BERT模型。
[0022]可选地,所述构建多目标任务的分类器,所述分类器依次设置为第一全连接层、第一激活函数、第二全连接层、第三全连接层以及第二激活函数。
[0023]可选地,所述第一全连接层为256维、所述第二全连接层为128维、所述第三全连接层为2维;所述第一激活函数为ReLu激活函数,所述第二激活函数为Sigmoid激活函数。
[0024]可选地,所述第一全连接层与第一激活函数的映射关系可以通过第一公式进行表示,所述第一公式具体包括:
[0025]h=α(wx+b)
[0026]其中,h表示第一分类结果,α表示激活函数,w表示权重矩阵,x表示待分类对象,b表示偏置。
[0027]可选地,所述第三全连接层与第二激活函数的映射关系可以通过第二公式进行表示,所述第二公式具体包括:
[0028]O=σ(wh+b)
[0029]其中,O表示第二分类结果,σ表示激活函数,w表示权重矩阵,h表示第一分类结果,b表示偏置。
[0030]可选地,分类器在利用每个用户的向量结果对所述分类器进行训练时的损失函数包括:
[0031]Loss=Loss
短期
+Loss
中长期
[0032][0033][0034]其中,表示第i个用户样本的真实短期目标结果,表示第i个用户样本的模型
预测的短期目标概率;与分别表示第i个用户样本的真实中长期目标结果与目标概率,N表示每个用户文本数据的数量。
[0035]可选地,将所述分词矩阵进行池化得到每个用户的向量结果,包括:
[0036]通过max

pooling对所述分词矩阵进行处理得到每个用户的向量结果。
[0037]可选地,所述BERT模型具体为:Bert

Chinese

Base网络模型。
[0038]第二方面,提供了一种基于BERT模型的多目标任务信用风险识别系统,该系统包括:
[0039]获取模块,获取目标用户的多条文本数据,通过标识符将目标用户的多条文本数据进行依次拼接得到目标识别文本;
[0040]确定模块,将所述目标识别文本载入预先建立并训练完成的BERT模型中,确定信用风险识别结果;
[0041]其中,所述BERT模型的建立和训练过程具体包括:选取训练集中每个用户的多条文本数据,通过标识符将每个用户的多条文本数据进行依次拼接得到多个训练识别文本;其中,所述训练识别文本的数量与选取的训练集用户数量相对应;将所述多个训练识别文本进行分词,并获取分词后的训练识别文本中每个词语Embedding向量,并基于所述Embedding向量的维度和训练识别文本中词语的数量得到分词矩阵;将所述分词矩阵进行池化得到每个用户的向量结果;构建多目标任务的分类器,并利用每个用户的向量结果对所述分类器进行训练,得到训练完成的BERT模型。
[0042]本申请实施例提供的技术方案中首先获取目标用户的多条文本数据,通过标识符将目标用户的多条文本数据进行依次拼接得到目标识别文本;然后将目标识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT模型的多目标任务信用风险识别方法,其特征在于,所述方法包括:获取目标用户的多条文本数据,通过标识符将目标用户的多条文本数据进行依次拼接得到目标识别文本;将所述目标识别文本载入预先建立并训练完成的BERT模型中,确定信用风险识别结果;其中,所述BERT模型的建立和训练过程具体包括:选取训练集中每个用户的多条文本数据,通过标识符将每个用户的多条文本数据进行依次拼接得到多个训练识别文本;其中,所述训练识别文本的数量与选取的训练集用户数量相对应;将所述多个训练识别文本进行分词,并获取分词后的训练识别文本中每个词语Embedding向量,并基于所述Embedding向量的维度和训练识别文本中词语的数量得到分词矩阵;将所述分词矩阵进行池化得到每个用户的向量结果;构建多目标任务的分类器,并利用每个用户的向量结果对所述分类器进行训练,得到训练完成的BERT模型。2.根据权利要求1所述的方法,其特征在于,所述构建多目标任务的分类器,所述分类器依次设置为第一全连接层、第一激活函数、第二全连接层、第三全连接层以及第二激活函数。3.根据权利要求2所述的方法,其特征在于,所述第一全连接层为256维、所述第二全连接层为128维、所述第三全连接层为2维;所述第一激活函数为ReLu激活函数,所述第二激活函数为Sigmoid激活函数。4.根据权利要求2所述的方法,其特征在于,所述第一全连接层与第一激活函数的映射关系可以通过第一公式进行表示,所述第一公式具体包括:h=α(wx+b)其中,h表示第一分类结果,α表示激活函数,w表示权重矩阵,x表示待分类对象,b表示偏置。5.根据权利要求2所述的方法,其特征在于,所述第三全连接层与第二激活函数的映射关系可以通过第二公式进行表示,所述第二公式具体包括:O=σ(wh+b)其中,O表示第二分类结果,σ表示激活函数,w表示权重矩阵,h...

【专利技术属性】
技术研发人员:陈冬雨吴永强
申请(专利权)人:联洋国融北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1