一种基于BERT模型的多目标任务信用风险识别方法及系统技术方案

技术编号：35033665 阅读：52 留言：0更新日期：2022-09-24 23:09

本申请公开了一种基于BERT模型的多目标任务信用风险识别方法及系统。首先获取目标用户的多条文本数据，通过标识符将目标用户的多条文本数据进行依次拼接得到目标识别文本；然后将目标识别文本载入预先建立并训练完成的BERT模型中，确定信用风险识别结果。本发明专利技术从底层运营商文本数据直接出发，运用BERT预训练模型获取文本的Embedding向量，结合多目标任务的全连接分类层，只需开发一个神经网络模型，将其运用于不同目标定义的业务或渠道上，且相较于分别开发的各个传统模型都有明显的效果提升。效果提升。效果提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT模型的多目标任务信用风险识别方法及系统

[0001]本专利技术涉及风险识别领域，特别涉及一种基于BERT模型的多目标任务信用风险识别方法及系统。

技术介绍

[0002]随着互联网金融的发展，金融行业利用大数据进行风控已经取得了一定的成效。在风控的过程中，需要实时观察客户的资产、负债以及信用信息等数据信息，以便更准确地将用户划分到对应的客户群体，得到对应的风控评分和评级，并对该用户执行对应的风控规则，以有效管控客户的风险。
[0003]现有风控模型通常包括的步骤有：
[0004](1)依靠正则表达式解析底层运营商数据，将非结构化文本数据转化为可继续加工的半结构化数据；
[0005](2)对数据进一步加工，通过人工特征工程，得到大量统计特征，供后续模型开发使用；
[0006](3)根据不同的业务目标，开发不同Y目标定义的风控模型(例如短期MOB3
‑
DPD30+、中长期MOB6
‑
DPD30+等)；同时，各个模型都需要对应完成精细化的特征选择与稳定性评估。以上开发完成的不同目标定义的多个模型，会在适合的不同业务线或渠道上进行使用。
[0007]然而，现有风控模型有以下几个缺点：
[0008](1)对于底层运营商数据的文本解析，需要依靠大量人工寻找规律，运用不同的正则表达式制定不同的解析模板，提取文本中的有效信息。同时，一旦数据中的文本规律发生变化，解析模板就会失效，无法提取或提取出错误的信息，以致于需要再次开放；
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT模型的多目标任务信用风险识别方法，其特征在于，所述方法包括：获取目标用户的多条文本数据，通过标识符将目标用户的多条文本数据进行依次拼接得到目标识别文本；将所述目标识别文本载入预先建立并训练完成的BERT模型中，确定信用风险识别结果；其中，所述BERT模型的建立和训练过程具体包括：选取训练集中每个用户的多条文本数据，通过标识符将每个用户的多条文本数据进行依次拼接得到多个训练识别文本；其中，所述训练识别文本的数量与选取的训练集用户数量相对应；将所述多个训练识别文本进行分词，并获取分词后的训练识别文本中每个词语Embedding向量，并基于所述Embedding向量的维度和训练识别文本中词语的数量得到分词矩阵；将所述分词矩阵进行池化得到每个用户的向量结果；构建多目标任务的分类器，并利用每个用户的向量结果对所述分类器进行训练，得到训练完成的BERT模型。2.根据权利要求1所述的方法，其特征在于，所述构建多目标任务的分类器，所述分类器依次设置为第一全连接层、第一激活函数、第二全连接层、第三全连接层以及第二激活函数。3.根据权利要求2所述的方法，其特征在于，所述第一全连接层为256维、所述第二全连接层为128维、所述第三全连接层为2维；所述第一激活函数为ReLu激活函数，所述第二激活函数为Sigmoid激活函数。4.根据权利要求2所述的方法，其特征在于，所述第一全连接层与第一激活函数的映射关系可以通过第一公式进行表示，所述第一公式具体包括：h＝α(wx+b)其中，h表示第一分类结果，α表示激活函数，w表示权重矩阵，x表示待分类对象，b表示偏置。5.根据权利要求2所述的方法，其特征在于，所述第三全连接层与第二激活函数的映射关系可以通过第二公式进行表示，所述第二公式具体包括：O＝σ(wh+b)其中，O表示第二分类结果，σ表示激活函数，w表示权重矩阵，h...

【专利技术属性】
技术研发人员：陈冬雨，吴永强，
申请(专利权)人：联洋国融北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人