基于文本预训练和多任务学习的金融风险预测方法及装置制造方法及图纸

技术编号:31158016 阅读:18 留言:0更新日期:2021-12-04 09:56
本申请涉及一种基于文本预训练和多任务学习的金融风险预测方法及装置。该方法包括:获取待处理文本;将待处理文本输入第一神经网络模型,以按照风险识别任务的处理流程确定待处理文本的内容是否包括金融风险;在待处理文本的内容包括金融风险的情况下,利用第一神经网络模型按照风险分类任务的处理流程确定金融风险的风险类型;利用第一神经网络模型按照风险主体识别任务的处理流程确定与风险类型匹配的风险主体。本申请通过预训练语言模型技术解决了缺乏对语义的深度挖掘导致模型性能不佳的问题,并采用多任务处理,解决了数据量有限而且任务之间无法进行信息共享导致模型性能不佳的技术问题。性能不佳的技术问题。性能不佳的技术问题。

【技术实现步骤摘要】
基于文本预训练和多任务学习的金融风险预测方法及装置


[0001]本申请涉及风险预测
,尤其涉及一种基于文本预训练和多任务学习的金融风险预测方法及装置。

技术介绍

[0002]随着互联网在金融业务上的深度应用,互联网金融逐渐走入大众视野,互联网金融指的是通过或依托互联网技术和工具进行资金融通和支付及相关信息服务等业务的行为,它利用互联网平台为金融提供了新的获取信息的方式,多样化的风险管理工具与风险分散工具。
[0003]当前互联网+金融格局,由传统金融机构和非金融机构组成。传统金融机构主要为传统金融业务的互联网创新以及电商化创新、APP软件等;非金融机构则主要是指利用互联网技术进行金融运作的电商企业、(P2P)模式的网络借贷平台,众筹模式的网络投资平台,挖财类(模式)的手机理财APP(理财宝类),以及第三方支付平台等。
[0004]从机构和市场指标的规模上来说,目前我国互联网金融似乎已经走到了全球前列,但仍然存在“短板”。互联网金融带给人们便利的同时,也在不断暴露出层出不穷的风险,如“P2P跑路”、“网络高利贷和暴力催收”等。互联网本身具有不分地域、信息涉众面广的特点,而这些使得互联网金融风险传播速度快,风险跨域处置难度大。另外,打击非法集资是防范金融风险的重要领域,当前非法集资形式依然严峻,新案高发与陈案积压并存,区域及行业风险集中,上网跨域特点明显,集资参与人量大面广。由此可见,对互联网金融风险的预警和防控已经势在必行,迫在眉睫。
[0005]目前,相关技术中,对金融风险的预测都存在片面性。金融风险预测任务包含的研究问题种类十分广泛,一些研究专注于利用用户、公司或机构的特征判断其是否存在潜在的金融风险,即将金融风险预测视为一个二分类问题;另一些研究旨在判定具体目标的金融风险等级,即将其视为一个多分类问题;也有研究指向于预测公司或其他金融机构的金融风险评分,即将其视为一个回归问题。
[0006]传统的金融风险预测任务一般采用量化的数据作为模型的输入,即传统金融风险预测的研究大多是基于量化数据进行,将样本的量化指标直接作为特征进行分类。比如,在预测欺诈行为的任务中可能采取用户的收入、存款数额等数据作为输入;而在预测银行破产中常采用银行目前的总资产、现金流、总贷款金额等。然而,量化数据具有数据量有限、非业内人士难以获取的特点,而对于互联网上大量存在且容易获得的金融文本数据,当前的金融风险研究对其利用依旧不够充分。
[0007]另外,虽然针对金融文本数据进行分析从而进行金融风险预测的工作较少见,但针对金融文本数据进行其他方面研究分析的工作也常有出现。此类研究一般被统称为金融文本挖掘。金融文本挖掘的初衷是,利用文本挖掘技术对文本数据进行分析以进行更好的决策。目前,在金融领域的文本挖掘工作主要用于外汇汇率预测、股票市场预测、客户流失预测等,还有一些网络安全方面的应用,包括网络钓鱼检测、垃圾邮件检测和欺诈检测等。
金融领域的文本挖掘工作一般采用新闻标题或者新闻内容等文本数据,结合一些常见的机器学习算法(LR、SVM、DT、k-NN和NB等),对数据进行分类任务。现阶段常见的金融文本挖掘工作,譬如基于金融新闻的外汇汇率预测和股票市场预测等,大多在文本预处理和特征构建的方法采取比较简单的方法,一般采用词袋模型进行文本预处理,忽略位置关系和词汇之间的关联,得到的词向量比较稀疏;在特征构建阶段,普遍将词频作为特征,缺乏对语义的深度挖掘。
[0008]此外,金融风险预测多采用单模型或者集成模型的方法,没有很好地解决某些场景下训练数据不充分的问题,不能充分利用任务之间的共享信息来优化提升各个任务的效果。
[0009]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0010]本申请提供了一种基于文本预训练和多任务学习的金融风险预测方法及装置,以解决上述“特征构建比较简单,得到的词向量比较稀疏,缺乏对语义的深度挖掘导致模型性能不佳,数据量有限而且任务之间无法进行信息共享导致模型性能不佳”的技术问题。
[0011]第一方面,本申请提供了一种基于文本预训练和多任务学习的金融风险预测方法,包括:获取待处理文本,待处理文本来自于互联网平台金融领域;将待处理文本输入第一神经网络模型,以按照风险识别任务的处理流程确定待处理文本的内容是否包括金融风险,第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行多任务的训练得到的,第二神经网络模型为结合金融预训练语言模型的多任务学习模型,金融预训练语言模型为利用多个无标注的预训练语料进行参数初始化后得到的预训练语言模型,多任务包括风险识别任务、风险分类任务及风险主体识别任务,标记信息用于标记训练数据的内容是否包括金融风险,在包括金融风险的情况下还用于标记金融风险的风险类型,并标记与风险类型匹配的风险主体;在待处理文本的内容包括金融风险的情况下,利用第一神经网络模型按照风险分类任务的处理流程确定金融风险的风险类型;利用第一神经网络模型按照风险主体识别任务的处理流程确定与风险类型匹配的风险主体。
[0012]可选地,将待处理文本输入第一神经网络模型之前,该方法还包括按照如下方式对第二神经网络模型进行多任务的训练,得到第一神经网络模型:从训练数据池中随机确定一个批次的训练数据,训练数据包括用于风险识别任务、风险分类任务及风险主体识别任务的训练数据;将训练数据输入第二神经网络模型,并在第二神经网络模型的预训练参数的基础上继续训练第二神经网络模型的各项参数;采用早停的训练方式,在第二神经网络模型对测试数据的识别准确度达到最优值的情况下,将第二神经网络模型作为第一神经网络模型;在第二神经网络模型对测试数据的识别准确度未达到最优值的情况下,继续使用训练数据对第二神经网络模型进行训练,以调整第二神经网络模型内各网络层中的参数的数值,直至第二神经网络模型对测试数据的识别准确度达到最优值。
[0013]可选地,将训练数据输入第二神经网络模型之前,该方法还包括按照如下方式利用无标注的预训练语料对深度神经网络模型进行预训练,得到金融预训练语言模型:获取预训练语料,预训练语料来自于互联网平台金融领域;按照第一预训练语言模型的输入要求对预训练语料进行预处理,第一预训练语言模型为深度神经网络模型,第一预训练语言
模型为基于通用领域语料进行预训练得到的预训练语言模型;利用经过预处理的预训练语料对第一预训练语言模型进行预训练;在第一预训练语言模型在目标预训练任务上的性能达到目标性能阈值的情况下,将第一预训练语言模型作为金融预训练语言模型;在第一预训练语言模型在目标预训练任务上的性能未达到目标性能阈值的情况下,继续使用预训练语料对第一预训练语言模型进行预训练,以调整第一预训练语言模型内各网络层中的参数的数值,直至第一预训练语言模型在目标预训练任务上的性能达到目标性能阈值。
[0014]可选地,将训练数据输入第二神经网络模型之前,该方法还包括按照如下方式结合金融预训练语言模型,得到第二神经网络模型:在金融预训练语言模型的输出层分别添加本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本预训练和多任务学习的金融风险预测方法,其特征在于,包括:获取待处理文本,其中,所述待处理文本来自于互联网平台金融领域;将所述待处理文本输入第一神经网络模型,以按照风险识别任务的处理流程确定所述待处理文本的内容是否包括金融风险,其中,所述第一神经网络模型是采用具有标记信息的训练数据对第二神经网络模型进行多任务的训练得到的,所述第二神经网络模型为结合金融预训练语言模型的多任务学习模型,所述金融预训练语言模型为利用多个无标注的预训练语料进行参数初始化后得到的预训练语言模型,所述多任务包括所述风险识别任务、风险分类任务及风险主体识别任务,所述标记信息用于标记所述训练数据的内容是否包括所述金融风险,在包括所述金融风险的情况下还用于标记所述金融风险的风险类型,并标记与所述风险类型匹配的风险主体;在所述待处理文本的内容包括所述金融风险的情况下,利用所述第一神经网络模型按照所述风险分类任务的处理流程确定所述金融风险的风险类型;利用所述第一神经网络模型按照所述风险主体识别任务的处理流程确定与所述风险类型匹配的风险主体。2.根据权利要求1所述的方法,其特征在于,将所述待处理文本输入第一神经网络模型之前,所述方法还包括按照如下方式对所述第二神经网络模型进行所述多任务的训练,得到所述第一神经网络模型:从训练数据池中随机确定一个批次的所述训练数据,其中,所述训练数据包括用于所述风险识别任务、所述风险分类任务及所述风险主体识别任务的训练数据;将所述训练数据输入所述第二神经网络模型,并在所述第二神经网络模型的预训练参数的基础上继续训练所述第二神经网络模型的各项参数;采用早停的训练方式,在所述第二神经网络模型对测试数据的识别准确度达到最优值的情况下,将所述第二神经网络模型作为所述第一神经网络模型;在所述第二神经网络模型对所述测试数据的识别准确度未达到所述最优值的情况下,继续使用所述训练数据对所述第二神经网络模型进行训练,以调整所述第二神经网络模型内各网络层中的参数的数值,直至所述第二神经网络模型对所述测试数据的识别准确度达到所述最优值。3.根据权利要求2所述的方法,其特征在于,将所述训练数据输入所述第二神经网络模型之前,所述方法还包括按照如下方式利用无标注的所述预训练语料对深度双向语言模型进行预训练,得到所述金融预训练语言模型:获取所述预训练语料,其中,所述预训练语料来自于互联网平台金融领域;按照第一预训练语言模型的输入要求对所述预训练语料进行预处理,其中,所述第一预训练语言模型为所述深度双向语言模型,所述第一预训练语言模型为基于通用领域语料进行预训练得到的预训练语言模型;利用经过预处理的所述预训练语料对所述第一预训练语言模型进行预训练;在所述第一预训练语言模型在目标预训练任务上的性能达到目标性能阈值的情况下,将所述第一预训练语言模型作为所述金融预训练语言模型;在所述第一预训练语言模型在所述目标预训练任务上的性能未达到最优值的情况下,继续使用所述预训练语料对所述第一预训练语言模型进行预训练,以调整所述第一预训练
语言模型内各网络层中的参数的数值,直至所述第一预训练语言模型在所述目标预训练任务上的性能达到最优值。4.根据权利要求3所述的方法,其特征在于,将所述训练数据输入所述第二神经网络模型之前,所述方法还包括按照如下方式结合所述金融预训练语言模型,得到所述第二神经网络模型:在所述金融预训练语言模型的输出层分别添加用于所述风险识别任务、所述风险分类任务及所述风险主体识别任务的输出层,得到所述第二神经网络模型。5.根据权利要求2所述的方法,其特征在于,从训练数据池中随机确定一个批次的所述训练数据之前,所述方法还包括按照如下方式构建所述训练数据池:按照预设的每个批次的数据量大小将用于所述风险识别任务、所述风险分类任务及所述风险主体识别任务的所述训练数据划分为多个批次;将所有批次的所述训练数据进行无序混合,得到所述训练数据池。6.根据权利要求2所述的方法,其特征在于,在所述第二神经网络模型的预训练参数的基础上继续训练所述第二神经网络模型的各项参数包括:将所述第二神经网络模型的嵌入层和编码层作为共享参数区,将所述第二神经网络模型的各个输出层分别作为私有参数区,其中,所述私有参数区包括第一私有参数区、第二私有参数区及第三私有参数区,所述第一私有参数区为所述风险识别任务的输出层,所述第二私有参数区为所述风险分类任务的输出层,所述第三私有参数区为所述风险主体识别任务的输出层;将所述第一私有参数区、所述第二私有参数区及所述第三私有参数区的学习率固定为第一学习率,并利用所述训练数据对所述第二神经网络模型进行训练,以在多个第二学习率中确定所述共享参数区的第一目标学习率,其中,所述第一目标学习率为适用于所述共享参数区的最优学习率;将所述共享参数区的学习率固定为所述第一目标学习率,并利用所述训练数据对所述第二神经网络模型进行训练,以在目标范围内分别确定所述第一私有参数区、所述第二私有参数区及所述第三私有参数区的第二目标学习率,其中,所述第二目标学习率为分别适用于所述第一私有参数区、所述第二私有参数区及所述第三私有参数区的最优学习率。7.根据权利要求6所述的方法,其特征在于,在所述第二神经网络模型的预训练参数的基础上继续训练所述第二神经网络模型的各项参数还包括:通过所述共享参数区的参数共享,在训练所述第二神经网络模型的过程中确定目标隐层参数,其中,所述目标隐层参数为同时适用于所述第一私有参数区、所述第二私有参数区及所述第三私有参数区的隐层参数。...

【专利技术属性】
技术研发人员:郭舒陈桢豫王丽宏贺敏毛乾任李晨钟盛海黄洪仁
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1