基于多源异构数据和多模态数据的风险预测方法及装置制造方法及图纸

技术编号：41284548 阅读：3 留言：0更新日期：2024-05-11 09:33

本申请提供一种基于多源异构数据和多模态数据的风险预测方法及装置，方法包括：获取待检测用户数据；待检测用户数据包括多源异构数据和多模态数据；多源异构数据为不同数据源的数据；多模态数据为不同表达形式的数据；根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征；基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征；将待检测融合特征输入预设的风险预测模型，生成风险检测结果。待检测融合特征更全面地描述风险，提高了风险预测或风险识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体而言，涉及一种基于多源异构数据和多模态数据的风险预测方法及装置。

技术介绍

1、在金融行业，对于信用贷款的风险控制，由于其业务形式数量巨大，且风险形式多样，复杂多变，若通过人工方式进行风险检测，效率较低且准确率不高。目前也有一些技术依靠风险识别模型进行风险预测，这些风险识别模型的训练数据主要依靠用户的征信数据、贷前、贷中、贷后数据等，由于模型的训练数据维度单一，导致目前用户的风险识别存在瓶颈，风险识别模型的准确率较低。

技术实现思路

1、本申请实施例的目的在于一种基于多源异构数据和多模态数据的风险预测方法、装置、电子设备及存储介质，改善模型的训练数据维度单一，风险识别模型的准确率较低的问题，提高风险识别模型的准确率。

2、第一方面，本申请实施例提供了一种基于多源异构数据和多模态数据的风险预测方法，包括：获取待检测用户数据；待检测用户数据包括多源异构数据和多模态数据；多源异构数据为不同数据源的数据；多模态数据为不同表达形式的数据；根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征；基于待检测结构化特征和待检测非结构化特征，生成待检测融合特征；将待检测融合特征输入预设的风险预测模型，生成风险检测结果。

3、在上述的实现过程中，待检测融合特征可以结合非结构化特征和结构化特征的优点，从而更全

4、可选地，在任一实施例的基础上，根据多源异构数据的数据源类别对多源异构数据进行处理，获得数据表文件；对数据表文件中的数据进行结构化特征提取，获得待检测结构化特征，包括：通过不同数据源类别对应的脚本文件，对多源异构数据分别进行转换处理，获得不同数据源类别对应的预设格式文件；读取不同数据源类别对应的预设格式文件中的数据，并将读取出的数据按照数据源类别分别存储至分布式文件系统中对应的数据块；利用数据块对应的键，将多个数据块进行等值链接，获得数据表文件；根据数据表文件中的数据，以及预设指标的统计频次，生成待检测结构化特征。

5、在上述的实现过程中，分别对不同数据源的数据进行处理，获得多源异构数据对应的数据表文件，通过对多个数据库中的数据表进行关联，获得符合要求的结构化特征，提高结构化特征的准确性。

6、可选地，在任一实施例的基础上，非结构化特征提取模型包括行为特征提取模型、图像特征提取模型、活体特征提取模型、语音特征提取模型以及文本特征提取模型中的至少一个。

7、在上述的实现过程中，对于多模态数据选择对应的非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征。每一模态的数据均预先训练对应的特征提取模型来进行特征提取，使待检测非结构特征中具有丰富的上下文信息。

8、可选地，在任一实施例的基础上，行为特征提取模型的构建步骤包括：基于预设设置的页面埋点事件采集用户行为训练数据，用户行为训练数据的类别包括用户输入速度，页面点击速度，表单信息填写速度和页面滑动速度中的至少一项；按照用户行为训练数据的类别以及预设的时间间隔，将用户行为训练进行切片处理，获得切片数据；利用切片数据训练预设的神经网络，获得行为特征提取模型；行为特征提取模型用于对多模态数据中的操作行为数据进行特征提取。

9、在上述的实现过程中，通过数据埋点方式获取用户行为训练数据，并对用户行为训练数据进行切片，通过神经网络学习行为数据之间的时需依赖关系，从而提高行为特征提取的准确性，增加用户风险预测的维度。

10、可选地，在任一实施例的基础上，图像特征提取模型的构建步骤包括：分别对用户的证件正面图像、证件反面图像和人像图像进行特征提取，获得证件正面图像特征、证件反面图像特征和人像图像特征；将证件正面图像特征、证件反面图像特征和人像图像特征进行特征融合，生成图像融合特征；利用视觉神经网络模型对图像融合特征进行特征提取，获得图像编码特征；视觉神经网络模型包括多头自注意力机制；利用图像编码特征和损失函数训练预设的神经网络，获得图像特征提取模型；图像特征提取模型用于对多模态数据中的图片数据进行特征提取。

11、在上述的实现过程中，通过分别对用户的证件正面图像、证件反面图像和人像图像进行特征提取，并将提取出的将证件正面图像特征、证件反面图像特征和人像图像特征进行特征融合，获得图像融合特征。视觉神经网络模型包括多头自注意力机制，增强模型的表示能力。

12、可选地，在任一实施例的基础上，非结构化特征提取模型包括活体特征提取模型；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征，包括：从多模态数据中获取视频数据的图像帧；通过活体特征提取模型的人脸检测层对图像帧进行人脸检测，获得人脸图像；通过活体特征提取模型的人脸特征提取层对人脸图像进行特征提取，获得人脸特征；通过活体特征提取模型的整体特征提取层对图像帧进行特征提取，获得整体图像特征；通过活体特征提取模型的特征聚合层，将人脸特征和整体图像特征进行求和计算，获得聚合后的特征；将视频数据的图像帧对应的聚合后的特征，依次输入活体特征提取模型的长短期记忆模块，获得时序特征；长短期记忆模块用于学习聚合后的特征之间的时间依赖关联；基于预先设置的视频数据中图像帧的权重，将图像帧对应的时序特征进行加权处理，获得视频数据特征；将视频数据特征作为待检测非结构化特征。

13、在上述的实现过程中，视频活体涵盖了大量高维特征，通过人脸检测层对图像帧进行人脸检测，获得人脸图像，分别对人脸图像和图像帧进行局部和整体的特征提取，在获取更全面的信息的基础上，更加关注人脸重点。长短期记忆模块很好的学习活体视频前后之间的依赖性和时序性，提高了视频数据特征提取的准确性。

14、可选地，在任一实施例的基础上，非结构化特征提取模型包括语音特征提取模型；利用非结构化特征提取模型，对多模态数据进行特征提取，生成待检测非结构化特征，包括：获取多模态数据中的业务语音数据；利用语音特征提取模型中的拼接层对业务语音数据进行拼接，获得拼接语音；利用语音特征提取模型中的语音切片层将拼接语音按照预设的时间间隔进行切片，获得语音切片；利用语音特征提取模型中的语音特征提取层对语音切片进行处理，获得语音切片特征；将语音切片特征进行矩阵化，生成语音特征二维矩阵；将语音特征二维矩阵作为待检测非结构化特征。

15、在上述的实现过程中，对多模态数据中的业务语音数据进行拼接、切片特征提取以及矩阵化的操作，获得更准确的待检测非结构化特征，为用户预测提供更多维度的非结构化特征。...

【技术保护点】

1.一种基于多源异构数据和多模态数据的风险预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据多源异构数据的数据源类别对所述多源异构数据进行处理，获得数据表文件；对所述数据表文件中的数据进行结构化特征提取，获得待检测结构化特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述非结构化特征提取模型包括行为特征提取模型、图像特征提取模型、活体特征提取模型、语音特征提取模型以及文本特征提取模型中的至少一个。

4.根据权利要求3所述的方法，其特征在于，所述行为特征提取模型的构建步骤包括：

5.根据权利要求3所述的方法，其特征在于，所述图像特征提取模型的构建步骤包括：

6.根据权利要求3所述的方法，其特征在于，所述非结构化特征提取模型包括所述活体特征提取模型；利用非结构化特征提取模型，对所述多模态数据进行特征提取，生成待检测非结构化特征，包括：

7.根据权利要求3所述的方法，其特征在于，所述非结构化特征提取模型包括所述语音特征提取模型；利用非结构化特征提取模型，对所述多模态数据进行特征提取

8.根据权利要求3所述的方法，其特征在于，所述非结构化特征提取模型包括所述文本特征提取模型；利用非结构化特征提取模型，对所述多模态数据进行特征提取，生成待检测非结构化特征，包括：

9.根据权利要求1所述的方法，其特征在于，基于所述待检测结构化特征和所述待检测非结构化特征，生成待检测融合特征，包括：

10.根据权利要求1-9任一所述的方法，其特征在于，在将所述待检测融合特征输入预设的风险预测模型，生成风险检测结果之前，所述方法还包括：

11.一种基于多源异构数据和多模态数据的风险预测装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的方法。

13.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一所述的方法。

...

【技术特征摘要】

1.一种基于多源异构数据和多模态数据的风险预测方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，所述行为特征提取模型的构建步骤包括：

5.根据权利要求3所述的方法，其特征在于，所述图像特征提取模型的构建步骤包括：

7.根据权利要求3所述的方法，其特征在于，所述非结构化特征提取模型包括所述语音特征提取模型；利用非结构化特征提取模型，对...

【专利技术属性】
技术研发人员：王小东，徐志华，吕文勇，周智杰，朱羽，
申请(专利权)人：成都新希望金融信息有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人