一种基于深度学习的代码托管平台风控系统及方法技术方案

技术编号:36540017 阅读:12 留言:0更新日期:2023-02-01 16:36
一种基于深度学习的代码托管平台风控系统及方法,包括风控建模平台和风控运营平台,风控建模平台和风控运营平台构建在云基础设施之上,基于代码托管平台和用户中心实现代码全生命周期的风险控制。云基础设施聚集大量的计算、存储、网络资源,并提供机器学习、深度学习、大数据等服务能力;代码托管平台提供代码托管、代码评审、进度管理、质量管理、问题管理、持续集成等功能,实现代码托管和协作开发及持续发布;用户中心存放代码访问者、提交者、协作者用户的基本信息,并结合其身份信息对其进行用户画像,形成身份标签。本发明专利技术能有效识别源代码安全风险,及时进行风险预警,并持续改进模型,提升风控准确性,增强发现未知风险的能力。力。力。

【技术实现步骤摘要】
一种基于深度学习的代码托管平台风控系统及方法


[0001]本专利技术属于信息安全、机器学习和深度学习
,具体涉及一种基于深度学习的代码托管平台风控系统及方法。

技术介绍

[0002]随着深度学习技术的快速发展,以及互联网和云计算时代海量数据和高效计算能力的支撑,以CNN卷积神经网络为代表的深度学习技术,通过训练构建得到类似人脑结构的大规模神经网络,在计算机视觉、语音识别、自然语言理解等领域取得了突破性进展,正在给整个社会带来颠覆性的变化。
[0003]近年来,企业加速推动数字化转型,这给软件产业也带来了新的挑战,IT企业纷纷采用敏捷开发、DevOps等新开发方式来快速响应企业不断变化的需求,以GitHub为代表的新一代代码协作平台成为主流的协同开发方式,代码托管平台也已成为软件开发必须的基础设施。代码泄露、恶意修改代码、恶意删除代码、漏洞植入等安全事件频发,为企业带来了极大的风险,源代码的重要性不言而喻,这对代码托管平台提出了更高的要求。另一方面,随着新一代信息技术发展迅速,开源的重要价值也愈发凸显,对于依赖的开源代码库也需要保证其开源供应链安全。在这种情况下,如何有效利用深度学习技术,结合现有专家知识,基于代码托管平台对于代码协作过程实现风险控制,保证源代码的安全成为亟需解决的问题。

技术实现思路

[0004]为了克服上述现有技术存在的不足,本专利技术的目的在于提供一种基于深度学习的代码托管平台风控系统及方法,利用深度学习技术,基于代码托管平台记录的代码协作过程中的日志数据,设计神经网络模型,综合考虑影响代码安全的各种因素,挖掘代码提交者行为的深层联系,同时结合现有风控方法,形成有针对性的风控模型,有效识别源代码安全风险,及时进行风险预警,并持续改进模型,提升风控准确性,增强发现未知风险的能力。
[0005]为了实现上述目的,本专利技术采用的技术方案是:一种基于深度学习的代码托管平台风控系统,包括风控建模平台和风控运营平台,风控建模平台和风控运营平台构建在云基础设施之上,基于代码托管平台和用户中心实现代码全生命周期的风险控制;所述用户中心包括代码访问者、提交者、协作者在内的用户的基本信息,并结合其身份信息进行用户画像,形成身份标签;所述风控建模平台运行有规则判定风控模型、随机森林风控模型、深度学习风控模型、数据融合风控模型以及动态优化模型;所述规则判定风控模型用于对代码托管平台以及所述用户中心的数据,提取规则所需数据,进行风险判定;所述随机森林风控模型用于对代码托管平台以及所述用户中心的数据,提取设定
的数据变量,进行风险判定;所述深度学习风控模型用于对代码托管平台以及所述用户中心的原始数据作为输入直接进行风险判定;所述数据融合风控模型用于对代码托管平台以及所述用户中心的数据,综合判定结果,进行风险判定;所述动态优化模型用于对代码托管平台以及所述用户中心的数据,及时调整模型参数;所述风控运营平台基于所述规则判定风控模型、随机森林风控模型、深度学习风控模型、数据融合风控模型以及动态优化模型执行风控判定;所述云基础设施聚集大量的计算、存储、网络资源,并提供机器学习、深度学习、大数据等服务能力;代码托管平台运行在所述云基础设施之上,提供代码托管、代码评审、进度管理、质量管理、问题管理、持续集成等功能,实现代码托管和协作开发及持续发布。
[0006]所述风控建模平台主要风控模型建模,包括模型平台、规则平台和流程平台三个子平台;所述规则平台负责生成规则,并根据领域专家提供预设的规则;所述流程平台负责风控检测的流程创建和设定;所述模型平台是基于所述云基础设施提供的通用机器学习、深度学习训练和推理服务,结合代码托管业务形成规则判定风控模型、随机森林风控模型、深度学习风控模型、数据融合风控模型以及动态优化模型,同时为所述规则平台提供相关规则阈值的智能推荐、判定规则的选择和智能组合推荐,以及为流程平台提供流程的组合推荐服务。
[0007]所述规则判定风控模型是基于所述规则平台和流程平台形成的风控模型;所述深度学习风控模型是基于代码托管平台提供的原始操作日志行为数据进行端到端的建模,采用自注意力机制的CNN神经网络模型,处理时间顺序的行为数据,结合代码访问者或提交者的个人身份信息,对风险进行识别;所述数据融合风控模型核心是神经网络模型,基于所述规则判定风控模型、所述随机森林风控模型以及所述深度学习风控模型的判定结果,并结合用户身份信息及代码项目的属性,进行综合分析处理,得到最终风险判定结果。
[0008]所述动态优化模型采用神经网络模型,是根据当前的输入,及时调整所述规则判定风控模型、所述随机森林风控模型、所述深度学习风控模型以及所述数据融合风控模型的模型参数,由对应模型子模块组成,及时调整风控模型,提升风险异常响应速度;基于模型平台形成的模型执行风控判定为风控运营模型,风控运营模型主要包括规则流程风控引擎、随机森林风控引擎、深度学习风控引擎、融合判定模块、动态优化模块、数据处理模块和预警模块;所述规则流程风控引擎是基于所述规则判定风控模型对来自所述代码托管平台以及所述用户中心的数据,提取规则所需数据,进行风险判定;所述随机森林风控引擎是基于所述随机森林风控模型,对来自所述代码托管平台以及所述用户中心的数据,提取设定的数据变量,进行风险判定;所述深度学习风控引擎是基于所述深度学习风控模型,对来自所述代码托管平台以及所述用户中心的原始数据作为输入直接进行风险判定;所述融合判定模块是基于所述数据融合风控模型,对来自所述代码托管平台以及所述用户中心的数据,综合所述规则流程风控引擎、所述随机森林风控引擎和所述深度学习风控引擎的判定结果,进行风险判定。
[0009]所述动态优化模块是基于所述动态优化模型,基于来自所述代码托管平台以及所述用户中心的数据,及时调整设定所述规则判定风控引擎、所述随机森林风控引擎、所述深度学习风控引擎以及所述数据融合风控模块的模型参数;所述数据处理模块负责采集清洗风控平台所需的数据,并根据模型的要求进行数据准备,同时实时响应来自所述动态优化引擎的相关参数设定变化,提供所要求的数据;所述预警模块针对风险判定结果及时做出响应,记录日志,并通知相关管理人员或者直接进行访问权限限定的操作。
[0010]一种基于深度学习的代码托管平台风控系统的方法,用于风控模型的模型训练,包括以下步骤;步骤101、采集海量代码托管平台日志数据以及所述用户中心的数据,并准备训练数据,设定风险等级,例如四级风险等级: D级/1级(重大风险)、C级/2级(较大风险)、B级/3级(一般风险)和A级/4级(低风险),结合领域专家知识,对于风险数据进行标注;步骤102、基于标注数据,采用梯度下降优化算法,训练流程推荐服务模型、所述阈值推荐服务模型以及所述规则选择服务推荐模型,得到风控建模所需的推荐服务模型;所述梯度下降优化算法首先设定目标函数,然后将训练样本进行前向计算,然后计算误差反向传播,直到函数收敛。
[0011]步骤103、将规则流程进行组合,基于标注数据,训练所述判别规则风控模型;步骤104、根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的代码托管平台风控系统,包括风控建模平台和风控运营平台,其特征在于,风控建模平台和风控运营平台构建在云基础设施之上,基于代码托管平台和用户中心实现代码全生命周期的风险控制;所述用户中心存放包括代码访问者、提交者、协作者在内的用户的基本信息,并结合其身份信息进行用户画像,形成身份标签;所述风控建模平台运行有规则判定风控模型、随机森林风控模型、深度学习风控模型、数据融合风控模型以及动态优化模型;所述规则判定风控模型用于对代码托管平台以及所述用户中心的数据,提取规则所需数据,进行风险判定;所述随机森林风控模型用于对代码托管平台以及所述用户中心的数据,提取设定的数据变量,进行风险判定;所述深度学习风控模型用于对代码托管平台以及所述用户中心的原始数据作为输入直接进行风险判定;所述数据融合风控模型用于对代码托管平台以及所述用户中心的数据,综合判定结果,进行风险判定;所述动态优化模型用于对代码托管平台以及所述用户中心的数据,及时调整模型参数;所述风控运营平台基于所述规则判定风控模型、随机森林风控模型、深度学习风控模型、数据融合风控模型以及动态优化模型执行风控判定;所述云基础设施聚集大量的计算、存储、网络资源,并提供机器学习、深度学习、大数据服务能力;代码托管平台运行在所述云基础设施之上,提供代码托管、代码评审、进度管理、质量管理、问题管理、持续集成功能,实现代码托管和协作开发及持续发布。2.根据权利要求1所述一种基于深度学习的代码托管平台风控系统,其特征在于,所述风控建模平台负责风控模型建模,包括模型平台、规则平台和流程平台三个子平台;所述规则平台负责生成规则,并根据领域专家提供预设的规则;所述流程平台负责风控检测的流程创建和设定;所述模型平台是基于所述云基础设施提供的通用机器学习、深度学习训练和推理服务,结合代码托管业务形成规则判定风控模型、随机森林风控模型、深度学习风控模型、数据融合风控模型以及动态优化模型,同时为所述规则平台提供相关规则阈值的智能推荐、判定规则的选择和智能组合推荐,以及为流程平台提供流程的组合推荐服务。3.根据权利要求2所述一种基于深度学习的代码托管平台风控系统,其特征在于,所述规则判定风控模型是基于所述规则平台和流程平台形成的风控模型;所述深度学习风控模型是基于代码托管平台提供的原始操作日志行为数据进行端到端的建模,核心是采用自注意力机制的CNN神经网络模型,处理时间顺序的行为数据,结合代码访问者或提交者的个人身份信息,对风险进行识别;所述数据融合风控模型核心是神经网络模型,基于所述规则判定风控模型、所述随机森林风控模型以及所述深度学习风控模型的判定结果,并结合用户身份信息及代码项目的属性,进行综合分析处理,得到最终风险判定结果。4.根据权利要求2所述一种基于深度学习的代码托管平台风控系统,其特征在于,所述动态优化模型的核心是神经网络模型,是根据当前的输入,及时调整所述规则判定风控模
型、所述随机森林风控模型、所述深度学习风控模型以及所述数据融合风控模型的模型参数,由对应模型子模块组成,及时调整风控模型,提升风险异常响应速度。5.根据权利要求2所述一种基于深度学习的代码托管平台风控系统,其特征在于,基于模型平台形成的模型执行风控判定为风控运营模型,风控运营模型主要包括规则流程风控引擎、随机森林风控引擎、深度学习风控引擎、融合判定模块、动态优化模块、数据处理模块和预警模块;所述规则流程风控引擎是基于所述规则判定风控模型对来自所述代码托管平台以及所述用户中心的数据,提取规则所需数据,进行风险判定;所述随机森林风控引擎是基于所述随机森林风控模型,对来自所述代码托管平台以及所述用户中心的数据,提取设定的数据变量,进行风险判定;所述深度学习风控引擎是基于所述深度学习风控模型,对来自所述代码托管平台以及所述用户中心的原始数据作为输入直接进行风险判定;所述融合判定模块是基于所述数据融合风控模型,对来自所述代码托管平台以及所述用户中心的数据,综合所述规则流程风控引擎、所述随机森林风控引擎和所述深度学习风控引擎的判定结果,进行风险判定。6.根据权利要求5所述一种基于深度学习的代码托管平台风控系统,其特征在于,所述动态优化模块是基于所述动态优化模型,基于来自所...

【专利技术属性】
技术研发人员:罗清彩李辉孙善宝
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1