小程序风险识别模型的训练方法及系统技术方案

技术编号:38812603 阅读:13 留言:0更新日期:2023-09-15 19:51
本说明书涉及一种小程序风险识别模型的训练方法及系统,训练方法包括:获取小程序的样本数据;从小程序的样本数据中提取风险特征;根据风险特征,获取小程序的风险识别结果,作为风险特征的标签;剔除风险特征的部分特征,得到缺失风险特征;将缺失风险特征输入至预设的小程序风险识别模型中,得到风险识别结果的预测值,以风险识别结果的预测值与风险特征的标签之间的差异最小化为目标对小程序风险识别模型进行训练,得到训练好的小程序风险识别模型。本说明书的小程序风险识别模型的训练方法及系统,采用缺失的数据对小程序风险识别模型进行训练,从而在数据缺失场景下也可以得到准确的风险识别结果,提高小程序风险识别模型的鲁棒性。模型的鲁棒性。模型的鲁棒性。

【技术实现步骤摘要】
小程序风险识别模型的训练方法及系统


[0001]本说明书涉及小程序风险识别
,更具体地涉及一种小程序风险识别模型的训练方法及系统。

技术介绍

[0002]小程序是一种搭载于互联网平台上且无需下载和安装即可使用的应用程序。由于小程序代码可在平台上直接执行,且平台为小程序开放了很多接口,若小程序涉及隐私泄露等安全风险,将对平台的安全构成威胁,因此平台需要对小程序进行风险识别,以判断小程序是否具有风险,避免其影响平台的安全。
[0003]现有技术中,通常通过对小程序的不同维度的数据源(包括小程序内容、小程序代码和小程序开发属性等)的信息进行组合分析,从而判断小程序是否具有风险。例如,通过从小程序内容中提取的内容特征、从小程序代码中提取的代码特征以及小程序开发时对应的主体属性特征来综合判断小程序是否具有风险。
[0004]但是,现有的方法比较依赖于各个维度的数据源的质量,当一个或多个维度的数据源不稳定时,例如小程序内容抓取不完整、小程序开发属性数据缺失等,风险识别的效果会受到较大的影响。

技术实现思路

[0005]本说明书的目的之一在于提供一种小程序风险识别模型的训练方法,采用缺失的数据对小程序风险识别模型进行训练,模拟实际的数据缺失场景,从而在数据缺失场景下也可以得到准确的风险识别结果,提高小程序风险识别模型的鲁棒性。
[0006]基于上述目的,本说明书提供一种小程序风险识别模型的训练方法,其包括以下步骤:
[0007]获取小程序的样本数据;
[0008]从小程序的样本数据中提取风险特征;
[0009]根据所述风险特征,获取小程序的风险识别结果,作为所述风险特征的标签;
[0010]剔除所述风险特征的部分特征,得到缺失风险特征;
[0011]将所述缺失风险特征输入至预设的小程序风险识别模型中,得到风险识别结果的预测值,以风险识别结果的预测值与风险特征的标签之间的差异最小化为目标对所述小程序风险识别模型进行训练,得到训练好的小程序风险识别模型。
[0012]进一步地,在一些实施方式中,所述小程序的样本数据包括内容数据、代码数据和开发属性数据;
[0013]从所述小程序的样本数据中提取风险特征,具体包括:
[0014]从所述小程序的内容数据中提取内容特征;和/或
[0015]从所述小程序的代码数据中提取代码特征;和/或
[0016]从所述小程序的开发属性数据中提取开发属性特征。
[0017]进一步地,在一些实施方式中,剔除所述风险特征向量的部分特征值,具体包括:
[0018]利用掩膜遮盖该小程序的风险特征的预设比例的特征值。
[0019]进一步地,在一些实施方式中,剔除所述小程序的风险特征向量的部分特征值,具体包括:
[0020]当提取的风险特征包括内容特征时,剔除所述内容特征的第一比例的特征值;
[0021]当提取的风险特征包括代码特征时,剔除所述代码特征的第二比例的特征值;
[0022]当提取的风险特征包括开发属性特征时,剔除所述开发属性特征的第三比例的特征值。
[0023]进一步地,在实现方式中,所述小程序风险识别模型包括多个transformer层,所述transformer层用于融合所述内容特征、所述代码特征和所述开发属性特征。
[0024]本说明书的另一目的在于提供一种小程序风险识别方法,其采用上述训练方法得到的小程序风险识别模型对小程序进行风险识别,以得到精确的风险识别结果。
[0025]基于上述目的,本说明书提供一种小程序风险识别方法,包括步骤:
[0026]获取待识别小程序的数据;
[0027]从待识别小程序的数据中提取出待识别的风险特征;
[0028]将所述待识别的风险特征输入预先训练的小程序风险识别模型中,得到待识别小程序的风险识别结果;其中预先训练的小程序风险识别模型是基于上述小程序风险识别模型的训练方法得到的。
[0029]本说明书的又一目的在于提供一种小程序风险识别模型的训练系统,采用缺失的数据对小程序风险识别模型进行训练,模拟实际的数据缺失场景,从而在数据缺失场景下也可以得到准确的风险识别结果,提高小程序风险识别模型的鲁棒性。
[0030]基于上述目的,本说明书提供一种小程序风险识别模型的训练系统,包括:
[0031]第一获取模块,用于获取小程序的样本数据;
[0032]第一提取模块,用于从小程序的样本数据中提取风险特征;
[0033]第二获取模块,用于根据所述风险特征,获取小程序的风险识别结果,作为所述风险特征的标签;
[0034]剔除模块,用于剔除所述风险特征的部分特征,得到缺失风险特征;
[0035]训练模块,用于将所述缺失风险特征输入至预设的小程序风险识别模型中,得到风险识别结果的预测值,以风险识别结果的预测值与风险特征的标签之间的差异最小化为目标对所述小程序风险识别模型进行训练,得到训练好的小程序风险识别模型。
[0036]进一步地,在一些实施方式中,所述小程序的样本数据包括内容数据、代码数据和开发属性数据;所述第一提取模块包括:
[0037]内容特征提取单元,用于从所述小程序的内容数据中提取内容特征;和/或
[0038]代码特征提取单元,用于从所述小程序的代码数据中提取代码特征;和/或
[0039]开发属性特征提取单元,用于从所述小程序的开发属性数据中提取开发属性特征。
[0040]进一步地,在一些实施方式中,剔除所述风险特征向量的部分特征值,具体包括:
[0041]利用掩膜遮盖该小程序的风险特征的预设比例的特征值。
[0042]进一步地,在一些实施方式中,剔除所述小程序的风险特征向量的部分特征值,具
体包括:
[0043]当提取的风险特征包括内容特征时,剔除所述内容特征的第一比例的特征值;
[0044]当提取的风险特征包括代码特征时,剔除所述代码特征的第二比例的特征值;
[0045]当提取的风险特征包括开发属性特征时,剔除所述开发属性特征的第三比例的特征值。
[0046]进一步地,在一些实施方式中,所述小程序风险识别模型包括多个transformer层,所述transformer层用于融合所述内容特征、所述代码特征和所述开发属性特征。
[0047]本说明书的又一目的在于提供一种小程序风险识别装置,其采用上述训练方法得到的小程序风险识别模型对小程序进行风险识别,以得到精确的风险识别结果。
[0048]基于上述目的,本说明书提供一种小程序风险识别装置,包括:
[0049]第三获取模块,用于获取待识别小程序的数据;
[0050]第二提取模块,用于从待识别小程序的数据中提取出待识别的风险特征;
[0051]识别模块,用于将所述待识别的风险特征输入预先训练的小程序风险识别模型中,得到待识别小程序的风险识别结果;其中预先本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种小程序风险识别模型的训练方法,包括:获取小程序的样本数据;从小程序的样本数据中提取风险特征;根据所述风险特征,获取小程序的风险识别结果,作为所述风险特征的标签;剔除所述风险特征的部分特征,得到缺失风险特征;将所述缺失风险特征输入至预设的小程序风险识别模型中,得到风险识别结果的预测值,以风险识别结果的预测值与风险特征的标签之间的差异最小化为目标对所述小程序风险识别模型进行训练,得到训练好的小程序风险识别模型。2.根据权利要求1所述的小程序风险识别模型的训练方法,所述小程序的样本数据包括内容数据、代码数据和开发属性数据;从所述小程序的样本数据中提取风险特征,具体包括:从所述小程序的内容数据中提取内容特征;和/或从所述小程序的代码数据中提取代码特征;和/或从所述小程序的开发属性数据中提取开发属性特征。3.根据权利要求1所述的小程序风险识别模型的训练方法,剔除所述风险特征向量的部分特征值,具体包括:利用掩膜遮盖该小程序的风险特征的预设比例的特征值。4.根据权利要求2所述的小程序风险识别模型的训练方法,剔除所述小程序的风险特征向量的部分特征值,具体包括:当提取的风险特征包括内容特征时,剔除所述内容特征的第一比例的特征值;当提取的风险特征包括代码特征时,剔除所述代码特征的第二比例的特征值;当提取的风险特征包括开发属性特征时,剔除所述开发属性特征的第三比例的特征值。5.根据权利要求2所述的小程序风险识别模型的训练方法,所述小程序风险识别模型包括多个transformer层,所述transformer层用于融合所述内容特征、所述代码特征和所述开发属性特征。6.一种小程序风险识别方法,包括:获取待识别小程序的数据;从待识别小程序的数据中提取出待识别的风险特征;将所述待识别的风险特征输入预先训练的小程序风险识别模型中,得到待识别小程序的风险识别结果;其中预先训练的小程序风险识别模型是基于权利要求1

5中任一项所述的小程序风险识别模型的训练方法得到的。7.一种小程序风险识别模型的训练系统,包括:第一获取模块,用于获取小程序的样本数据;第一提取模块,用于从小程序的样本数据中提取风险特征;第二获取模块,用于根据所述风险特征,获取小程序的风险识别结果,作为所述风险特征的标签;剔除模块,用于剔除所述风险特征的部分特征,得到缺失风险特征;训练模块,用于将所述缺...

【专利技术属性】
技术研发人员:王菁菁
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1