【技术实现步骤摘要】
模型训练和文件类型确定方法、装置及终端设备
[0001]本申请实施例涉及人工智能
,尤其涉及一种模型训练和文件类型确定方法、装置及终端设备。
技术介绍
[0002]用户可以通过命令执行环境(WebShell)文件,进行对应的网站管理、服务器管理、权限管理等操作。在实际应用过程中,恶意攻击者可以通过WebShell文件对网站进行远程访问,导致网站的隐私信息泄露。
[0003]为了避免网站遭受攻击,可以通过训练完成的模型对网站的脚本文件进行检测,以确定是否存在WebShell文件。在相关技术中,可以通过如下方式进行模型训练:从文件对应的文本中提取恶意标签、恶意方法和最长字符长度频率等文本特征。通过机器学习算法创建分类模型,并通过文本特征对分类模型进行训练,得到目标模型。目标模型用于根据文本特征确定对应文件的文件类型,从而确定文件是否为WebShell文件。在上述过程中,由于目标模型无法全面识别所有类型的WebShell文件。且只通过WebShell文件的文本特征得到目标模型,用于确定WebShell文件的文件类型, ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取初始样本数据集,所述初始样本数据集包括多个脚本文件、以及每个脚本文件对应的标注脚本文件类型;对每个脚本文件进行特征提取处理,得到每个脚本文件对应的脚本特征,所述脚本特征包括至少一个语义特征和至少一个统计特征;根据每个脚本文件对应的脚本特征和所述标注脚本文件类型,生成目标样本数据集,所述目标样本数据集包括多个所述脚本特征、以及每个脚本特征对应的标注脚本文件类型;通过所述目标样本数据集对初始模型进行训练,得到目标模型,所述目标模型用于确定脚本文件对应的脚本文件类型。2.根据权利要求1所述的方法,其特征在于,针对任意一个脚本文件;对所述脚本文件进行特征提取处理,得到所述脚本文件对应的脚本特征,包括:对所述脚本文件进行文本提取处理,得到所述脚本文件对应的语义结构,所述语义结构包括多个节点、以及每个节点对应的分支,所述节点用于指示所述脚本文件的执行操作,所述分支用于指示所述执行操作对应的操作内容;根据所述脚本文件对应的语义结构,确定所述脚本文件对应的至少一个统计特征;对所述脚本文件对应的语义结构进行特征提取处理,得到所述脚本文件对应的至少一个语义特征。3.根据权利要求2所述的方法,其特征在于,所述统计特征包括节点统计特征、分支统计特征和文本统计特征;根据所述脚本文件对应的语义结构,确定所述脚本文件对应的至少一个统计特征,包括:确定所述语义结构包括的节点数量以及分支数量;根据所述节点数量,确定所述节点统计特征包括如下至少一种:所述多个节点的最大深度、平均深度和深度方差;根据所述分支数量,确定所述分支统计特征包如下至少一种:所述多个分支的节点数量、标准差、方差和最大值,以及多个分支的平均分支数、最大分支数和分支方差;根据所述语义结构,确定所述文本统计特征包括如下至少一种:所述脚本文件的信息熵、所述多个节点的信息熵集合的最大值、最小值、标准差和方差。4.根据权利要求2或3所述的方法,其特征在于,对所述脚本文件对应的语义结构进行特征提取处理,得到所述脚本文件对应的至少一个语义特征,包括:通过预设算法对所述语义结构进行深度优先遍历处理,得到所述语义结构的节点序列特征,所述节点序列特征用于指示所述语义结构中执行操作的先后顺序;通过第一模型对所述节点序列特征进行特征提取处理,得到所述脚本文件对应的至少一个语义特征。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述目标样本数据集包括训练数据集和测试数据集;通过所述目标样本数据集对初始模型进行训练,得到目标模型,包括:通过所述训练数据集对所述初始模型进行多次迭代训练,得到中间模型;通过所述测试数据集对所述中间模型进行更新处理,得到所述目标模型。6.根据权利要求5所述的方法,其特征在于,通过所述训练数据集对所述初始模型进行
多次迭代训练,得到中间模型,包括:通过所述训练数据集的多个脚本特征对所述初始模型进行第1次迭代训练,得到第一中间模型;通过所述训练数据集的多个脚本特征对第i个中...
【专利技术属性】
技术研发人员:何晓霞,颜巍,文艺,彭冲,晁宇璇,张铎,
申请(专利权)人:中国人民财产保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。