一种源代码分类方法、装置及电子设备和存储介质制造方法及图纸

技术编号：35545071 阅读：20 留言：0更新日期：2022-11-12 15:23

本申请公开了一种源代码分类方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取目标源代码；提取目标源代码的目标单词类型信息，并基于目标单词类型信息生成目标源代码的目标特征向量；将目标特征向量输入训练完成的分类模型中，以预测目标源代码的类型。由此可见，本申请提供的源代码分类方法，提高了分类的准确度，降低了性能要求。降低了性能要求。降低了性能要求。

全部详细技术资料下载

【技术实现步骤摘要】
一种源代码分类方法、装置及电子设备和存储介质

[0001]本申请涉及计算机
，更具体地说，涉及一种源代码分类方法、装置及一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]不同于Office和Windows PE文件等结构化文件，源代码文件在文件开头部分并没有标识其文件类型的唯一文件类型后缀。在文件后缀名未知的条件下，各种编程语言的源代码被操作系统统一地看做文本类型文件。文件后缀名在网络传输、解压和存储中并非必要，且可简便地通过文件改名添加，因此无后缀名的源代码文件广泛存在。
[0003]反病毒系统根据文件类型对被测文件分流处理，不同类型的文件被分流至不同的检测流程，不同的检测流程对应不同的检测算法，从而实现精细化的病毒检测功能，提升病毒检测效果。例如，反病毒系统对VBScript源代码和PowerShell源代码可能采用了不同的检测算法。如果将一个VBScript病毒文件误识别为PowerShell源代码，则该文件送入检测PowerShell病毒的检测流程，很可能造成漏报。
[0004]在相关技术中，通过词法分析(Lexical Analysis)和语法分析(Syntax Analysis)进行源代码类型的识别。词法分析将字符序列转换为单词序列，语法分析在词法分析的基础上构建由输入单词组成的抽象语法树，并进行语法检查。具体地，根据程序设计语言G的标准，构造语法分析器m，若被测文件P能够被m识别，则判定P是G的源代码。但是，词法分析对系统性能要求较高，另外对于一些病毒脚本，其故意在文件...

【技术保护点】

【技术特征摘要】
1.一种源代码分类方法，其特征在于，包括：获取目标源代码；提取所述目标源代码的目标单词类型信息，并基于所述目标单词类型信息生成所述目标源代码的目标特征向量；将所述目标特征向量输入训练完成的分类模型中，以预测所述目标源代码的类型。2.根据权利要求1所述源代码分类方法，其特征在于，所述提取所述目标源代码的目标单词类型信息，包括：对所述目标源代码进行词法分析，以将所述目标源代码转换为目标单词序列；确定所述目标单词序列中每个单词所属的单词类型，并基于每个单词所属的单词类型提取所述目标源代码的目标单词类型信息。3.根据权利要求2所述源代码分类方法，其特征在于，所述单词类型包括关键字、标识符和符号中任一项或任几项的组合。4.根据权利要求2所述源代码分类方法，其特征在于，所述单词类型信息包括每个单词所属的单词类型和/或所有所述单词类型有序n元组。5.根据权利要求4所述源代码分类方法，其特征在于，所述单词类型有序n元组包括单词类型有序二元组、单词类型有序三元组和单词类型有序四元组中任一项或任几项的组合。6.根据权利要求1至5中任一项所述源代码分类方法，其特征在于，还包括：获取训练集，并对所述训练集中的每个训练源代码进行类型标注；...

【专利技术属性】
技术研发人员：闫华，位凯志，古亮，
申请(专利权)人：深信服科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人