一种信息处理方法、设备及计算机可读存储介质技术

技术编号:39247348 阅读:15 留言:0更新日期:2023-10-30 11:59
本申请公开了一种信息处理方法,该方法包括:获取样本误检代码文件和样本非误检代码文件;对样本误检代码文件中的代码结构进行分析,得到第一样本特征信息,并对样本非误检代码文件中的代码结构进行分析,得到第二样本特征信息;基于第一样本特征信息和第二样本特征信息进行模型训练,确定文件识别模型。本申请实施例还公开了一种信息处理设备及计算机可读存储介质。读存储介质。读存储介质。

【技术实现步骤摘要】
一种信息处理方法、设备及计算机可读存储介质


[0001]本申请涉及信息处理领域,尤其涉及一种信息处理方法、设备及计算机可读存储介质。

技术介绍

[0002]目前,在合作研发编程项目时,开发者可以将一些基础的代码上传至代码托管平台,并由代码托管平台进行管理;但是,开发者在将基础的代码上传至代码托管平台时,由于误操作会将客户的相关代码也上传至代码托管平台,造成代码泄露进而为客户的数据安全带来严重隐患;相关技术中,为了降低代码泄露带来的不良影响,可以通过目标关键词,从代码托管平台中获取与目标关键词匹配的目标代码文件,并通过对目标代码文件进行校验来确定客户的相关代码是否泄露,以便在确定客户的相关代码泄露的情况下及时提醒客户;但是,通过目标关键词来确定的目标代码文件中存在大量的误检文件,降低了后续校验的效率。

技术实现思路

[0003]为解决上述技术问题,本申请实施例期望提供一种信息处理方法、设备及计算机可读存储介质,解决了目标代码文件中存在大量的误检文件的问题,提高了后续校验的效率。
[0004]本申请的技术方案是这样实现的:
[0005]一种信息处理方法,所述方法包括:
[0006]获取样本误检代码文件和样本非误检代码文件;
[0007]对所述样本误检代码文件中的代码结构进行分析,得到第一样本特征信息,并对所述样本非误检代码文件中的代码结构进行分析,得到第二样本特征信息;
[0008]基于所述第一样本特征信息和所述第二样本特征信息进行模型训练,确定文件识别模型。/>[0009]上述方案中,所述获取样本误检代码文件和样本非误检代码文件,包括:
[0010]获取初始代码文件,基于第一关键词从所述初始代码文件中确定样本代码文件;
[0011]对所述样本代码文件进行分类,得到所述样本误检代码文件和所述样本非误检代码文件。
[0012]上述方案中,所述对所述样本误检代码文件中的代码结构进行分析,得到第一样本特征信息,并对所述样本非误检代码中的代码结构进行分析,得到第二样本特征信息,包括:
[0013]基于所述第一关键词从样本误检代码文件中确定第一代码,并基于所述第一代码在所述样本误检代码文件中的行数和目标行数,从所述样本误检代码文件中确定多行第二代码;
[0014]基于所述第一关键词从所述样本非误检代码文件中确定第三代码,并基于所述第
三代码在所述样本非误检代码文件中的行数和所述目标行数,从所述样本非误检代码文件中确定多行第四代码;
[0015]对所述第一代码和所述多行第二代码的代码结构进行分析,得到所述第一样本特征信息,并对所述第三代码和所述多行第四代码的代码结构进行分析得到所述第二样本特征信息。
[0016]上述方案中,所述对所述第一代码和所述多行第二代码的代码结构进行分析,得到所述第一样本特征信息,并对所述第三代码和所述多行第四代码的代码结构进行分析,得到所述第二样本特征信息,包括:
[0017]对所述第一代码的字符串和每行所述第二代码的字符串进行分析得到第一信息,并对所述第三代码的字符串和每行所述第四代码的字符串进行分析得到第二信息;其中,所述第一信息表征所述第一代码的字符串和所述每行第二代码的字符串的差异;所述第二信息表征所述第三代码的字符串和所述每行第四代码的字符串的差异;
[0018]对所述第一代码的词的词性和所述每行第二代码的词的词性进行分析得到第三信息,并对所述第三代码的词的词性和所述每行第四代码的词的词性进行分析得到第四信息;其中,所述第三信息表征所述第一代码的词的词性和所述每行第二代码的词的词性的差异;所述第四信息表征所述第三代码的词的词性和所述每行第四代码的词的词性的差异;
[0019]对所述第一代码的词的词法和所述每行第二代码的词的词法进行分析得到第五信息,并对所述第三代码的词的词法和所述每行第四代码的词的词法进行分析得到第六信息;其中,所述第五信息表征所述第一代码的词的词法和所述每行第二代码的词的词法的差异;所述第六信息表征所述第三代码的词的词法和所述每行第四代码的词的词法的差异;
[0020]基于所述第一信息、所述第三信息和所述第五信息,确定所述第一样本特征信息,并基于所述第二信息、所述第四信息和所述第六信息,确定所述第二样本特征信息。
[0021]上述方案中,所述对所述第一代码的字符串和所述每行第二代码的字符串进行分析得到第一信息,并对所述第三代码的字符串和每行所述第四代码的字符串进行分析得到第二信息,包括:
[0022]基于所述第一代码中的每个字符串和所述第二代码中的每个字符串,确定所述第一代码和所述每行第二代码之间的第一差异程度,并基于所述第三代码中每个字符串和所述第四代码中每个字符串,确定所述第三代码和所述每行第四代码之间的第二差异程度;
[0023]基于所述第一关键词从所述每行第二代码中确定第二关键词,并确定所述第一关键词和每一所述第二关键词之间的第三差异程度;
[0024]基于所述第一关键词从所述每行第四代码中确定第三关键词,并确定所述第一关键词和每一所述第三关键词之间的第四差异程度;
[0025]基于多个所述第一差异程度和所述多个第三差异程度确定所述第一信息,并基于多个所述第二差异程度和所述多个第四差异程度确定所述第二信息。
[0026]一种信息处理方法,所述方法包括:
[0027]获取候选代码文件;
[0028]对所述候选代码文件的代码结构进行分析,得到目标特征信息;
[0029]基于文件识别模型和所述目标特征信息,确定所述候选代码文件是否为误检文件。
[0030]上述方案中,所述获取候选代码文件,包括:
[0031]获取待检测代码文件;
[0032]基于所述第一关键词,从所述待检测代码文件中确定待选代码文件;
[0033]采用文本相似度算法对所述待选代码文件进行分析,得到待检测编码信息;
[0034]在所述待检测编码信息与目标编码信息之间的编辑距离大于目标编辑距离的情况下,将所述待选代码文件作为所述候选代码文件。
[0035]上述方案中,所述在所述待检测编码信息与目标编码信息之间的编辑距离大于目标编辑距离的情况下,将所述待选代码文件作为所述候选代码文件之前,所述方法还包括:
[0036]获取与所述第一关键词匹配的第一代码文件,并采用文本相似度算法对所述第一代码文件进行分析得到第一编码信息并存储;
[0037]获取与所述第一关键词匹配的第二代码文件,并采用所述文本相似度算法对所述第二代码文件进行分析得到第二编码信息;
[0038]在确定所述第二编码信息与所述第一编码信息之间的编辑距离大于目标编辑距离的情况下,将所述第二编码信息作为所述第一编码信息并统计所述第一编码信息的数量;
[0039]获取与所述第一关键词匹配的第i代码文件,并采用文本相似度算法对所述第i代码文件进行分析得到第三编码信息,直到确定的所述第一编码信本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:获取样本误检代码文件和样本非误检代码文件;对所述样本误检代码文件中的代码结构进行分析,得到第一样本特征信息,并对所述样本非误检代码文件中的代码结构进行分析,得到第二样本特征信息;基于所述第一样本特征信息和所述第二样本特征信息进行模型训练,确定文件识别模型。2.根据权利要求1所述的方法,其特征在于,所述获取样本误检代码文件和样本非误检代码文件,包括:获取初始代码文件,基于第一关键词从所述初始代码文件中确定样本代码文件;对所述样本代码文件进行分类,得到所述样本误检代码文件和所述样本非误检代码文件。3.根据权利要求2所述的方法,其特征在于,所述对所述样本误检代码文件中的代码结构进行分析,得到第一样本特征信息,并对所述样本非误检代码中的代码结构进行分析,得到第二样本特征信息,包括:基于所述第一关键词从样本误检代码文件中确定第一代码,并基于所述第一代码在所述样本误检代码文件中的行数和目标行数,从所述样本误检代码文件中确定多行第二代码;基于所述第一关键词从所述样本非误检代码文件中确定第三代码,并基于所述第三代码在所述样本非误检代码文件中的行数和所述目标行数,从所述样本非误检代码文件中确定多行第四代码;对所述第一代码和所述多行第二代码的代码结构进行分析,得到所述第一样本特征信息,并对所述第三代码和所述多行第四代码的代码结构进行分析得到所述第二样本特征信息。4.根据权利要求3所述的方法,其特征在于,所述对所述第一代码和所述多行第二代码的代码结构进行分析,得到所述第一样本特征信息,并对所述第三代码和所述多行第四代码的代码结构进行分析,得到所述第二样本特征信息,包括:对所述第一代码的字符串和每行所述第二代码的字符串进行分析得到第一信息,并对所述第三代码的字符串和每行所述第四代码的字符串进行分析得到第二信息;其中,所述第一信息表征所述第一代码的字符串和所述每行第二代码的字符串的差异;所述第二信息表征所述第三代码的字符串和所述每行第四代码的字符串的差异;对所述第一代码的词的词性和所述每行第二代码的词的词性进行分析得到第三信息,并对所述第三代码的词的词性和所述每行第四代码的词的词性进行分析得到第四信息;其中,所述第三信息表征所述第一代码的词的词性和所述每行第二代码的词的词性的差异;所述第四信息表征所述第三代码的词的词性和所述每行第四代码的词的词性的差异;对所述第一代码的词的词法和所述每行第二代码的词的词法进行分析得到第五信息,并对所述第三代码的词的词法和所述每行第四代码的词的词法进行分析得到第六信息;其中,所述第五信息表征所述第一代码的词的词法和所述每行第二代码的词的词法的差异;所述第六信息表征所述第三代码的词的词法和所述每行第四代码的词的词法的差异;基于所述第一信息、所述第三信息和所述第五信息,确定所述第一样本特征信息,并基
于所述第二信息、所述第四信息和所述第六信息,确定所述第二样本特征信息。5.根据权利要求4所述的方法,其特征在于,所述对...

【专利技术属性】
技术研发人员:曾绍坤李峰吴鹤意闫凡
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1