System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于智能模型训练的样本数据处理方法、系统及智能模型技术方案_技高网

用于智能模型训练的样本数据处理方法、系统及智能模型技术方案

技术编号:40599447 阅读:3 留言:0更新日期:2024-03-12 22:03
本发明专利技术公开一种用于智能模型训练的样本数据处理方法、系统及智能模型,其中该方法包括:提取样本数据集中的特征词,以生成特征词库;基于特征词库扫描样本数据集,并提取出所有的第一特征语句;从每一第一特征语句中提取与特征词相匹配的关键变量,以获得特征变量库;基于特征变量库再次扫描样本数据集,并提取出所有的第二特征语句;对第一特征语句和第二特征语句取并集,以获得包括若干特征语句的特征语句集;生成与每一特征语句相对应的文本向量。本发明专利技术样本数据处理方法,能更准确地捕捉到与目标样本相关的关键信息,这种方式提高了数据处理的针对性和效率,从而提高智能模型预测的准确性和效率,并能提升智能模型的跨数据集的泛化性。

【技术实现步骤摘要】

本专利技术涉及智能模型构建,尤其涉及一种用于智能模型训练的样本数据处理方法及智能模型。


技术介绍

1、在当今的软件工程领域,软件质量的检测与保证是一个核心议题。随着软件系统变得越来越复杂,传统的软件测试方法逐渐显得力不从心。为了提高测试效率和准确性,智能模型的引入成为了一种流行趋势。这些模型利用机器学习和人工智能技术,对软件代码、文档和用户数据进行深入分析,以识别潜在的漏洞。

2、当前的软件检测中,智能模型的应用面临着几个关键问题。其中最重要的是,直接将样本数据转换为数值后导入智能模型,而对于模型来说,理解和处理软件代码和相关文档中的专业术语和上下文信息是一个挑战,因为这些信息通常包含大量专业性强且复杂的技术术语。因此,目前的智能模型检测软件代码的准确率和跨数据集的泛化性一直不够理想,这就导致通常还要人工辅助参与。


技术实现思路

1、本专利技术的目的是提供一种可有效提升智能模型预测准确性的用于智能模型训练的样本数据处理方法及智能模型。

2、为了实现上述目的,本专利技术公开了一种用于智能模型训练的样本数据处理方法,其包括:

3、根据标注信息提取样本数据集中的特征词,以生成包括若干所述特征词的特征词库;

4、基于所述特征词库扫描所述样本数据集,并提取出所有的第一特征语句,每一所述第一特征语句包含有至少一个所述特征词;

5、从每一所述第一特征语句中提取与所述特征词相匹配的关键变量,以获得包括所有所述关键变量的特征变量库;

6、基于所述特征变量库再次扫描所述样本数据集,并提取出所有的第二特征语句,每一所述第二特征语句包含有至少一个所述关键变量;

7、对所述第一特征语句和所述第二特征语句取并集,以获得包括若干特征语句的特征语句集;

8、根据预设转换规则将所述特征语句集中的每一特征语句转换成数字序列,以生成与每一所述特征语句相对应的文本向量,所述文本向量用于导入所述智能模型,以对所述智能模型进行训练。

9、较佳地,所述特征词库的生成方式包括:

10、根据标注信息对提取到的所述特征词进行分类统计;

11、计算每一所述特征词与所述样本数据集中所有所述特征词的比值,以获得每一所述特征词在所述样本数据集中出现的第一频率pa;

12、计算每一所述特征词与其所在类别中的所有所述特征词的比值,以获得每一所述特征词在其所在类别出现的第二频率pb;

13、通过下述公式一计算每一所述特征词的特征权重w;

14、w=|pa-pb|/pa(公式一)

15、将不同类别中相同的所述特征词的特征权重合并,以获得特征权重集;

16、将所述特征权重集中数值较大的若干所述特征权重所对应的特征词加入所述特征词库。

17、较佳地,所述样本数据集为代码段,基于所述特征词库扫描所述代码段前,还对所述代码段中的语句以行为标准进行分割,并去除每行代码中的注释信息和空行信息。

18、较佳地,所述智能模型为双向长短期记忆网络模型。

19、较佳地,生成所述文本向量的方法包括:

20、将所有的所述特征语句分成单词序列;

21、为每一所述单词分配一数值标识符,以生成包括有所有的所述数值标识符的字典;

22、基于所述字典,将每一所述特征语句转换为数字序列,以生成所述文本向量。

23、较佳地,所述样本数据集为包含有已知类型漏洞的代码段,所述智能模型用于对应用程序中的漏洞进行检查。

24、较佳地,所述智能模型中设置有若干并行运行的子模型,若干所述子模型分别用于检测不同类型的代码漏洞,检测当将所述文本向量导入所述智能模型时,每一所述子模型分别独立对所述文本向量进行处理。

25、本专利技术还公开一种智能模型,该智能模型基于如上所述的样本数据处理方法生成的所述文本向量训练而成。

26、本专利技术还公开一种样本数据处理系统,其包括:

27、一个或多个处理器;

28、存储器;

29、以及一个或多个程序,其中一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的样本数据处理方法的指令。

30、本专利技术还公开一种计算机可读存储介质,其包括计算机程序,所述计算机程序可被处理器执行以完成如上所述的样本数据处理方法。

31、与现有技术相比,本专利技术上述技术方案公开的样本数据处理方法,通过提取样本数据集的特征词生成特征词库,并通过基于特征词库和特征变量库的两轮扫描和特征语句提取,能更准确地捕捉到与目标样本相关的关键信息,这种方式提高了数据处理的针对性和效率。此外,通过将特征语句转换为数字序列生成文本向量,解决了将专业文本信息转换为智能模型可理解格式的问题。由此可知,上述样本数据处理方法可使得智能模型能够更有效地学习和理解样本数据的关键特征,从而提高智能模型预测的准确性和效率,并能提升智能模型的跨数据集的泛化性。

本文档来自技高网
...

【技术保护点】

1.一种用于智能模型训练的样本数据处理方法,其特征在于,包括:

2.根据权利要求1所述的用于智能模型训练的样本数据处理方法,其特征在于,所述特征词库的生成方式包括:

3.根据权利要求1所述的用于智能模型训练的样本数据处理方法,其特征在于,所述样本数据集为代码段,基于所述特征词库扫描所述代码段前,还对所述代码段中的语句以行为标准进行分割,并去除每行代码中的注释信息和空行信息。

4.根据权利要求1所述的用于智能模型训练的样本数据处理方法,其特征在于,所述智能模型为双向长短期记忆网络模型。

5.根据权利要求1所述的用于智能模型训练的样本数据处理方法,其特征在于,生成所述文本向量的方法包括:

6.根据权利要求1所述的用于智能模型训练的样本数据处理方法,其特征在于,所述样本数据集为包含有已知类型漏洞的代码段,所述智能模型用于对应用程序中的漏洞进行检查。

7.根据权利要求6所述的用于智能模型训练的样本数据处理方法,其特征在于,所述智能模型中设置有若干并行运行的子模型,若干所述子模型分别用于检测不同类型的代码漏洞,检测当将所述文本向量导入所述智能模型时,每一所述子模型分别独立对所述文本向量进行处理。

8.一种智能模型,其特征在于,该智能模型基于权利要求1至7任一项所述的样本数据处理方法生成的所述文本向量训练而成。

9.一种样本数据处理系统,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,包括计算机程序,所述计算机程序可被处理器执行以完成如权利要求1至7任一项所述的样本数据处理方法。

...

【技术特征摘要】

1.一种用于智能模型训练的样本数据处理方法,其特征在于,包括:

2.根据权利要求1所述的用于智能模型训练的样本数据处理方法,其特征在于,所述特征词库的生成方式包括:

3.根据权利要求1所述的用于智能模型训练的样本数据处理方法,其特征在于,所述样本数据集为代码段,基于所述特征词库扫描所述代码段前,还对所述代码段中的语句以行为标准进行分割,并去除每行代码中的注释信息和空行信息。

4.根据权利要求1所述的用于智能模型训练的样本数据处理方法,其特征在于,所述智能模型为双向长短期记忆网络模型。

5.根据权利要求1所述的用于智能模型训练的样本数据处理方法,其特征在于,生成所述文本向量的方法包括:

6.根据权利要求1所述的用于智能模型训练的样本数据处理...

【专利技术属性】
技术研发人员:万振华
申请(专利权)人:深圳开源互联网安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1