用于智能模型训练的样本数据处理方法、系统及智能模型技术方案

技术编号：40599447 阅读：3 留言：0更新日期：2024-03-12 22:03

本发明专利技术公开一种用于智能模型训练的样本数据处理方法、系统及智能模型，其中该方法包括：提取样本数据集中的特征词，以生成特征词库；基于特征词库扫描样本数据集，并提取出所有的第一特征语句；从每一第一特征语句中提取与特征词相匹配的关键变量，以获得特征变量库；基于特征变量库再次扫描样本数据集，并提取出所有的第二特征语句；对第一特征语句和第二特征语句取并集，以获得包括若干特征语句的特征语句集；生成与每一特征语句相对应的文本向量。本发明专利技术样本数据处理方法，能更准确地捕捉到与目标样本相关的关键信息，这种方式提高了数据处理的针对性和效率，从而提高智能模型预测的准确性和效率，并能提升智能模型的跨数据集的泛化性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能模型构建，尤其涉及一种用于智能模型训练的样本数据处理方法及智能模型。

技术介绍

1、在当今的软件工程领域，软件质量的检测与保证是一个核心议题。随着软件系统变得越来越复杂，传统的软件测试方法逐渐显得力不从心。为了提高测试效率和准确性，智能模型的引入成为了一种流行趋势。这些模型利用机器学习和人工智能技术，对软件代码、文档和用户数据进行深入分析，以识别潜在的漏洞。

2、当前的软件检测中，智能模型的应用面临着几个关键问题。其中最重要的是，直接将样本数据转换为数值后导入智能模型，而对于模型来说，理解和处理软件代码和相关文档中的专业术语和上下文信息是一个挑战，因为这些信息通常包含大量专业性强且复杂的技术术语。因此，目前的智能模型检测软件代码的准确率和跨数据集的泛化性一直不够理想，这就导致通常还要人工辅助参与。

技术实现思路

1、本专利技术的目的是提供一种可有效提升智能模型预测准确性的用于智能模型训练的样本数据处理方法及智能模型。

2、为了实现上述目的，本专利技术公开了一种用于智能模型训练的样本数据处理方法，其包括：

3、根据标注信息提取样本数据集中的特征词，以生成包括若干所述特征词的特征词库；

4、基于所述特征词库扫描所述样本数据集，并提取出所有的第一特征语句，每一所述第一特征语句包含有至少一个所述特征词；

5、从每一所述第一特征语句中提取与所述特征词相匹配的关键变量，以获得包括所有所述关键变量的特征变量库；

...

【技术保护点】

1.一种用于智能模型训练的样本数据处理方法，其特征在于，包括：

2.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，所述特征词库的生成方式包括：

3.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，所述样本数据集为代码段，基于所述特征词库扫描所述代码段前，还对所述代码段中的语句以行为标准进行分割，并去除每行代码中的注释信息和空行信息。

4.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，所述智能模型为双向长短期记忆网络模型。

5.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，生成所述文本向量的方法包括：

6.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，所述样本数据集为包含有已知类型漏洞的代码段，所述智能模型用于对应用程序中的漏洞进行检查。

7.根据权利要求6所述的用于智能模型训练的样本数据处理方法，其特征在于，所述智能模型中设置有若干并行运行的子模型，若干所述子模型分别用于检测不同类型的代码漏洞，检测当将

8.一种智能模型，其特征在于，该智能模型基于权利要求1至7任一项所述的样本数据处理方法生成的所述文本向量训练而成。

9.一种样本数据处理系统，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序可被处理器执行以完成如权利要求1至7任一项所述的样本数据处理方法。

...

【技术特征摘要】

1.一种用于智能模型训练的样本数据处理方法，其特征在于，包括：

2.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，所述特征词库的生成方式包括：

4.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，所述智能模型为双向长短期记忆网络模型。

5.根据权利要求1所述的用于智能模型训练的样本数据处理方法，其特征在于，生成所述文本向量的方法包括：

6.根据权利要求1所述的用于智能模型训练的样本数据处理...

【专利技术属性】
技术研发人员：万振华，
申请(专利权)人：深圳开源互联网安全技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人