【技术实现步骤摘要】
样本数据的生成、信息检测方法、装置、设备及存储介质
[0001]本公开涉及计算机
,具体而言,涉及一种样本数据的生成、信息检测方法、装置、设备及存储介质。
技术介绍
[0002]随着科技的发展,数据安全已成为当前社会关注的重点,因此如何在大量数据中准确的、高效的检测到具有安全需求的特定数据已成为数据安全领域的重要研究内容。
[0003]一般的,可以利用特定数据检测模型实现特定数据检测任务,具体的特定数据检测任务要求对给定的输入数据,识别出输入数据中包含的全部特定信息、检测出特定数据类型、特定数据样本值、特定数据的索引位置等。可见特定数据检测模型的精度尤为重要,而特定数据检测模型的精度与训练使用的样本数据集息息相关。
技术实现思路
[0004]本公开实施例至少提供一种样本数据的生成、信息检测方法、装置、计算机设备及存储介质。
[0005]第一方面,本公开实施例提供了一种样本数据的生成方法,包括:
[0006]获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,所 ...
【技术保护点】
【技术特征摘要】
1.一种样本数据的生成方法,其特征在于,包括:获取第一参考数据,所述第一参考数据中包含有与目标信息类型匹配的目标信息,所述目标信息类型为预设的具有安全需求的信息类型;对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果;其中所述分析处理包括语义分析、词法结构分析和语法结构分析;基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息;基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样本数据的样本数据集。2.根据权利要求1所述的生成方法,其特征在于,所述对所述第一参考数据中所述目标信息进行分析处理,生成所述目标信息对应的分析结果,包括:对所述第一参考数据中所述目标信息进行语义分析,生成各种目标信息类型分别对应的第一关键词;对所述第一参考数据中所述目标信息进行词法结构分析,生成各种目标信息类型分别对应的第一正则表达式;所述第一正则表达式用于表征所述目标信息类型匹配的词法结构;对所述第一参考数据中的所述目标信息进行语法结构分析,生成与所述第一参考数据的数据类型匹配的信息模板;基于所述各种目标信息类型分别对应的第一关键词和第一正则表达式,以及与所述第一参考数据的数据类型匹配的信息模板,生成所述目标信息对应的所述分析结果。3.根据权利要求2所述的生成方法,其特征在于,所述基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息,包括:针对每种目标信息类型,基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的、满足所述目标信息类型词法结构的多个第一信息样本值;按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第一关键词和所述第一信息样本值,生成所述目标信息类型下的多个正样本信息。4.根据权利要求2所述的生成方法,其特征在于,所述基于所述目标信息对应的所述分析结果,生成多个正样本信息和多个负样本信息,包括:针对每种目标信息类型,对所述目标信息类型对应的所述第一关键词进行预设操作,生成第二关键词;其中预设操作包括截选操作和/或增加字符操作;基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值;按照所述分析结果指示的所述信息模板,基于所述目标信息类型对应的所述第二关键词和所述第二信息样本值,生成所述目标信息类型下的多个负样本信息。5.根据权利要求4所述的生成方法,其特征在于,所述基于所述目标信息类型对应的第一正则表达式,生成不满足所述目标信息类型词法结构的第二信息样本值,包括:基于所述目标信息类型对应的第一正则表达式,生成所述目标信息类型对应的第一信息样本值;对所述目标信息类型对应的所述第一信息样本值进行预设操作,生成第二信息样本值;和/或,基于所述目标信息类型对应的所述第一正则表达式,生成不满足所述目标信息类型词
法结构的第二正则表达式;基于所述第二正则表达式,生成所述目标信息类型对应的第二信息样本值。6.根据权利要求1
‑
5任一所述的生成方法,其特征在于,所述第一参考数据还包含易混淆信息,所述易混淆信息为对所述目标信息的检测存在干扰的信息;所述方法还包括:对所述第一参考数据中所述易混淆信息进行语义分析,生成至少一种目标信息类型对应的第三关键词;从所述易混淆信息中,确定所述第三关键词对应的第三信息样本值;基于所述至少一种目标信息类型对应的所述第三关键词和所述第三信息样本值,生成所述目标信息类型下的多个负样本信息。7.根据权利要求1所述的生成方法,其特征在于,所述第二参考数据为多个,所述基于所述多个正样本信息、所述多个负样本信息以及第二参考数据,生成包含正样本数据和负样...
【专利技术属性】
技术研发人员:谢文奇,樊昭杉,苏晓东,李鸣雷,
申请(专利权)人:北京火山引擎科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。