The invention relates to a data set generation method, a device and a readable storage medium in a string matching scene. The method comprises the following steps: 1) each character separately generated pattern string, the formation of scale and preset preset length random pattern string set; 2) according to the random pattern is generated on the specified text data collection, structure level hit set; 3) random mode output generated string sets and text data sets. The device includes a receiver, a processor, a memory and a transmitter connected by a bus, and the memory is used to store data sets in the string matching scene to generate instructions. The present invention can generate random pattern scale preset preset length string set, according to the stochastic model has been generated on the specified text data set can be constructed hit level set, the random pattern string sets and text data sets can be used on the function test and performance test of the algorithm, has an important role in promoting the further research and performance on matching algorithm.
【技术实现步骤摘要】
一种串匹配场景下数据集生成方法、设备和可读存储介质
本专利技术属于信息
,涉及串匹配算法的测试技术,具体涉及一种串匹配场景下数据集生成方法、设备和可读存储介质。
技术介绍
串匹配算法是计算机研究领域的一个经典问题,是实现网络安全系统采用的关键技术之一。串匹配算法在网络安全领域的典型应用包括入侵检测系统(IPS)、入侵防御系统(IDS)、防病毒系统(AV)、垃圾邮件过滤系统和统一威胁管理(UTM)等等。串匹配算法的研究已经有几十年的历史,根据所匹配的模式串的数量,分为“单模式串匹配算法”和“多模式串匹配算法”。经典的单模式匹配算法有KMP和BM。在实际应用中,由于多模式匹配算法的应用、执行效率更高,因此,大多数系统是基于多模式匹配算法实现的。多模式匹配算法的代表性算法有AC、MultipleShift-And、Commentz-Walter、Wu-Manber、SBDM、SBOM、MultipleBNDM等。虽然串匹配算法方面的研究成果众多,但海量数据的处理和新的应用需求对串匹配算法提出了新的技术挑战。在串匹配算法的研究和测试过程中,如何获取测试串匹配算法的数据集是一个非常重要的内容。由于受时间、数据规模、数据多样性等一些原因的限制,很难获得充分有效的测试数据集。此外,不同的串匹配算法对测试数据集的要求不同,适用的数据集对于串匹配算法的不断发展起着至关重要的作用。在串匹配算法测试的过程中,用于算法测试的数据集由模式串集合和待匹配文本数据集构成。目前用于串匹配算法测试的数据集一般是从开源系统中提取的真实数据集,包括MIT入侵检测数据集(DARPAIntr ...
【技术保护点】
一种串匹配场景下数据集生成方法,其特征在于,包括以下步骤:1)独立地生成模式串的每个字符,形成预设规模和预设长度的随机模式串集合;2)根据已生成的随机模式串集合,构造指定命中水平的文本数据集;3)输出生成的随机模式串集合和文本数据集。
【技术特征摘要】
1.一种串匹配场景下数据集生成方法,其特征在于,包括以下步骤:1)独立地生成模式串的每个字符,形成预设规模和预设长度的随机模式串集合;2)根据已生成的随机模式串集合,构造指定命中水平的文本数据集;3)输出生成的随机模式串集合和文本数据集。2.如权利要求1所述的方法,其特征在于,步骤1)包括以下子步骤:1-1)设定字符集、模式串的预设规模r和模式串的预设长度m;1-2)在生成长度为m的模式串时,在当前模式串位置调用系统的伪随机函数生成一个属于所述字符集的随机字符,用该随机字符填充该模式串,如此循环填充,直至长度为m的模式串填充完毕;然后生成r个长度为m的模式串,构成随机模式串集合。3.如权利要求2所述的方法,其特征在于,还包括存储步骤1)生成的随机模式串集合的步骤。4.如权利要求2所述的方法,其特征在于,步骤2)构造指定命中水平的文本数据集的方法为:根据生成的r个长度为m的随机模式串集合P,当生成命中水平为ρ、长度为n的文本数据集T时,在当前文本位置i生成[0,1)之间的随机浮点数,若该随机浮点数小于q且i+m≤n,其中q为填充概率并且q与ρ相关,则生成[0,r)之间的随机整数j,用模式串集...
【专利技术属性】
技术研发人员:刘燕兵,袁方方,卢毓海,张春燕,谭建龙,郭莉,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。