【技术实现步骤摘要】
一种字符串分类方法、系统及一种字符串分类设备
本专利技术涉及文本处理
,更具体地说,涉及一种字符串分类方法、系统一种字符串分类设备和计算机可读存储介质。
技术介绍
文本处理技术有很多应用,可以应用于网络钓鱼检测
、恶意网络请求检测
、及文档分类领域。随着互联网应用在我国的飞速发展,网络安全受到极大威胁,各种恶意网络请求越来越多,网络钓鱼的对象也主要分布在金融网站和电子商务网站方面。由于其钓鱼手段的层出不穷,蔓延速度快,造成损失巨大,已使其成为最严重的诈骗问题之一,也严重阻碍了在线金融、电子商务的健康发展。目前网络钓鱼已经成为互联网历史上传播速度最快、最为普及的网络诈骗方式。现有技术大部分的字符串分类方法中,通常是要利用与字符串相关联的其他信息,例如钓鱼网站检测中除了需要URL网址字符串,还需要其网页的信息,来提取特征,有的方法甚至需要利用多层页面的信息,这就导致在实际使用中需要访问网页来获得页面信息,遇到网络状态不好时系统就无法做到实时检测。同时,现有的利用机器学习方法来实现字符串分类的方法中,通常需要结合人工经验来设计特征提取的方法,这需要领域 ...
【技术保护点】
一种字符串分类方法,其特征在于,包括:获取待分类字符串;将所述待分类字符串输入特征提取器中,得到所述待分类字符串对应的特征向量;将所述特征向量输入分类器中,得到所述待分类字符串的分类结果。
【技术特征摘要】
1.一种字符串分类方法,其特征在于,包括:获取待分类字符串;将所述待分类字符串输入特征提取器中,得到所述待分类字符串对应的特征向量;将所述特征向量输入分类器中,得到所述待分类字符串的分类结果。2.根据权利要求1所述字符串分类方法,其特征在于,将所述待分类字符串输入特征提取器中,得到所述待分类字符串对应的特征向量,包括:将所述待分类字符串输入所述特征提取器中;所述特征提取器将所述待分类字符串按照预先设定的划分方式划分为N个字符串子段,并从所述N个字符串子段中选择M个字符串子段;其中,N为正整数,M为不大于N的正整数;所述特征提取器将所述M个字符串子段输入训练完成的C2V模型中,生成所述M个字符串子段中每一个字符串子段对应的特征矩阵,所述特征矩阵的每一行对应所述每一个字符串子段中的一个字符的n维特征向量,每一列对应所述n维特征向量的每一个维度,其中,n为正整数;所述特征提取器利用统计学方法计算所述特征矩阵每一列的统计特征值,得到所述每一个字符串子段对应的统计特征向量,并根据所有的所述统计特征向量生成所述待分类字符串对应的特征向量。3.根据权利要求2所述字符串分类方法,其特征在于,所述统计学方法至少包括取平均值、取标准差、取中位数中的任一项。4.根据权利要求2所述字符串分类方法,其特征在于,所述根据所有的所述统计特征向量生成所述待分类字符串对应的特征向量,包括:将所有的所述统计特征向量串联为所述待分类字符串对应的特征向量。5.根据权利要求2所述字符串分类方法,其特征在于,将所述M个字符串子段输入训练完成的C2V模型中之前,还包括:将训练集中的所有字符串切割为字符,并将所有切割完成的字符加入字符语料库中;利用Word2vec和所述字符语料库中的所有字符训练CharacterEmbedding模型得到训练完成的C2V模型。6.根据权利要求2所述字符串分类方法,其特征在于,若待分类字符串为待检测是否为钓鱼网站的URL地址,且N为5,则将所述待分类字符串按照预先设定的划分方式划分为N个字符串子段,包括:将所述URL地址分为网络协议、子域名字段、域名字段、域名后缀和URL路径五个字符串子段。7.根据权利要求2所述字符串分类方法,其特征在于,若待分类字符串为待检测是否为恶意请求或网站后门行为的网络请求,且M为2,则将所述待分类字符串按照预先设定的划分方式划分为N个字符串子段,并从所述N个字符串子段中选择M个字符串子段,包括:将所述网络请求按照预先设定的划分方式划分为N个字符串子段,并从所述N个字符串子段中选择请求路径和请求参数两个字符串子段,其中,N为不小于2的整数。8.根据权利要求1所述字符串分类方法,其特征在于,若待分类字符串为待检测是否为恶意请求或网站后门行为的网络请求,则将所述待...
【专利技术属性】
技术研发人员:刘文印,杨振国,袁华平,陈旭,黎宇坤,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。