对字符串进行分类的方法和装置制造方法及图纸

技术编号:14048282 阅读:64 留言:0更新日期:2016-11-23 23:54
本发明专利技术公开了一种对字符串进行分类的方法和装置,属于计算机通信技术领域。所述方法包括:获取待分类字符串;从所述待分类字符串中提取多个分类特征;对每个所述分类特征分别进行归一化处理,得到多个归一化分类特征;通过离线训练得到的分类模型,根据多个所述归一化分类特征,对所述待分类字符串进行分类,得到所述待分类字符串的分类结果。所述装置包括:获取模块、第一提取模块、归一化模块和分类模块。本发明专利技术通过离线训练得到的分类模型,根据多个归一化分类特征,对待分类字符串进行分类,得到待分类字符串的分类结果,不需要依靠人工,即可自动实现,效率很高。

【技术实现步骤摘要】

本专利技术涉及计算机通信
,具体涉及一种对字符串进行分类的方法和装置
技术介绍
随着计算机通信技术的发展,一方面计算机、平板电脑、手机等终端设备已逐渐成为人们必不可少的生活、工作工具,另一方面能提供网络、计算等后台服务的服务设备也越来越多,而对终端设备和服务设备等计算设备的运行能力的要求也越来越高。在很多场景(如注册机恶意注册大量无效账号、攻击机恶意伪造大量无效域名请求等)中,计算设备会收到大量的随机字符串(如“aaaxbhzqegs-2”,“4s7pTDAOV-L#”,“!oC|w4&s”等),这些随机字符串没有任何意义,但是计算设备刚收到时并不知道,会将这些随机字符串当作正常、有意义的字符串(如“alibaba-inc”,“helloworld”等)进行处理,从而影响计算设备的正常运行。为了避免影响计算设备的正常运行,可以对计算设备收到的字符串进行分类,分出哪些字符串是随机字符串、哪些字符串是正常字符串,以便计算设备可以对不同的字符串进行不同的处理。目前,对字符串进行分类的方法是:人工根据字符串本身的语义及上下文来对字符串进行分类。现有对字符串进行分类的方法,依本文档来自技高网...
对字符串进行分类的方法和装置

【技术保护点】
一种对字符串进行分类的方法,其特征在于,所述方法包括:获取待分类字符串;从所述待分类字符串中提取多个分类特征;对每个所述分类特征分别进行归一化处理,得到多个归一化分类特征;通过离线训练得到的分类模型,根据多个所述归一化分类特征,对所述待分类字符串进行分类,得到所述待分类字符串的分类结果。

【技术特征摘要】
1.一种对字符串进行分类的方法,其特征在于,所述方法包括:获取待分类字符串;从所述待分类字符串中提取多个分类特征;对每个所述分类特征分别进行归一化处理,得到多个归一化分类特征;通过离线训练得到的分类模型,根据多个所述归一化分类特征,对所述待分类字符串进行分类,得到所述待分类字符串的分类结果。2.如权利要求1所述的方法,其特征在于,获取待分类字符串之前,还包括:从测试集中的每个字符串中提取多个所述分类特征,并进行归一化处理,得到所述测试集中的每个字符串的多个所述归一化分类特征;通过所述测试集中的每个字符串的多个所述归一化分类特征,以及所述测试集中的每个字符串的分类结果,对所述待定参数设定为所述训练值的所述分类模型进行测试,得到测试结果;将所述测试结果的准确率与预设准确率阈值进行比较;如果所述测试结果的准确率大于所述预设准确率阈值,则确定将所述待定参数设定为所述训练值的所述分类模型作为离线训练得到的所述分类模型,然后执行所述获取待分类字符串的步骤。3.如权利要求2所述的方法,其特征在于,从测试集中的每个字符串中提取多个所述分类特征之前,还包括:采集预设的所述分类模型的样本集,将所述样本集分为训练集和测试集;其中,所述样本集中包括预设个字符串,以及所述预设个字符串中每个字符串的分类结果;从所述训练集中的每个字符串中提取多个所述分类特征,并进行归一化处理,得到所述训练集中的每个字符串的多个所述归一化分类特征;通过所述训练集中的每个字符串的多个所述归一化分类特征,以及所述训练集中的每个字符串的分类结果,对预设的所述分类模型中的待定参数进
\t行训练,得到所述待定参数的训练值。4.如权利要求3所述的方法,其特征在于,将所述测试结果的准确率与预设准确率阈值进行比较之后,还包括:如果所述测试结果的准确率小于等于所述预设准确率阈值,则确定所述待定参数设定为所述训练值的所述分类模型不能作为离线训练得到的所述分类模型,然后执行所述采集预设的所述分类模型的样本集的步骤。5.如权利要求1所述的方法,其特征在于,所述待分类字符串的分类结果包括:所述待分类字符串为随机字符串,或所述待分类字符串为正常字符串。6.如权利要求1所述的方法,其特征在于,所述分类模型包括:支持向量机SVM分类模型、决策树分类模型、贝叶斯分类模型或K近邻法分类模型。7.如权利要求1-6任一权利要求所述的方法,其特征在于,所述分类特征包括:最长相邻元音距、字符串信息熵、或字符串长度;其中,所述最长相邻元音距表示任一字符串的所有的相邻元音字符之间的间隔距离中最长者。8.一种对字符串进行分类的装置,其...

【专利技术属性】
技术研发人员:李家宏
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1