一种对批量生成的字符串进行识别的方法、装置及设备制造方法及图纸

技术编号:20389874 阅读:16 留言:0更新日期:2019-02-20 02:51
本说明书公开了一种对批量生成的字符串进行识别的方法、装置及设备。该方法包括:接收批量生成的待识别字符串;对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。

【技术实现步骤摘要】
一种对批量生成的字符串进行识别的方法、装置及设备
本说明书涉及计算机
,尤其是涉及一种对批量生成的字符串进行识别的方法、装置及设备。
技术介绍
随着互联网技术的发展和普及应用,越来越多的网络平台中的字符串是由机器自动批量生成的字符串。以批量注册账户为例,这些批量注册的账号可以使用平台的各种功能。由于普通用户不使用这类账号,因此给平台带来很多垃圾内容,甚至是产生资损。比如,资讯类应用的评论水军,众多账号在短时间内表达及其相似的观点,引导舆论走向,影响正常用户体验。再比如,电商类站点,有“羊毛党”等贪图小便宜的人,就利用批量注册账号获取电商类站点的补贴资源,使得营销资金浪费严重,营销效果大打折扣。现有技术中,对这类账户进行识别的方式是通过监督学习分类算法进行识别,如LR,SVM等对账号进行分类。该算法需要先通过人工标注大量账号为普通账号或随机账号,得到训练数据训练分类模型,然后对输入的账号进行分类,对人力消耗非常大。而且,由于整体长度较小的字符串包含的信息量太少,因此分类模型对整体长度较小的字符串分类效果比较差,不能较好的识别。
技术实现思路
本说明书实施例提供一种对批量生成的字符串进行识别的方法、装置及设备。解决了人工标注大量账号消耗人力大以及分类模型对整体长度较小的字符串分类效果比较差的问题。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种对批量生成的字符串进行识别的方法,该方法包括:接收批量生成的待识别字符串;对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。本说明书实施例提供的一种对批量生成的字符串进行识别的装置,该装置包括:接收模块、分割模块、确定模块和判断模块;所述接收模块,用于接收批量生成的待识别字符串;所述分割模块,用于对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;所述确定模块,用于确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;所述判断模块,用于根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。本说明书实施例提供的一种对批量生成的字符串进行识别的设备,包括:存储器以及处理器,所述存储器存储程序,并且被配置成由所述处理器执行上述的对批量生成的字符串进行识别的方法。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过确定字符串的子字符串出现概率,确定字符串的随机性程度,进一步判断该字符串是否为随机生成的字符串,整个过程无需人工标注大量的训练数据,节省了人力成本;针对待识别字符串的类型,可以有针对性的选择样本字符串数据;改善了对整体长度较小的字符串进行识别的效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本说明书实施例提供的一种对批量生成的字符串进行识别的方法的流程示意图;图2为本说明书实施例提供的一种对批量生成的字符串进行识别的方法的另一流程示意图;图3为本说明书实施例提供的一种对批量生成的字符串进行识别的装置的结构示意图。具体实施方式本说明书实施例提供一种对批量生成的字符串进行识别的方法、装置以及设备。为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。图1为本说明书实施例提供的一种对批量生成的字符串进行识别的方法的流程示意图,该流程示意图包括:步骤105,接收批量生成的待识别字符串;在本说明书实施例中,以各大网络平台的账号为例,这些账号是由字符拼接而成的字符串。机器自动生成的账号很大概率是由字符拼接而成的随机字符串,如“iehfdjksyneyg”,而大部分普通用户注册的账号都会采用具有一定含义的字符串,如“ilovekobe”,机器自动生成的账号,字符串随机性程度远大于普通用户自己注册的账号的字符串随机性程度。如图2中步骤220输入字符串(批量生成的待识别字符串),在本说明书实施例中,接收步骤220输入的字符串,以接收字符串“ak,tiodoedgza”为例。步骤110,对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;优选地,先对步骤105接收的待识别字符串“ak,tiodoedgza”进行预处理,去除空格和标点符号等账号不能使用的字符,得到预处理后字符串是“aktiodoedgza”;再分割预处理后字符串,得到至少一个子字符串,如图2中步骤225所示。在此需要说明的是,本说明书实施例中,每隔预设字符长度对预处理后字符串进行分割,如每隔两个字符对字符串分割一次和/或每隔三个字符对字符串分割一次,得到至少一个子字符串。在本说明书实施例中,若取N-gram模型的N=2,则对预处理后字符串“aktiodoedgza”进行分割,得到子字符串为“ak”、“ti”、“od”、“oe”、“dg”和“za”;若取N-gram模型的N=3,则对预处理后字符串“aktiodoedgza”进行分割,得到子字符串为“akt”、“iod”、“oed”和“gza”。步骤115,确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;在本说明书实施例中,先利用概率字典,匹配待识别字符串“ak,tiodoedgza”的子字符串“ak”、“ti”、“od”、“oe”、“dg”和“za”出现的概率。根据上述子字符串出现的概率,计算待识别字符串“ak,tiodoedgza”出现的概率,进一步确定待识别字符串“ak,tiodoedgza”的随机性程度R,如图2中步骤230所示;其中,概率字典包含样本子字符串与样本子字符串的概率之间的对应关系。具体而言,在得到子字符串“ak”、“ti”、“od”、“oe”、“dg”和“za”单独出现的概率分别为0.79、0.59、0.63、0.71、0.56和0.68情况下,计算0.79、0.59、0.63、0.71、0.56和0.68的几何平均值为0.66作为待识别字符串“ak,tiodoedgza”出现的概率P,进一步地,待识别字符串“ak,tiodoedgza”的随机性程度R=1-P,则随机性程度R为0.34;或在得到子字符串“ak”、“ti”、“od”、“oe”、“dg”和“za”中相邻的至少两个子字符串同时出现的概率情况下,将所述相邻的至少两个子字符串同时出现的概率几何平均值作为上述待识别字符串出现的概率P。下面以得到相邻的两个子字符串“ak”和“本文档来自技高网
...

【技术保护点】
1.一种对批量生成的字符串进行识别的方法,其特征在于,该方法包括:接收批量生成的待识别字符串;对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。

【技术特征摘要】
1.一种对批量生成的字符串进行识别的方法,其特征在于,该方法包括:接收批量生成的待识别字符串;对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。2.根据权利要求1所述的对批量生成的字符串进行识别的方法,其特征在于,所述确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度,包括:利用概率字典,匹配所述待识别字符串的子字符串出现的概率,所述概率字典包含样本子字符串与样本子字符串的概率之间的对应关系;根据所述子字符串出现的概率,确定所述待识别字符串的随机性程度。3.根据权利要求2所述的对批量生成的字符串进行识别的方法,其特征在于,所述利用概率字典,匹配所述待识别字符串的子字符串出现的概率之前,所述方法还包括:对样本字符串数据进行分割,得到若干个样本子字符串;统计若干个样本子字符串单独出现的次数和/或相邻的至少两个样本子字符串同时出现的次数;计算所述若干个样本子字符串单独出现的概率和/或所述相邻的至少两个样本子字符串同时出现的概率,得到概率字典;其中,概率字典中包含若干个样本子字符串及所述若干个样本子字符串单独出现的概率和/或包含相邻的至少两个样本子字符串及所述相邻的至少两个样本子字符串同时出现的概率。4.根据权利要求3所述的对批量生成的字符串进行识别的方法,其特征在于,所述方法还包括:所述样本字符串数据的类型与所述批量生成的待识别字符串类型相同。5.根据权利要求2所述的对批量生成的字符串进行识别的方法,其特征在于,所述根据所述子字符串出现的概率确定所述待识别字符串的随机性程度包括:根据所述子字符串出现的概率,确定所述待识别字符串出现的概率;根据所述待识别字符串出现的概率,确定所述待识别字符串的随机性程度。6.根据权利要求5所述的对批量生成的字符串进行识别的方法,其特征在于,所述根据所述子字符串出现的概率,确定所述待识别字符串出现的概率包括:在得到所述待识别字符串的子字符串单独出现的概率情况下,将所述子字符串单独出现的概率几何平均值作为所述待识别字符串出现的概率P;或在得到所述待识别字符串的相邻的至少两个子字符串同时出现的概率情况下,将所述相邻的至少两个子字符串同时出现的概率几何平均值作为所述待识别字符串出现的概率P;或在得到所述待识别字符串的子字符串单独出现的概率和所述待识别字符串的相邻的至少两个子字符串同时出现的概率情况下,将所述子字符串单独出现的概率几何平均值与所述相邻的至少两个子字符串同时出现的概率几何平均值的算数平均值作为所述待识别字符串出现的概率P。7.根据权利要求6所述的对批量生成的字符串进行识别的方法,其特征在于,所述根据所述待识别字符串出现的概率,确定所述待识别字符串的随机性程度包括:确定所述待识别字符串的随机性程度R=1-所述待识别字符串出现的概率P。8.根据权利要求7所述的对批量生成的字符串进行识别的方法,其特征在于,所述根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串包括:在所述待识别字符串的随机性程度R大于预设随机阈值的情况下,所述待识别字符串为随机生成的字符串。9.根据权利要求8所述的对批量生成的字符串进行识别的方法,其特征在于,所述预设随机阈值=1-预设概率阈值;其中,所述预设概率阈值为所述概率字典中若干个样本子字符串单独出现的概率的中位数;或所述概率字典中相邻的至少两个样本子字符串同时出现的概率的中位数;或所述概率字典中若干个样本子字符串单独出现的概率的中位数与所述概率字典中相邻的至少两个样本子字符串同时出现的概率的中位数的算数平均数。10.根据权利要求8所述的对批量生成的字符串进行识别的方法,其特征在于,所述方法还包括:在确定待识别字符串是随机生成的字符串的情况下,对该随机生成的字符串进行重点防控;其中,所述重点防控包括限制权限、加强验证和/或禁止登陆中的至少一...

【专利技术属性】
技术研发人员:江大鹏
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1