【技术实现步骤摘要】
一种对批量生成的字符串进行识别的方法、装置及设备
本说明书涉及计算机
,尤其是涉及一种对批量生成的字符串进行识别的方法、装置及设备。
技术介绍
随着互联网技术的发展和普及应用,越来越多的网络平台中的字符串是由机器自动批量生成的字符串。以批量注册账户为例,这些批量注册的账号可以使用平台的各种功能。由于普通用户不使用这类账号,因此给平台带来很多垃圾内容,甚至是产生资损。比如,资讯类应用的评论水军,众多账号在短时间内表达及其相似的观点,引导舆论走向,影响正常用户体验。再比如,电商类站点,有“羊毛党”等贪图小便宜的人,就利用批量注册账号获取电商类站点的补贴资源,使得营销资金浪费严重,营销效果大打折扣。现有技术中,对这类账户进行识别的方式是通过监督学习分类算法进行识别,如LR,SVM等对账号进行分类。该算法需要先通过人工标注大量账号为普通账号或随机账号,得到训练数据训练分类模型,然后对输入的账号进行分类,对人力消耗非常大。而且,由于整体长度较小的字符串包含的信息量太少,因此分类模型对整体长度较小的字符串分类效果比较差,不能较好的识别。
技术实现思路
本说明书实施例提供一种对批量生成的字符串进行识别的方法、装置及设备。解决了人工标注大量账号消耗人力大以及分类模型对整体长度较小的字符串分类效果比较差的问题。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种对批量生成的字符串进行识别的方法,该方法包括:接收批量生成的待识别字符串;对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;确定所述待识别字符串的至少一个子字符串出现的概率,根 ...
【技术保护点】
1.一种对批量生成的字符串进行识别的方法,其特征在于,该方法包括:接收批量生成的待识别字符串;对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。
【技术特征摘要】
1.一种对批量生成的字符串进行识别的方法,其特征在于,该方法包括:接收批量生成的待识别字符串;对所述待识别字符串进行分割,得到至少一个所述待识别字符串的子字符串;确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度;根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串。2.根据权利要求1所述的对批量生成的字符串进行识别的方法,其特征在于,所述确定所述待识别字符串的至少一个子字符串出现的概率,根据所述子字符串出现的概率确定所述待识别字符串的随机性程度,包括:利用概率字典,匹配所述待识别字符串的子字符串出现的概率,所述概率字典包含样本子字符串与样本子字符串的概率之间的对应关系;根据所述子字符串出现的概率,确定所述待识别字符串的随机性程度。3.根据权利要求2所述的对批量生成的字符串进行识别的方法,其特征在于,所述利用概率字典,匹配所述待识别字符串的子字符串出现的概率之前,所述方法还包括:对样本字符串数据进行分割,得到若干个样本子字符串;统计若干个样本子字符串单独出现的次数和/或相邻的至少两个样本子字符串同时出现的次数;计算所述若干个样本子字符串单独出现的概率和/或所述相邻的至少两个样本子字符串同时出现的概率,得到概率字典;其中,概率字典中包含若干个样本子字符串及所述若干个样本子字符串单独出现的概率和/或包含相邻的至少两个样本子字符串及所述相邻的至少两个样本子字符串同时出现的概率。4.根据权利要求3所述的对批量生成的字符串进行识别的方法,其特征在于,所述方法还包括:所述样本字符串数据的类型与所述批量生成的待识别字符串类型相同。5.根据权利要求2所述的对批量生成的字符串进行识别的方法,其特征在于,所述根据所述子字符串出现的概率确定所述待识别字符串的随机性程度包括:根据所述子字符串出现的概率,确定所述待识别字符串出现的概率;根据所述待识别字符串出现的概率,确定所述待识别字符串的随机性程度。6.根据权利要求5所述的对批量生成的字符串进行识别的方法,其特征在于,所述根据所述子字符串出现的概率,确定所述待识别字符串出现的概率包括:在得到所述待识别字符串的子字符串单独出现的概率情况下,将所述子字符串单独出现的概率几何平均值作为所述待识别字符串出现的概率P;或在得到所述待识别字符串的相邻的至少两个子字符串同时出现的概率情况下,将所述相邻的至少两个子字符串同时出现的概率几何平均值作为所述待识别字符串出现的概率P;或在得到所述待识别字符串的子字符串单独出现的概率和所述待识别字符串的相邻的至少两个子字符串同时出现的概率情况下,将所述子字符串单独出现的概率几何平均值与所述相邻的至少两个子字符串同时出现的概率几何平均值的算数平均值作为所述待识别字符串出现的概率P。7.根据权利要求6所述的对批量生成的字符串进行识别的方法,其特征在于,所述根据所述待识别字符串出现的概率,确定所述待识别字符串的随机性程度包括:确定所述待识别字符串的随机性程度R=1-所述待识别字符串出现的概率P。8.根据权利要求7所述的对批量生成的字符串进行识别的方法,其特征在于,所述根据所述待识别字符串的随机性程度,判断所述待识别字符串是否为随机生成的字符串包括:在所述待识别字符串的随机性程度R大于预设随机阈值的情况下,所述待识别字符串为随机生成的字符串。9.根据权利要求8所述的对批量生成的字符串进行识别的方法,其特征在于,所述预设随机阈值=1-预设概率阈值;其中,所述预设概率阈值为所述概率字典中若干个样本子字符串单独出现的概率的中位数;或所述概率字典中相邻的至少两个样本子字符串同时出现的概率的中位数;或所述概率字典中若干个样本子字符串单独出现的概率的中位数与所述概率字典中相邻的至少两个样本子字符串同时出现的概率的中位数的算数平均数。10.根据权利要求8所述的对批量生成的字符串进行识别的方法,其特征在于,所述方法还包括:在确定待识别字符串是随机生成的字符串的情况下,对该随机生成的字符串进行重点防控;其中,所述重点防控包括限制权限、加强验证和/或禁止登陆中的至少一...
【专利技术属性】
技术研发人员:江大鹏,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。