识别数据的方法、识别垃圾邮箱的方法及文件识别的方法技术

技术编号：23486527 阅读：65 留言：0更新日期：2020-03-10 13:21

本申请公开了一种识别数据的方法、识别垃圾邮箱的方法及文件识别的方法。其中，该方法包括：获取待识别数据，其中，上述待识别数据包括用于指示上述待识别数据的标识的字符信息；获取上述字符信息所对应的语言特征，其中，上述语言特征包括如下至少之一：上述字符信息中单词所包含的字符的发音的重复占比、上述单词中包含的重复字符的占比和上述单词中包含的数字的占比；基于上述语言特征，确定上述待识别数据是否为第一类型数据。本申请解决了现有技术采用文本相似度来识别数据，由于文本相似度的识别过程会有一定的识别误差，导致识别结果不准确的技术问题。

Methods of data identification, spam mailbox identification and file identification

全部详细技术资料下载

【技术实现步骤摘要】
识别数据的方法、识别垃圾邮箱的方法及文件识别的方法
本申请涉及计算机
，具体而言，涉及一种识别数据的方法、识别垃圾邮箱的方法及文件识别的方法。
技术介绍
随着海外电商平台的兴起，很多用户开始使用海外邮箱注册登录海外电商平台，不法用户注册海外垃圾邮箱进行刷单的情况也逐渐增多，并且，由于之前国内的垃圾邮箱识别方法，主要是基于中文文字使用习惯进行判断识别，直接采用国内的垃圾邮箱识别方法识别海外邮箱，会造成识别误差或者或识别遗漏。目前现有的识别垃圾邮箱的方法中较为常用方法是：为采用文本相似度来识别垃圾邮箱，但是，文本相似度基于笛卡尔积算法进行计算，计算成本较大，且文本相似度的识别过程会有一定的识别误差，例如，A邮箱命名为admin1@A.com；B邮箱命名为admin2@B.com，在利用文本相似度进行垃圾邮箱识别的过程中，可能存在对A邮箱和B邮箱识别误差的情况，导致垃圾邮箱的识别结果不准确。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种识别数据的方法、识...

【技术保护点】
1.一种识别数据的方法，包括：/n获取待识别数据，其中，所述待识别数据包括用于指示所述待识别数据的标识的字符信息；/n获取所述字符信息所对应的语言特征，其中，所述语言特征包括如下至少之一：所述字符信息中单词所包含的字符的发音的重复占比、所述单词中包含的重复字符的占比和所述单词中包含的数字的占比；/n基于所述语言特征，确定所述待识别数据是否为第一类型数据。/n

【技术特征摘要】
1.一种识别数据的方法，包括：
获取待识别数据，其中，所述待识别数据包括用于指示所述待识别数据的标识的字符信息；
获取所述字符信息所对应的语言特征，其中，所述语言特征包括如下至少之一：所述字符信息中单词所包含的字符的发音的重复占比、所述单词中包含的重复字符的占比和所述单词中包含的数字的占比；
基于所述语言特征，确定所述待识别数据是否为第一类型数据。

2.根据权利要求1所述的方法，其中，获取所述字符信息所对应的语言特征包括：
读取组成所述标识的一或多个单词；
按照语言种类对所述一个或多个单词进行分类；
对所述一个或多个单词所包含的字符进行分析，得到分析结果，其中，分析结果包括如下至少之一：每个字符的发音、连续重复的字符和包含在所述单词中的数字，所述发音包括：元音和辅音；
基于所述分析结果，计算得到所述字符信息所对应的语言特征。

3.根据权利要求2所述的方法，其中，基于所述语言特征，确定所述待识别数据是否为第一类型数据的步骤包括如下至少之一：
在计算得到的所述一或多个单词中字符的发音的重复占比超过预定阀值的情况下，确定所述待识别数据为所述第一类型数据；
在所述单词中包含连续重复的字符的情况下，确定所述待识别数据为所述第一类型数据；
在包含在所述单词中的数字的占比超过预定数量的情况下，确定所述待识别数据为所述第一类型数据。

4.根据权利要求1所述的方法，其中，基于所述语言特征，确定所述待识别数据是否为第一类型数据，包括：
基于所述语言特征，确定所述待识别数据为所述第一类型数据的风险值；
在所述风险值高于预定值的情况下，确定所述待识别数据为第一类型数据；
在所述风险值低于所述预定值的情况下，基于构成所述单词的字符串的跳转概率，来确定所述待识别数据是否为所述第一类型数据。

5.根据权利要求4所述的方法，其中，在基于构成所述单词的字符串的跳转概率，来确定所述待识别数据是否为所述第一类型数据之前，所述方法还包括：
获取一或多个单词的字符串所包含的相邻字符之间的跳转次数；
根据一或多个单词的所述相邻字符之间的跳转次数，统计得到一或多个单词的跳转概率。

6.根据权利要求5所述的方法，其中，基于构成所述单词的字符串的跳转概率，来确定所述待识别数据是否为所述第一类型数据包括：
获取字符库中预先存储的单词所对应的跳转概率分值；
基于所述字符库中预先存储的单词所对应的跳转概率分值，判断所述统计得到一或多个单词的跳转概率是否处于预设的分值范围内；
如果处于所述分值范围内，确定所述待识别数据为第二类型数据；
如果未处于所述分值范围内，确定所述待识别数据为所述第一类型数据。

7.根据权利要求6所述的方法，其中，在获取字符库中预先存储的单词所对应的跳转概率分值之前，所述方法还包括：
获取数据源的单词列表；
对所述单词列表中的单词进行字符相邻概率的训练，统计得到所述单词列表中一或多个单词所对应的跳转概率分值；
将所述单词列表中的单词，以及一或多个单词所对应的跳转概率分值保存至所述字符库。

8.根据权利要求4所述的方法，其中，基于构成所述单词的字符串的跳转概率，来确定所述待识别数据是否为所述第一类型数据，包括：
基于构成所述单词的字符串的跳转概率，确定所述待识别数据为所述第一类型数据的风险值；
在所述风险值处于安全范围内的情况下，确定所述待识别数据为第二类型数据；

【专利技术属性】
技术研发人员：张振永，王莹，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人