异常账号识别方法及装置、存储介质、电子设备制造方法及图纸

技术编号:30186615 阅读:17 留言:0更新日期:2021-09-29 08:23
本发明专利技术实施例是关于一种异常账号识别方法及装置、存储介质、电子设备,涉及机器学习技术领域,该方法包括:对待识别评论数据进行预处理得到待识别文本数据,并对所述待识别文本数据进行引流文本实体识别,得到引流实体;根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果,并根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像;根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别。本发明专利技术实施例提高了异常账号的识别结果的准确率。账号的识别结果的准确率。账号的识别结果的准确率。

【技术实现步骤摘要】
异常账号识别方法及装置、存储介质、电子设备


[0001]本专利技术实施例涉及机器学习
,具体而言,涉及一种异常账号识别方法、异常账号识别装置、计算机可读存储介质以及电子设备。

技术介绍

[0002]随着机器学习和深度学习技术的发展,算法在电商领域的应用也越来越广泛。用户对商品的评论内容已然是电商领域十分重要的数据,同时评论在很大程度上会影响消费者的购买倾向和选择,于是很多黑色产业链盯上了评论这部分的商业价值,一些用户可能更多地是黑色产业链在商品评论区引入公众号、qq群、导流链接等违规引流内容,极大影响商品购买的正常流程同时影响用户的判断和购买行为。因此,如何去识别和屏蔽这些违规引流文本和打击黑色产业链及其相关账号,保证用户评论内容干净、有效是每个公司都十分关心的问题。
[0003]在现有的解决上述问题的方案中,是通过利用简单规则进行违规引流识别,即线下准备一批用户评论样本,评论中包含违规引流内容,总结违规引流文本特点制定相关规则进行违规引流内容识别,当线上出现一条新评论时,可以通过完成的识别规则来识别和屏蔽该评论文本。
[0004]但是,上述方案存在如下缺陷:一方面,由于制定的规则具有局限性,因此只能对已发现的违规引流文本特点进行规则制定,当新型违规引流文本出现时当前规则无法进行识别,进而导致引流实体的识别结果的准确率较低;另一方面,目前的识别情况只是对违规引流文本进行识别,并未在黑色产业链上的风险账号的各个维度进行画像,进而导致风险账号的识别结果的准确率较低;再一方面,很多评论内容在暴露引流链接的同时,加入了很多特殊字符和规则,因此会使得引流实体的识别结果的准确率较低。
[0005]需要说明的是,在上述
技术介绍
部分专利技术的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本专利技术的目的在于提供一种异常账号识别方法、异常账号识别装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的引流实体的识别结果的准确率较低以及风险账号的识别结果的准确率较低的问题。
[0007]根据本公开的一个方面,提供一种异常账号识别方法,包括:
[0008]对待识别评论数据进行预处理得到待识别文本数据,并对所述待识别文本数据进行引流文本实体识别,得到引流实体;
[0009]根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果,并根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像;
[0010]根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识
别。
[0011]在本公开的一种示例性实施例中,对待识别评论数据进行预处理得到待识别文本数据包括:
[0012]对所述待识别评论数据中包括的特殊符号和/或表情符号进行清洗,得到所述待识别文本数据。
[0013]在本公开的一种示例性实施例中,对所述待识别文本数据进行引流文本实体识别,得到引流实体包括:
[0014]对所述待识别文本数据进行切分得到多个切分词,并将各所述切分词输入至违规引流模型中得到所述引流实体;
[0015]其中,所述引流实体包括开始字节、中间字节以及其他实体。
[0016]在本公开的一种示例性实施例中,所述违规引流模型包括双向长短期记忆网络层、全连接层以及条件随机场层;
[0017]其中,将各所述切分词输入至违规引流模型中得到所述引流实体包括:
[0018]将各所述切分词输入至所述双向长短期记忆网络中,得到正向上下文信息以及反向上下文信息;
[0019]通过所述全连接层对所述正向上下文信息以及反向上下文信息进行特征拼接,得到拼接上下文信息;
[0020]通过所述条件随机场对所述拼接上下文信息进行识别,得到所述引流实体。
[0021]在本公开的一种示例性实施例中,所述异常账号识别方法还包括:
[0022]获取历史评论数据并对所述历史评论数据进行预处理得到标准输入数据;
[0023]利用所述标准输入数据对包括双向长短期记忆网络层、全连接层以及条件随机场层的初始网络模型进行训练,得到所述违规引流模型。
[0024]在本公开的一种示例性实施例中,根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果包括:
[0025]利用预设的得分模型对所述待识别评论数据进行评分,得到所述评论分数;
[0026]根据所述评论分数所属的预设分数区间,对所述待识别文本数据的质量进行评估得到质量评估结果;其中,所述质量评估结果包括恶意评论、低质量评论、一般质量评论以及高质量评论。
[0027]在本公开的一种示例性实施例中,根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像包括:
[0028]获取与所述对待识别评论数据对应的用户账号的所有评论数据,并将所述所有评论数据输入至所述违规引流模型中得到与所述所有评论数据对应的引流实体;
[0029]根据与所述所有评论数据对应的引流实体将所述所有评论数据划分为具有违规引流评论的第一集合以及不具有违规引流评论的第二集合;
[0030]如果所述第一集合中所包括的具有违规引流评论的数量在所述所有评论数据的总量中所占的比例大于第一预设阈值且所述质量评估结果为恶意评论,则所述用户账号的账号画像为疑似黑色产业链账号。
[0031]在本公开的一种示例性实施例中,所述异常账号识别方法还包括:
[0032]如果所述第一集合中所包括的具有违规引流评论的数量在所述所有评论数据的
总量中所占的比例不大于第一预设阈值,则判断所述第二集合中所包括的不具有违规引流评论的数量在所述所有评论数据的总量中所占的比例是否大于第二预设阈值;
[0033]如果所述第二集合中所包括的不具有违规引流评论的数量在所述所有评论数据的总量中所占的比例大于第二预设阈值,则计算所述第二集合中所述低质量评论对应的不具有违规引流评论的数量;
[0034]如果所述低质量评论对应的不具有违规引流评论的数量在所述第二集合中的不具有违规引流评论的数量中所占的比例大于第三预设阈值,且所述质量评估结果为恶意评论,则所述用户账号的账号画像为疑似黑色产业链账号。
[0035]在本公开的一种示例性实施例中,根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别包括:
[0036]如果所述引流实体为违规引流实体,且所述账号画像为疑似黑色产业链账号,则所述用户账号属于异常账号。
[0037]根据本公开的一个方面,提供一种异常账号识别装置,包括:
[0038]实体识别模块,用于对待识别评论数据进行预处理得到待识别文本数据,并对所述待识别文本数据进行引流文本实体识别,得到引流实体;
[0039]质量评估模块,用于根据所述待识别评论数据的评论分数对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常账号识别方法,其特征在于,包括:对待识别评论数据进行预处理得到待识别文本数据,并对所述待识别文本数据进行引流文本实体识别,得到引流实体;根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果,并根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像;根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别。2.根据权利要求1所述的异常账号识别方法,其特征在于,对待识别评论数据进行预处理得到待识别文本数据包括:对所述待识别评论数据中包括的特殊符号和/或表情符号进行清洗,得到所述待识别文本数据。3.根据权利要求1所述的异常账号识别方法,其特征在于,对所述待识别文本数据进行引流文本实体识别,得到引流实体包括:对所述待识别文本数据进行切分得到多个切分词,并将各所述切分词输入至违规引流模型中得到所述引流实体;其中,所述引流实体包括开始字节、中间字节以及其他实体。4.根据权利要求3所述的异常账号识别方法,其特征在于,所述违规引流模型包括双向长短期记忆网络层、全连接层以及条件随机场层;其中,将各所述切分词输入至违规引流模型中得到所述引流实体包括:将各所述切分词输入至所述双向长短期记忆网络中,得到正向上下文信息以及反向上下文信息;通过所述全连接层对所述正向上下文信息以及反向上下文信息进行特征拼接,得到拼接上下文信息;通过所述条件随机场对所述拼接上下文信息进行识别,得到所述引流实体。5.根据权利要求4所述的异常账号识别方法,其特征在于,所述异常账号识别方法还包括:获取历史评论数据并对所述历史评论数据进行预处理得到标准输入数据;利用所述标准输入数据对包括双向长短期记忆网络层、全连接层以及条件随机场层的初始网络模型进行训练,得到所述违规引流模型。6.根据权利要求3所述的异常账号识别方法,其特征在于,根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果包括:利用预设的得分模型对所述待识别评论数据进行评分,得到所述评论分数;根据所述评论分数所属的预设分数区间,对所述待识别文本数据的质量进行评估得到质量评估结果;其中,所述质量评估结果包括恶意评论、低质量评论、一般质量评论以及高质量评论。7.根据权利要求6所述的异常账号识别方法,其特征在于,根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像包括:获取与所述对待识别评论数据对应的用户账号的所有评...

【专利技术属性】
技术研发人员:吴荣强李志鹏高伟
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1