【技术实现步骤摘要】
一种基于深度学习的异常用户识别方法、装置及存储介质
本申请涉及人工智能领域,尤其涉及一种基于深度学习的异常用户识别方法、装置及存储介质。
技术介绍
如何在大规模数据下检测出异常用户,一直以来都是学术界和工业界研究的重点,尤其在社交平台中,需要更多地依赖无监督或半监督的手段对异常用户进行检测。异常用户会使社交平台上的用户流失严重,也是社交平台最不愿意发生的事情之一。目前,对于异常用户进行检测的方式主要为,采用文本相似度聚类的方法来实现。具体实现方式为,首先将用户发送的信息进行分词处理,提取关键词,再将关键词处理成特征向量的形式,通过对向量聚类来发现异常的异常用户。文本相似度聚类方法主要利用多个异常用户发送的信息内容很可能是类似的,因此,通过聚类能够找出异常用户。然而,文本相似度聚类方法无法规避正常用户发送相同消息的情况,容易出现误判,导致识别异常用户的准确度较低。
技术实现思路
本申请实施例提供了一种基于深度学习的异常用户识别方法、装置及存储介质,由于对大量会话消息进行过滤处理后,所得到的目 ...
【技术保护点】
1.一种基于深度学习的异常用户识别方法,其特征在于,包括:/n获取待检测的会话消息集合,其中,所述待检测的会话消息集合包括M个用户发送的会话消息,所述M为大于或等于1的整数;/n对所述待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,其中,所述待检测用户为所述M个用户中的任意一个用户,所述目标文本数据包括所述待检测用户发送的至少一条会话消息;/n调用用户类型识别模型对所述目标文本数据进行模型预测,以输出所述待检测用户所对应的类别预测标签;/n若所述类别预测标签为异常标签,则确定所述待检测用户为异常用户。/n
【技术特征摘要】
1.一种基于深度学习的异常用户识别方法,其特征在于,包括:
获取待检测的会话消息集合,其中,所述待检测的会话消息集合包括M个用户发送的会话消息,所述M为大于或等于1的整数;
对所述待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,其中,所述待检测用户为所述M个用户中的任意一个用户,所述目标文本数据包括所述待检测用户发送的至少一条会话消息;
调用用户类型识别模型对所述目标文本数据进行模型预测,以输出所述待检测用户所对应的类别预测标签;
若所述类别预测标签为异常标签,则确定所述待检测用户为异常用户。
2.根据权利要求1所述的识别方法,其特征在于,所述获取待检测的会话消息集合,包括:
获取待检测平台上的历史会话消息记录,其中,所述历史会话消息记录包括历史时间段内的至少一条会话消息;
将所述历史会话消息记录中属于待检测时间段内的至少一条会话消息,确定为所述待检测的会话消息集合。
3.根据权利要求1所述的识别方法,其特征在于,所述对所述待检测的会话消息集合进行过滤处理,以得到待检测用户所对应的目标文本数据,包括:
对所述待检测的会话消息集合中的系统消息进行过滤处理,得到第一会话消息集合;
根据所述第一会话消息集合中每条会话消息所对应的传输信息,生成第二会话消息集合,其中,所述传输信息包括会话消息对应的发送方标识以及接收方标识,所述发送方标识与会话消息的发送方具有一一对应的关系,所述接收方标识与会话消息的接收方具有一一对应的关系;
从所述第二会话消息集合中获取所述待检测用户所对应的待处理会话消息集合,其中,所述待处理会话消息集合包括至少一条待处理的会话消息;
对所述待处理会话消息集合中的字符进行处理,得到所述待检测用户所对应的所述目标文本数据。
4.根据权利要求3所述的识别方法,其特征在于,所述系统消息包括系统提示消息以及系统可选消息中的至少一种,其中,所述系统提示消息表示由待检测平台提供的提示消息,所述系统可选消息表示从所述待检测平台提供的可选消息集合中选择的可选消息,所述待选消息集合包括至少一条可选消息;
所述对所述待检测的会话消息集合中的系统消息进行过滤处理,得到第一会话消息集合,包括:
若检测到所述待检测的会话消息集合中存在所述系统提示消息,则从所述待检测的会话消息集合中过滤所述系统提示消息;
若检测到所述待检测的会话消息集合中存在所述系统可选消息,则从所述待检测的会话消息集合中过滤所述系统可选消息;
针对所述待检测的会话消息集合,根据过滤后得到的至少一条会话消息获取所述第一会话消息集合。
5.根据权利要求3所述的识别方法,其特征在于,所述根据所述第一会话消息集合中每条会话消息所对应的传输信息,生成第二会话消息集合,包括:
根据所述每条会话消息所对应的发送方标识,获取N组第一会话消息子集合,其中,所述N为大于或等于1,且小于或等于所述M的整数,每组第一会话消息子集合对应于一个相同的发送方标识;
针对于所述N组第一会话消息子集合中的任意一组第一会话消息子集合,根据所述每条会话消息所对应的接收方标识,获取K组第二会话消息子集合,其中,所述K为大于或等于1的整数,每组第二会话消息子集合对应于一个相同的接收方标识,且所述每组第二会话消息子集合中包括至少一条会话消息;
针对于所述任意一组第一会话消息子集合,获取所述每组第二会话消息子集合中所包括的会话消息的总数量;
针对于所述任意一组第一会话消息子集合,按照所述会话消息的总数量从小到大的次序,对所述K组第二会话消息子集合进行排序,得到第一排序结果;
根据所述每组第一会话消息子集合所对应的所述第一排序结果,生成所述第二会话消息集合。
6.根据权利要求5所述的识别方法,其特征在于,所述每条会话消息所对应的传输信息还包括发送时间;
所述针对于所述任意一组第一会话消息子集合,按照所述会话消息的总数量从小到大的次序,对所述K组第二会话消息子集合进行排序,得到第一排序结果之后,所述方法还包括:
针对所述第一排序结果,获取所述排序后的第二会话消息子集合中每条会话消息所对应的发送时间;
针对所述第一排序结果,按照所述发送时间的次序,对所述排序后的第二会话消息子集合中的会话消息进行排序,得到第二排序结果;
所述根据所述每组第一会话消息子集合所对应的所述第一排序结果,生成所述第二会话消息集合,包括:
根据所述每组第一会话消息子集合所对应的所述第二排序结果,生成所述第二会话消息集合,其中,所述第二会话消息集合包括N组经过排序处理的第一会话消息子集合。
7.根据权利要求3所述的识别方法,其特征在于,所述从所述第二会话消息集合中获取所述待检测用户所对应的待处理会话消息集合,包括:
从所述第二会话消息集合获取待检测的第一会话消息子集合,其中,所述第二会话消息集合包括N组经过排序处理的第一会话消息子集合,所述N为大于或等于1,且小于或等于所述...
【专利技术属性】
技术研发人员:周菲,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。