【技术实现步骤摘要】
一种作弊信息的挖掘方法、作弊信息的识别方法及装置
本申请涉及人工智能领域,尤其涉及一种作弊信息的挖掘方法、作弊信息的识别方法及装置
技术介绍
随着网络的发展,网络信息更新的速度也越来越快,网络黑产已成为危害互联网生态安全的重大问题之一。由于网络中存在的作弊行为在不断地变化和转移,因此,需要对网络黑产进行分析与监控,尽可能从源头上发现和打击黑灰产。目前,在一些搜索场景中,用户可通过搜索系统提供的搜索界面输入查询信息(query),搜索系统基于query判断搜索意图,然后针对该query进行提示补充,最后展示于搜索界面。如果检测到query存在敏感意图(例如,色情或者暴力等),则可以将这些query作为挖掘到的敏感query,并用于后续的处理。然而,网络黑产开始利用搜索引擎优化(SearchEngineOptimization,SEO)机制进行恶意导流,出现了很多含同音字、同形字以及拼音字母结合等作弊的敏感query,如果要挖掘这些作弊的query,则需要花费大量的人力和时间进行查找,导致信息挖掘成本较高。 >专利技术内本文档来自技高网...
【技术保护点】
1.一种作弊信息的挖掘方法,其特征在于,包括:/n获取待检测用户所对应的查询信息集合,其中,所述查询信息集合包括M条查询信息,所述M为大于或等于1的整数;/n若所述查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将所述待检测用户确定为作弊用户;/n获取所述作弊用户在历史时间段内的历史查询信息集合,其中,所述历史查询信息集合包括至少一条历史查询信息;/n若所述历史查询信息集合中存在满足所述信息作弊条件的历史查询信息,则将所述满足信息作弊条件的历史查询信息确定为作弊信息。/n
【技术特征摘要】
1.一种作弊信息的挖掘方法,其特征在于,包括:
获取待检测用户所对应的查询信息集合,其中,所述查询信息集合包括M条查询信息,所述M为大于或等于1的整数;
若所述查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将所述待检测用户确定为作弊用户;
获取所述作弊用户在历史时间段内的历史查询信息集合,其中,所述历史查询信息集合包括至少一条历史查询信息;
若所述历史查询信息集合中存在满足所述信息作弊条件的历史查询信息,则将所述满足信息作弊条件的历史查询信息确定为作弊信息。
2.根据权利要求1所述的挖掘方法,其特征在于,所述获取待检测用户所对应的查询信息集合,包括:
从服务器中读取所述待检测用户所对应的搜索日志数据;
根据所述待检测用户所对应的搜索日志数据,生成K组待处理查询信息集合,其中,每组待处理查询信息集合对应于一个时间段,所述K为大于或等于1的整数;
从所述K组待处理查询信息集合中获取所述查询信息集合。
3.根据权利要求2所述的挖掘方法,其特征在于,所述从所述K组待处理查询信息集合中获取所述查询信息集合,包括:
获取所述K组待处理查询信息集合中每个待处理查询信息集合的查询信息数量;
若所述待处理查询信息集合的查询信息数量大于或等于数量阈值,则将所述待处理查询信息集合确定为所述查询信息集合,其中,所述查询信息集合还包括所述待检测用户的标识,以及每条查询信息所对应的时间。
4.根据权利要求1所述的挖掘方法,其特征在于,所述获取待检测用户所对应的查询信息集合之后,所述方法还包括:
基于所述待检测用户所对应的查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若查询信息所对应的检测分值大于或等于检测分数阈值,则确定所述查询信息满足所述信息作弊条件。
5.根据权利要求1所述的挖掘方法,其特征在于,所述获取所述作弊用户在历史时间段内的历史查询信息集合之后,所述方法还包括:
基于所述作弊用户在所述历史时间段内的所述历史查询信息集合,通过信息识别模型获取每条历史查询信息所对应的检测分数;
若历史查询信息所对应的检测分值大于或等于检测分数阈值,则确定所述历史查询信息满足所述信息作弊条件。
6.根据权利要求1所述的挖掘方法,其特征在于,所述将所述满足信息作弊条件的历史查询信息确定为作弊信息之后,所述方法还包括:
从服务器中读取所述作弊用户所对应的搜索日志数据;
根据所述作弊用户所对应的搜索日志数据,生成P组历史查询信息集合,其中,每组历史查询信息集合对应于一个时间段,所述P为大于或等于1的整数;
基于所述P组历史查询信息集合中的每组历史查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若所述历史查询信息集合中存在满足所述信息作弊条件的查询信息,则将所述满足信息作弊条件的查询信息确定为作弊信息;
若所述历史查询信息集合中不存在满足所述信息作弊条件的查询信息,则停止挖掘所述作弊用户的作弊信息。
7.根据权利要求1至6中任一项所述的挖掘方法,其特征在于,所述将所述满足信息作弊条件的历史查询信息确定为作弊信息之后,所述方法还包括:
根据所述作弊信息确定真实标签;
基于所述作弊信息,通过信息识别模型获取目标检测分数;
根据所述目标检测分数以及所述真实标签,采用损失函数对所述信息识别模型的模型参数进行更新,直至满足模型训练条件。
8.根据权利要求1至6中任一项所述的挖掘方法,其特征在于,所述将所述满足信息作弊条件的历史查询信息确定为作弊信息之后,所述方法还包括:
根据所述作弊信息确定属性标签;
将所述属性标签添加至所述待检测用户所对应的用户画像。
9.一种作弊信息的识别方法,其特征在于,包括:
获取待检...
【专利技术属性】
技术研发人员:唐亚腾,钟滨,徐进,施雯洁,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。