一种用于识别作弊流量的模型建立方法及系统技术方案

技术编号:18711220 阅读:41 留言:0更新日期:2018-08-21 22:43
本发明专利技术公开了一种用于识别作弊流量的模型建立方法及系统。该方法包括:获取多条流量;提取流量的作弊特征;建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表;提取排名在前的第一预设比例的网络地址;标记第一作弊流量;提取排名在前的第二预设比例的顶级域名;标记第二作弊流量;提取排名在前的第三预设比例的广告类型;标记第三作弊流量;判断第一作弊流量、第二作弊流量和第三作弊流量是否为相同的流量;若是,则确定为作弊流量;若否,则确定为正常流量;利用作弊流量与正常流量得到训练好的流量分类模型。本发明专利技术能够满足DSP环境,提高作弊流量识别的稳健性。

Modeling method and system for identifying cheating traffic

The invention discloses a method and system for establishing a model for identifying cheating traffic. The method includes: obtaining multiple traffic; extracting traffic cheating characteristics; establishing a sorting list of advertisement requests corresponding to different network addresses, sorting lists of advertisement requests corresponding to different top-level domain names and sorting lists of requests corresponding to different advertisement types; extracting network addresses ranked in the first preset proportion in the front; Mark the first cheating traffic; extract the top-level domain name of the second preset proportion in the top ranking; mark the second cheating traffic; extract the advertising type of the third preset proportion in the top ranking; mark the third cheating traffic; judge whether the first cheating traffic, the second cheating traffic and the third cheating traffic are the same traffic; if so, Then it is determined as cheating flow; if not, it is determined as normal flow; using cheating flow and normal flow to get the trained flow classification model. The invention can satisfy the DSP environment and improve the robustness of cheating traffic identification.

【技术实现步骤摘要】
一种用于识别作弊流量的模型建立方法及系统
本专利技术涉及互联网广告
,特别是涉及一种用于识别作弊流量的模型建立方法及系统。
技术介绍
反作弊一直是互联网广告行业的关键问题。对于每条流量,需求方平台(DemandSidePlatform,DSP)需要实时判别其是否为作弊流量,从而进一步决定是否竞价,DSP对接一个或多个广告交易平台,能够针对复杂的流量进行判别,其稳健性高。目前,常用的广告反作弊方法是建立分类模型,利用正负样本对分类模型进行训练得到训练模型,利用训练模型识别作弊流量。而由于DSP无法直接获取作弊流量样本,因此,现有的方法建立的分类模型不能满足DSP环境,导致其稳健性不高。
技术实现思路
基于此,有必要提供一种用于识别作弊流量的模型建立方法及系统,以满足DSP环境,提高作弊流量识别的稳健性。为实现上述目的,本专利技术提供了如下方案:一种用于识别作弊流量的模型建立方法,包括:获取多条流量;提取所述流量的作弊特征,所述作弊特征包括不同网络地址对应的广告请求数、不同顶级域名对应的广告请求数和不同广告类型对应的请求数;依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表;提取所述不同网络地址对应的广告请求数排序列表中排名在前的第一预设比例的网络地址;将所述排名在前的第一预设比例的网络地址对应的流量标记为第一作弊流量;提取所述不同顶级域名对应的广告请求数排序列表中排名在前的第二预设比例的顶级域名;将所述排名在前的第二预设比例的顶级域名对应的流量标记为第二作弊流量;提取所述不同广告类型对应的请求数排序列表中排名在前的第三预设比例的广告类型;将所述排名在前的第三预设比例的广告类型对应的流量标记为第三作弊流量;判断所述第一作弊流量、所述第二作弊流量和所述第三作弊流量是否为相同的流量;若是,则将所述相同的流量确定为作弊流量;若否,则将所述第一作弊流量、所述第二作弊流量和所述第三作弊流量均确定为正常流量;利用所述作弊流量与所述正常流量对流量分类模型进行训练,得到训练好的流量分类模型,所述训练好的流量分类模型用于对待测试的流量进行识别。可选的,所述依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表,具体包括:统计预设时间段内各个所述作弊特征对应的请求次数;对每个所述作弊特征对应的请求次数从高到低进行排序,得到不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表。可选的,所述利用所述作弊流量与所述正常流量对流量分类模型进行训练,得到训练好的流量分类模型,所述训练好的流量分类模型用于对待测试的流量进行识别,具体包括:利用决策树算法建立流量分类模型;提取所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征;将所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征输入到所述流量分类模型中,判断所述流量分类模型是否能正确分类;若否,则调整所述流量分类模型的参数,返回所述将所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征输入到所述流量分类模型中,判断所述流量分类模型是否能正确分类这一步骤;若是,则将所述所述流量分类模型确定为训练好的流量分类模型。可选的,利用所述训练好的流量分类模型对待测试的流量进行识别的方法为:提取待测试的流量的作弊特征;将所述待测试的流量的作弊特征输入到所述训练好的流量分类模型中,得到输出结果;根据所述输出结果判断所述待测试的流量是否为作弊流量。本专利技术还提供了一种用于识别作弊流量的模型建立系统,包括:获取模块,用于获取多条流量;作弊特征提取模块,用于提取所述流量的作弊特征,所述作弊特征包括不同网络地址对应的广告请求数、不同顶级域名对应的广告请求数和不同广告类型对应的请求数;排序列表建立模块,用于依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表;第一提取模块,用于提取所述不同网络地址对应的广告请求数排序列表中排名在前的第一预设比例的网络地址;第一标记模块,用于将所述排名在前的第一预设比例的网络地址对应的流量标记为第一作弊流量;第二提取模块,用于提取所述不同顶级域名对应的广告请求数排序列表中排名在前的第二预设比例的顶级域名;第二标记模块,用于将所述排名在前的第二预设比例的顶级域名对应的流量标记为第二作弊流量;第三提取模块,用于提取所述不同广告类型对应的请求数排序列表中排名在前的第三预设比例的广告类型;第三标记模块,用于将所述排名在前的第三预设比例的广告类型对应的流量标记为第三作弊流量;判断模块,用于判断所述第一作弊流量、所述第二作弊流量和所述第三作弊流量是否为相同的流量;若是,则将所述相同的流量确定为作弊流量;若否,则将所述第一作弊流量、所述第二作弊流量和所述第三作弊流量均确定为正常流量;训练模块,用于利用所述作弊流量与所述正常流量对流量分类模型进行训练,得到训练好的流量分类模型,所述训练好的流量分类模型用于对待测试的流量进行识别。可选的,所述排序列表建立模块,具体包括:统计单元,用于统计预设时间段内各个所述作弊特征对应的请求次数;排序单元,用于对每个所述作弊特征对应的请求次数从高到低进行排序,得到不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表。可选的,所述训练模块,具体包括:分类模型建立单元,用于利用决策树算法建立流量分类模型;作弊特征提取单元,用于提取所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征;第一判断单元,用于将所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征输入到所述流量分类模型中,判断所述流量分类模型是否能正确分类;调整单元,用于若否,则调整所述流量分类模型的参数,返回所述将所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征输入到所述流量分类模型中,判断所述流量分类模型是否能正确分类这一步骤;分类模型确定单元,用于若是,则将所述所述流量分类模型确定为训练好的流量分类模型。可选的,还包括识别模块,所述识别模块用于利用所述训练好的流量分类模型对待测试的流量进行识别,所述识别模块,具体包括:提取单元,用于提取待测试的流量的作弊特征;结果获取单元,用于将所述待测试的流量的作弊特征输入到所述训练好的流量分类模型中,得到输出结果;第二判断单元,用于根据所述输出结果判断所述待测试的流量是否为作弊流量。与现有技术相比,本专利技术的有益效果是:本专利技术提出了一种用于识别作弊流量的模型建立方法及系统,所述包括:获取多条流量;提取流量的作弊特征;依据流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表;提取排名在前的第一预设比例的网络地址;将排名在前的第一预设比例的网络地址对应的流量标记为第一作弊流量;提取排名在前的第二预设比例的顶级域名;将排名在前的第二预设比例的顶级域名对应的流量标记为第二作弊流量;提取排名在前的第三预设比例的广告类型;将排名本文档来自技高网...

【技术保护点】
1.一种用于识别作弊流量的模型建立方法,其特征在于,包括:获取多条流量;提取所述流量的作弊特征,所述作弊特征包括不同网络地址对应的广告请求数、不同顶级域名对应的广告请求数和不同广告类型对应的请求数;依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表;提取所述不同网络地址对应的广告请求数排序列表中排名在前的第一预设比例的网络地址;将所述排名在前的第一预设比例的网络地址对应的流量标记为第一作弊流量;提取所述不同顶级域名对应的广告请求数排序列表中排名在前的第二预设比例的顶级域名;将所述排名在前的第二预设比例的顶级域名对应的流量标记为第二作弊流量;提取所述不同广告类型对应的请求数排序列表中排名在前的第三预设比例的广告类型;将所述排名在前的第三预设比例的广告类型对应的流量标记为第三作弊流量;判断所述第一作弊流量、所述第二作弊流量和所述第三作弊流量是否为相同的流量;若是,则将所述相同的流量确定为作弊流量;若否,则将所述第一作弊流量、所述第二作弊流量和所述第三作弊流量均确定为正常流量;利用所述作弊流量与所述正常流量对流量分类模型进行训练,得到训练好的流量分类模型,所述训练好的流量分类模型用于对待测试的流量进行识别。...

【技术特征摘要】
1.一种用于识别作弊流量的模型建立方法,其特征在于,包括:获取多条流量;提取所述流量的作弊特征,所述作弊特征包括不同网络地址对应的广告请求数、不同顶级域名对应的广告请求数和不同广告类型对应的请求数;依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表;提取所述不同网络地址对应的广告请求数排序列表中排名在前的第一预设比例的网络地址;将所述排名在前的第一预设比例的网络地址对应的流量标记为第一作弊流量;提取所述不同顶级域名对应的广告请求数排序列表中排名在前的第二预设比例的顶级域名;将所述排名在前的第二预设比例的顶级域名对应的流量标记为第二作弊流量;提取所述不同广告类型对应的请求数排序列表中排名在前的第三预设比例的广告类型;将所述排名在前的第三预设比例的广告类型对应的流量标记为第三作弊流量;判断所述第一作弊流量、所述第二作弊流量和所述第三作弊流量是否为相同的流量;若是,则将所述相同的流量确定为作弊流量;若否,则将所述第一作弊流量、所述第二作弊流量和所述第三作弊流量均确定为正常流量;利用所述作弊流量与所述正常流量对流量分类模型进行训练,得到训练好的流量分类模型,所述训练好的流量分类模型用于对待测试的流量进行识别。2.根据权利要求1所述的一种用于识别作弊流量的模型建立方法,其特征在于,所述依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表,具体包括:统计预设时间段内各个所述作弊特征对应的请求次数;对每个所述作弊特征对应的请求次数从高到低进行排序,得到不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表。3.根据权利要求1所述的一种用于识别作弊流量的模型建立方法,其特征在于,所述利用所述作弊流量与所述正常流量对流量分类模型进行训练,得到训练好的流量分类模型,所述训练好的流量分类模型用于对待测试的流量进行识别,具体包括:利用决策树算法建立流量分类模型;提取所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征;将所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征输入到所述流量分类模型中,判断所述流量分类模型是否能正确分类;若否,则调整所述流量分类模型的参数,返回所述将所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征输入到所述流量分类模型中,判断所述流量分类模型是否能正确分类这一步骤;若是,则将所述所述流量分类模型确定为训练好的流量分类模型。4.根据权利要求1所述的一种用于识别作弊流量的模型建立方法,其特征在于,利用所述训练好的流量分类模型对待测试的流量进行识别的方法为:提取待测试的流量的作弊特征;将所述待测试的流量的作弊特征输入到所述训练好的流量分类模型中,得到输出结果;根据所述输出结果判断所述待测试的流量是否为作弊流量。5.一种用于识别作弊流量的模型建立系统,其特征在于,包括:获取模块,用于获取多条流量;作...

【专利技术属性】
技术研发人员:郭昊欧阳辰
申请(专利权)人:北京品友互动信息技术股份公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1