The invention discloses a method and system for establishing a model for identifying cheating traffic. The method includes: obtaining multiple traffic; extracting traffic cheating characteristics; establishing a sorting list of advertisement requests corresponding to different network addresses, sorting lists of advertisement requests corresponding to different top-level domain names and sorting lists of requests corresponding to different advertisement types; extracting network addresses ranked in the first preset proportion in the front; Mark the first cheating traffic; extract the top-level domain name of the second preset proportion in the top ranking; mark the second cheating traffic; extract the advertising type of the third preset proportion in the top ranking; mark the third cheating traffic; judge whether the first cheating traffic, the second cheating traffic and the third cheating traffic are the same traffic; if so, Then it is determined as cheating flow; if not, it is determined as normal flow; using cheating flow and normal flow to get the trained flow classification model. The invention can satisfy the DSP environment and improve the robustness of cheating traffic identification.
【技术实现步骤摘要】
一种用于识别作弊流量的模型建立方法及系统
本专利技术涉及互联网广告
,特别是涉及一种用于识别作弊流量的模型建立方法及系统。
技术介绍
反作弊一直是互联网广告行业的关键问题。对于每条流量,需求方平台(DemandSidePlatform,DSP)需要实时判别其是否为作弊流量,从而进一步决定是否竞价,DSP对接一个或多个广告交易平台,能够针对复杂的流量进行判别,其稳健性高。目前,常用的广告反作弊方法是建立分类模型,利用正负样本对分类模型进行训练得到训练模型,利用训练模型识别作弊流量。而由于DSP无法直接获取作弊流量样本,因此,现有的方法建立的分类模型不能满足DSP环境,导致其稳健性不高。
技术实现思路
基于此,有必要提供一种用于识别作弊流量的模型建立方法及系统,以满足DSP环境,提高作弊流量识别的稳健性。为实现上述目的,本专利技术提供了如下方案:一种用于识别作弊流量的模型建立方法,包括:获取多条流量;提取所述流量的作弊特征,所述作弊特征包括不同网络地址对应的广告请求数、不同顶级域名对应的广告请求数和不同广告类型对应的请求数;依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表;提取所述不同网络地址对应的广告请求数排序列表中排名在前的第一预设比例的网络地址;将所述排名在前的第一预设比例的网络地址对应的流量标记为第一作弊流量;提取所述不同顶级域名对应的广告请求数排序列表中排名在前的第二预设比例的顶级域名;将所述排名在前的第二预设比例的顶级域名对应的流量标记为第二作弊流量;提取所述 ...
【技术保护点】
1.一种用于识别作弊流量的模型建立方法,其特征在于,包括:获取多条流量;提取所述流量的作弊特征,所述作弊特征包括不同网络地址对应的广告请求数、不同顶级域名对应的广告请求数和不同广告类型对应的请求数;依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表;提取所述不同网络地址对应的广告请求数排序列表中排名在前的第一预设比例的网络地址;将所述排名在前的第一预设比例的网络地址对应的流量标记为第一作弊流量;提取所述不同顶级域名对应的广告请求数排序列表中排名在前的第二预设比例的顶级域名;将所述排名在前的第二预设比例的顶级域名对应的流量标记为第二作弊流量;提取所述不同广告类型对应的请求数排序列表中排名在前的第三预设比例的广告类型;将所述排名在前的第三预设比例的广告类型对应的流量标记为第三作弊流量;判断所述第一作弊流量、所述第二作弊流量和所述第三作弊流量是否为相同的流量;若是,则将所述相同的流量确定为作弊流量;若否,则将所述第一作弊流量、所述第二作弊流量和所述第三作弊流量均确定为正常流量;利用所述作弊流量与所述正常流量 ...
【技术特征摘要】
1.一种用于识别作弊流量的模型建立方法,其特征在于,包括:获取多条流量;提取所述流量的作弊特征,所述作弊特征包括不同网络地址对应的广告请求数、不同顶级域名对应的广告请求数和不同广告类型对应的请求数;依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表;提取所述不同网络地址对应的广告请求数排序列表中排名在前的第一预设比例的网络地址;将所述排名在前的第一预设比例的网络地址对应的流量标记为第一作弊流量;提取所述不同顶级域名对应的广告请求数排序列表中排名在前的第二预设比例的顶级域名;将所述排名在前的第二预设比例的顶级域名对应的流量标记为第二作弊流量;提取所述不同广告类型对应的请求数排序列表中排名在前的第三预设比例的广告类型;将所述排名在前的第三预设比例的广告类型对应的流量标记为第三作弊流量;判断所述第一作弊流量、所述第二作弊流量和所述第三作弊流量是否为相同的流量;若是,则将所述相同的流量确定为作弊流量;若否,则将所述第一作弊流量、所述第二作弊流量和所述第三作弊流量均确定为正常流量;利用所述作弊流量与所述正常流量对流量分类模型进行训练,得到训练好的流量分类模型,所述训练好的流量分类模型用于对待测试的流量进行识别。2.根据权利要求1所述的一种用于识别作弊流量的模型建立方法,其特征在于,所述依据所述流量的作弊特征,建立不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表,具体包括:统计预设时间段内各个所述作弊特征对应的请求次数;对每个所述作弊特征对应的请求次数从高到低进行排序,得到不同网络地址对应的广告请求数排序列表、不同顶级域名对应的广告请求数排序列表和不同广告类型对应的请求数排序列表。3.根据权利要求1所述的一种用于识别作弊流量的模型建立方法,其特征在于,所述利用所述作弊流量与所述正常流量对流量分类模型进行训练,得到训练好的流量分类模型,所述训练好的流量分类模型用于对待测试的流量进行识别,具体包括:利用决策树算法建立流量分类模型;提取所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征;将所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征输入到所述流量分类模型中,判断所述流量分类模型是否能正确分类;若否,则调整所述流量分类模型的参数,返回所述将所述作弊流量的所述作弊特征和所述正常流量的所述作弊特征输入到所述流量分类模型中,判断所述流量分类模型是否能正确分类这一步骤;若是,则将所述所述流量分类模型确定为训练好的流量分类模型。4.根据权利要求1所述的一种用于识别作弊流量的模型建立方法,其特征在于,利用所述训练好的流量分类模型对待测试的流量进行识别的方法为:提取待测试的流量的作弊特征;将所述待测试的流量的作弊特征输入到所述训练好的流量分类模型中,得到输出结果;根据所述输出结果判断所述待测试的流量是否为作弊流量。5.一种用于识别作弊流量的模型建立系统,其特征在于,包括:获取模块,用于获取多条流量;作...
【专利技术属性】
技术研发人员:郭昊,欧阳辰,
申请(专利权)人:北京品友互动信息技术股份公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。