一种数据的识别处理方法技术

技术编号:7759196 阅读:266 留言:0更新日期:2012-09-14 01:15
本发明专利技术公开了一种数据的识别处理方法,包括如下步骤:S10:对数据进行实时识别,并将欺诈数据和非欺诈数据以及数据对应信任值分别存入数据库;S11:对数据进行定时识别,并将欺诈站点存入欺诈站点数据库,同时将得到的站点信任值分配给站点下的数据;S12:对数据进行综合识别,结合定时识别阶段获取的信任值,将实时识别中存入非欺诈数据库中的数据进行再一次的识别判断。本发明专利技术通过基于数据融合的数据实时识别、定时识别和数据综合识别有机结合,形成一套整的数据识别机制,在已获取的用户访问数据基础上,通过一种有效的识别方法,实现既能快速响应客户的同时,保证了识别的准确性和全面性。

【技术实现步骤摘要】

本专利技术属于互联网信息处理
,尤其是互联网联盟广告
,涉及。
技术介绍
随着互联网技术的不断发展,互联网广告市场规模发展迅猛,在广告业中占据着越加重要的位置。网站联盟作为互联网广告中最为重要的形式之一,因为其覆盖面广、精准度高和实时灵活性而倍受关注。同时,该广告形式也面临着广告欺诈的困扰。 广告欺诈是指网民受金钱、利益等吸引对网络广告进行恶意反复点击或显示的行为,以达到收获金钱或打压竞争对手等目的。广告欺诈在消耗广告主费用的同时,也严重影响了广告客户对这一新兴的网络市场销售工具的信心,对整个互联网广告行业产生着非常消极的影响,甚至可能影响到这一模式的生存发展。因此,如何实时、准确的识别广告欺诈,这对网站联盟的健康快速发展有着非常重要的影响。目前技术解决该问题的方法主要有两种一是从流量监控角度,对重复流量进行阻止或不予计费。该方法对于一些通过软件或雇佣人力不断重复刷新的欺诈行为有领好效果,但对于如今更为智能的欺诈行为,如点击联盟等,则收效甚微;另一种解决方式是采用对获取的用户访问数据依一定算法进行分析,对欺诈行为进行实时反馈和组织。然而,由于该类算法主要进行实时分析与反馈,数据和识别力度的有限,导致其识别准确率也同样有限。并且,对于联盟中不可小觑的作弊群体和站点,其也无法进行有效识别。故,实有必要进行研究,提供一种解决方案,解决目前的互联网广告欺诈的识别方法响应速度和识别准确性有限的问题。
技术实现思路
为解决上述问题,本专利技术的目的在于提供,以准确识别互联网广告欺诈,且快速响应互联网广告欺诈的识别。为实现上述目的,本专利技术的技术方案为,包括如下步骤S10:对数据进行实时识别,并将识别出的欺诈数据和非欺诈数据以及数据对应信任值分别存入数据库;Sll :对数据进行定时识别,并将识别出的欺诈站点存入欺诈站点数据库,同时将得到的站点信任值分配给站点下的数据;S12:对数据进行综合识别,结合定时识别阶段获取的信任值,将实时识别中存入非欺诈数据库中的数据进行再一次的识别判断。进一步地,所述步骤SlO具体包括有步骤SlOl :建立模块划分库,并对每个模块依已有经验进行质量值分配; S102 :对每条用户访问数据进行基于模块的统计分析与质量值获取;S103 :对各模块进彳丁数据融合,通过公式权利要求1.,其特征在于,包括如下步骤 510:对数据进行实时识别,并将识别出的欺诈数据和非欺诈数据以及数据对应信任值分别存入数据库; 511:对数据进行定时识别,并将识别出的欺诈站点存入欺诈站点数据库,同时将得到的站点信任值分配给站点下的数据; 512:对数据进行综合识别,结合定时识别阶段获取的信任值,将实时识别中存入非欺诈数据库中的数据进行再一次的识别判断。2.如权利要求I所述数据的识别处理方法,其特征在于,所述步骤SlO具体包括有步骤 SlOl :建立模块划分库,并对每个模块依已有经验进行质量值分配。S102:对每条用户访问数据进行基于模块的统计分析与质量值获取。5103:对各模块进彳"X数据融合,通过公式3.如权利要求2所述数据的识别处理方法,其特征在于在所述步骤S104中,将所获得的欺诈信任与实时欺诈识别信任值阈值进行比较,若大于预设阈值,则判断该条用户访问数据为欺诈数据;否则,判断为非欺诈数据。4.如权利要求3所述数据的识别处理方法,其特征在于,所述步骤Sll具体包括有步骤 5111:建立维度库,对数据依据其分布属性进行维度选择,并依照已有经验建立维度标准分布库; 5112:数据聚合与统计,对用户访问数据进行基于站点的聚合,并对聚合后数据进行基于维度的分布统计; 5113:各维度相似度计算,根据公式5.如权利要求4所述数据的识别处理方法,其特征在于,所述步骤S12具体包括有步骤 S121:分配定时欺诈识别信任值,将定时欺诈识别中得到的站点信任值分配到其对应的各用户访问数据上;5122:两模块数据融合,采用公式6.一种数据识别处理系统,其特征在于,包括 用户访问数据获取模块,用于将用户每次访问行为数据进行记录; 数据实时识别模块,其通过不间断检测,当检测到新的访问数据时,对该次访问是否欺诈进行实时识别; 数据定时识别模块,其通过不间断检测,当检测到已到达预设时间点时,对数据进行基于站点的识别。此处通过对站点不同维度统计分析与相似度计算,对站点是否欺诈进行识别; 数据综合识别模块,其针对数据实时识别模块处理后的非欺诈数据进行分析,同时结合数据定时识别模块分析结果,对数据进行进一步的判断。7.如权利要求6所述的数据识别处理系统,其特征在于,所述数据实时识别模块进行实时识别后,将识别出的欺诈数据存入欺诈数据库,未识别出的数据则存入非欺诈数据库。8.如权利要求7所述的数据识别处理系统,其特征在于,所述数据定时识别模块对每个站点的数据分布进行分析、对相似度计算后,将识别出的欺诈站点存入欺诈站点库。全文摘要本专利技术公开了,包括如下步骤S10对数据进行实时识别,并将欺诈数据和非欺诈数据以及数据对应信任值分别存入数据库;S11对数据进行定时识别,并将欺诈站点存入欺诈站点数据库,同时将得到的站点信任值分配给站点下的数据;S12对数据进行综合识别,结合定时识别阶段获取的信任值,将实时识别中存入非欺诈数据库中的数据进行再一次的识别判断。本专利技术通过基于数据融合的数据实时识别、定时识别和数据综合识别有机结合,形成一套整的数据识别机制,在已获取的用户访问数据基础上,通过一种有效的识别方法,实现既能快速响应客户的同时,保证了识别的准确性和全面性。文档编号G06F17/30GK102663021SQ20121007703公开日2012年9月12日 申请日期2012年3月21日 优先权日2012年3月21日专利技术者刘崟, 戴霖, 田宁, 谭磊 申请人:浙江盘石信息技术有限公司本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:戴霖田宁刘崟谭磊
申请(专利权)人:浙江盘石信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1