编辑导语:在介绍了关于系统的核心功能模块及系统架构以及定向策略之后,本文作者对广告的虚假流量的治理与防范进行展开,与大家分享。

一、背景阐述

广告一直是自古以来经久不衰的传统行业,自从互联网大数据开始良好发展,越来越多的广告主将预算放在了在线广告上,使其规模近年来也随之大幅攀升,各大互联网厂商又纷纷紧跟布局,互联网在线广告行业内一片繁荣。

在线广告行业是离钱很近的行业,随着参与者越来越多,行业蓬勃发展的背后也开始滋生出大量的“作弊”手段,严重影响了整个行业的生存与发展,面对花样翻新的造假方式和俨然“链条化”了的造假产业, 治理问题刻不容缓。

《互联网广告管理暂行办法》中将互联网广告定义为“通过网站、网页、互联网应用程序等互联网媒介,以文字、图片、音频、视频或者其他形式,直接或者间接地推销商品或者服务的商业广告”。

二、为何存在大量作弊流量

1. 广告主广告投放需求与优质媒体资源供给之间存在矛盾

随着互联网极速扩张,广告主对互联网广告投放需求持续增长,相对应的却是我国互联网人口红利渐失,导致优质媒体资源的供给有限,因此为满足广告主投放需求,部分媒介平台、技术服务商采取作弊行为,制造虚假流量。

2. 广告产业链延长,众多广告环节出现流量造假

受竞争压力或商业利益驱使,广告主作为广告活动的出资方,为完成KPI任务或出于大量消耗竞争对手广告预算,让本品牌获得更多展示机会。

技术服务提供商、媒介平台提供商为赚取更多佣金会超卖流量,以次充好将劣质流量混入或通过脚本、模拟器刷量。尤其是按效果付费的广告联盟形式,一些网站为获取更多广告费,往往通过技术或人工手段人为提高点击率。而部分广告代理商为完成与广告主商定的KPI任务,也会通过购买流量服务的形式进行刷量。在手机广告市场中还存在电信运营商这一特殊成员,电信运营商可以利用对信道的控制,在用户上网时强行向下行内容中插入广告甚至更改广告创意。

3. 广告交易链不透明,加剧广告作弊行为滋生

互联网广告产业链延长,与传统广告产业链相比,技术服务提供商的出现让技术在互联网广告领域发挥了至关重要的作用。然而由于技术门槛的限制和出于数据安全的考虑,互联网广告交易过程中的一些技术规则、数据资源并未对广告主和第三方公开,这导致目前广告交易链并不透明,加剧了互联网广告作弊行为的滋生。

为了使虚假数据更具“真实感”,数据造假技术也日新月异,从最初人工刷量发展到机器人刷量,如今更是将各种技术手段应用于互联网媒体平台来进行数据造假。为了帮助大家在这个行业顺利发展,作者整理了一些常见的手段。

三、常见的“作弊”维度

1. 从生产方式维度

互联网广告虚假流量主要有机器作弊(M)、人工作弊(H)、机器与人工相结合(M&H)作弊三种方式。

2. 从流量异常迹象维度

可将虚假流量分为用户信息异常流量(I)、投放异常流量(P)、浏览异常流量(V)、曝光异常流量(E)、点击异常流量(C)、归因异常流量(A)等六类 [1]

用户信息异常流量:异常网络IP或异常设备ID所携带的虚假流量。

  • 同一个网络IP在一天内关联多个不稳定cookie,则此IP存在异常;
  • 一天内一个设备ID关联多个不同机型或一天内一个Android ID关联多个IMEI;
  • 亦或是同一个IMEI在一天内关联多个ID,则此ID存在异常。
  • 异常IP或ID所带来的广告流量一般为虚假流量。

投放异常流量:在广告投放环节产生的虚假流量。

  • 投放异常一般包括:无投放曝光、人群失真、时差异常三种情况。
  • 无投放曝光指在同一次广告请求中没有监测到投放请求,但有曝光请求的现象;
  • 人群失真指广告投放的用户与产生曝光/点击行为的用户不一致;
  • 时差异常则指同一次广告投放和曝光/点击之间时间间隔过长或投放与曝光/点击发生的时间顺序出现颠倒。
  • 当在广告投放环节出现以上情况时,一般为虚假流量。

浏览异常流量:通过广告来源异常或浏览器分布异常所发现的虚假流量。

  • 在进行互联网广告投放时,广告主一般会指定特定目标群体、地域进行广告投放,当实际发生曝光或点击的URL(网络统一资源定位符)与预定页面产生较大差异时可判定这些流量为来源异常的虚假流量。浏览器分布异常则指在某些浏览器上的曝光或点击过于集中。因为在一定时期内各网络浏览器的市场份额是相对固定的,所以特定浏览器曝光或点击的过于集中,可能是虚假流量造成的。

曝光异常流量:在广告曝光层面产生的虚假流量。

  • 曝光异常一般包括:曝光碰撞、曝光过高、连续曝光三种情况。曝光碰撞指同一用户在很短时间内同时在多个广告位上发生曝光,由于普通人在打开不同页面时存在时间差,当时间差过小时,可判定其为虚假流量。曝光过高是是指某个用户在一分钟内对某个广告位的曝光量过高。而连续曝光则指同一用户在同一个广告位上有规律地进行了一系列曝光。
  • 此外,在广告曝光异常层面还存在“广告不可见”的情况,有些媒体或广告技术服务商为达到广告主的投放需求,擅自修改广告素材的尺寸,或通过有代码无素材、单素材多代码等形式制造不可见广告的虚假流量。

点击异常流量:在广告点击层面产生的虚假流量。

  • 主要包括:无曝光点击、点击频繁、连续点击、点击率过高、鼓励点击五种情况。
  • 无曝光点击指某个广告位没有被曝光但却产生了点击
  • 点击频繁一般指某一用户在某个时间段内在同一广告位上点击数据过大
  • 连续点击指同一用一用户在同一个广告位上有规律地进行了一系列点击
  • 点击率过高,顾名思义一般指某个广告位在某个时间段内点击率过高
  • 鼓励点击,指作弊者采用诱惑性图片、文字诱导用户点击或将广告放到用户容易产生误操作的区域,让用户点击
  • 这些情况下产生的广告流量一般为虚假流量。

常见的“作弊”手段,从数据到展示,从展示到检测代码,只要检测代码认为广告确实被展示了一次,那么不管该用户是否真的见到了广告,广告主都要为此次曝光付费,所谓作弊,就是一个让代码说谎的手段[2]

1. 直接访问监测代码

将客户端的信息以参数的形式拼凑成URL,并以HTTP请求的方式传给第三方。

人工拼凑URL量级较小,且IP有限,比较好识别,是最低级的手段。

2. 服务器刷监测代码

将大量爬虫设定好去爬取制定网页,指定的元素。

且云机房的IP地址大多属于同一IP段,屏蔽掉主要云服务提供商的IP段即可破解此类问题。

3. 客户端刷监测代码

用户访问了一个网页,网页上的JS继续多次触发该行为,刷多几次页面浏览,以及模仿多次点击。

这样一来如果广告投放的用户频次,大多数都在8/16/24/32这些吉利的数字上。就基本可以认定给用户的正常浏览都买一赠七了!如何自动化找出这样的作弊呢?可以了解傅立叶变换、频域。

正常用户在点击广告时,自然的点击分布与广告创意有关,而刷的点击要么较为集中,要么均匀散布,并不难以分辨,查看点击热力图,就一目了然。

4. 频繁换用户身份

广告投放中的用户身份,不会是email、手机号等PII信息,一般情况下,在web场景下用cookie,在苹果手机原生应用中用IDFA,在安卓手机原生应用中用AndroidID,如果这些都没有,就用FingerPrint(IP + User Agent)。

不论采用哪种刷量的手段,一般来说都要比较频繁地变更用户身份,这是反作弊时都应该了解的一点。

对可以选流量的DSP来说,有个简单的办法:凡是第一次看到的cookie或设备,就干脆不要出价了;

对于移动上以SDK方式潜入媒体的SSP产品来说,可以拿到很多终端的信息,如果一台手机的电量总是满的,十有八九是有问题的。

5. 放iframe造假展示

iframe是一个HTML标签,可以在当前页面中插入其他页面的内容,常常被用来作为承载展示广告的载体。通过对宽高的设置将广告位设置为肉眼不可见的大小,被机器检测曝光。在一些新闻页面,会在一个非常不起眼的位置上播放视频广告,效果也是极差的。

如果某一渠道大量曝光却有极低的转化基本上可以引起注意了。

6. 诱骗用户点击广告

诱骗用户点击广告的情况通常发生在BBS中,经常会有广告伪装成帖子,以博人眼球的内容诱骗用户产生点击。在点击之后,就会发生页面跳转或者触发软件的下载,用户很容易中招。除了BBS以外,在有些下载网站中,有很多的“点击下载”都是很典型的诱骗。

7. 运营商弹窗

媒体在某个位置上展示了一个广告,在网页到用户浏览器的数据链路中,运营商对网页数据进行深度报文解析(Deep Packet Inspection, DPI),用自己的广告覆盖掉媒体的广告,发送给用户。

8. 落地页劫持

打开浏览器访问目标网址:ww.baidu.com在按下回车的那一刹那,地址栏里的网址却变成了这样:www,baidu,com?utm_source=ABC,把网址替换成了一个广告来源地址增加了该渠道的流量数量。

9. Cookie Stuffing

“Stuffing”的意思是“填充”,这同样是针对CPS联盟的一种作弊手段。在用户不知情的情况下,给用户打上标识站长的Cookie,如果该用户后面自己去淘宝上产生了购买行为,由于Cookie的存在,这次自然的购买结果就变成了站长的引流结果。

10. 下载归因

在移动应用下载广告中,第三方监测一般规定:用户点击广告后一段时间内,产生的下载行为算作广告效果。如果让来访的每个用户,不管下载不下载,都先记录一次点击,这样一来,只要用户后续产生了下载,那就会被记录为一次收益。用户未浏览广告就直接产生了点击行为,通常表现为出现大量无曝光的点击。

四、常见的反作弊方法

1. 基础手段

  • 排重:Cookie、设备号及IP排重
  • SDK加密防护
  • 点击频次有效期
  • 异常数据黑名单
  • 归因时间差防作弊

2. 反作弊策略逻辑

以下均为举例数据,不作为指标参考使用。

2.1 点击反作弊

(1)单设备单渠道点击次数

  • 5s内单设备,单渠道,点击大于等于2次小于5次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于5次,该设备在该渠道的点击和激活都标记为异常。
  • 一天内单设备,单渠道,点击大于等于3次小于6次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于6次,该设备在该渠道的点击和激活都标记为异常。
  • 一周内单设备,单渠道,点击大于等于12次小于15次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于15次,该设备在该渠道的点击和激活都标记为异常。

(2)单ip单渠道点击次数

  • 一天内,单ip,单渠道,点击大于等于30次,则该IP下的点击和激活标记为异常。

2.2 激活反作弊

(1)单设备单渠道激活次数

  • 一天内单设备,单渠道,激活app大于等于3次小于5次,该设备在该渠道的点击标记为异常,激活默认为自然量;激活大于等于5次,该设备在该渠道的点击和激活都标记为异常。
  • 一周内单设备,单渠道,激活app大于等于4次小于6次,该设备在该渠道的点击标记为异常,激活默认为自然量;激活大于等于6次,该设备在该渠道的点击和激活都标记为异常。

(2)单ip单渠道激活次数

一天内,单ip,单渠道,激活大于等于30次,则该IP下超出的点击和激活标记为异常。

(3)点击到激活时间差

从点击到激活的时间差小于等于5s,该设备在该渠道的点击和激活标记为异常。

2.3 黑渠道库

  • 3天点击数大于1w,且激活率在0.01%以下的渠道,进入黑渠道库。

2.4 黑设备库

  • 5s内点击3个以上广告链接的设备。
  • 一天内点击5个以上广告链接的设备。
  • 一天内激活3个以上app的设备。
  • 一周内,激活3个以上app的设备,且次日留存均为0。
  • 一周内,激活3个以上app的设备,且7日内,每日使用时长方差小于等于3分钟。
  • 渠道数据设备指纹的唯一性不匹配。

每一个渠道都有一个黑设备库,都需要参与计算。
单天的激活率小于等于某个值使用所有的黑名单库。
单天的激活率大于等于某个值出黑名单库。
单渠道的黑设备,在该渠道未来的点击和激活均标记为异常。

2.5 黑IP库

  • 一天内,点击大于等于50次的IP。–50以上ip占比0.47%
  • 一天内,激活大于等于10次的IP。–激活大于10个的仅3个人,可见刷IP点击之多,占比0.054%
  • 一天内,激活app次数/激活设备大于等于2的IP。
  • 一周内,激活5个以上app的ip,且次日留存率均为0。
  • 一周内,激活5个以上app的ip,且7日内,每日使用时长方差小于等于3分钟。

每一个渠道都有一个黑ip库,都需要参与计算。
单天的激活率小于等于某个值使用黑名单库。
单天的激活率大于等于某个值出黑名单库。
单渠道的黑IP,在该渠道未来的点击和激活均标记为异常。

五、写在最后

反作弊需要大量的数据和技术支撑,才能够更加精准的识别出作弊流量,广告作弊对于整个行业来说是长期有害的,所有广告行业的从业者都应该严厉打击广告作弊的行为,保护行业的正常发展。

本文内容非原创,以下为部分内容来源,系统化整理后发布:

[1]摘自《浅析互联网广告虚假流量的常见类型及产生原因》

[2]摘自《广告公司内部流出版:互联网广告作弊的十八般武艺》

[3]摘自《如何用机器学习做广告反作弊(一)》

 

作者:幻想伏特伽,商业化 、计算广告产品经理。