广告中的作弊与反作弊

由于广告有很多的相关利益方,会有人制造虚假流量,或者用技术手段骗过广告监测与归因,这些行为统称为广告作弊。作弊的具体手段五花八门,并且随着业务形态的变化和反作弊手段的进步而不断进步。要在面对广告作弊时快速找到思路,需要先搞清作弊者的目的与方式。

一、作弊的方法分类

反作弊要做到知己知彼,必须先搞清是谁在作弊,作弊的目的是什么。由于广告活动是广告主、媒体与用户之间三方交互的行为,因此广告中的作弊行为主要来自3种主体。

  • 媒体作弊。由于大多数广告网络与媒体之间是按照点击的价格来结算的,因此点击作弊是最为常见的,当然也存在为了满足CPM订单量的需求而对展示进行作弊的情形。
  • 广告平台作弊。广告网络或广告交易市场这样的广告平台也有制造虚假点击以获取更多分成的目的。而DSP这样的需求方广告产品,除了混入劣质流量的广告展示、制造虚假点击以外,还会通过一些作弊手段为广告主带来虚假转化,以满足效果考核的要求。
  • 广告主竞争对手作弊。某些广告主的竞争对手会通过技术手段大量消耗该广告主的预算,达到降低其广告效果的非正常竞争目的。

从作弊的原理来看,可以将作弊分成以下两种类型。

  • 虚假流量作弊,也称为NHT (Non-Human Traffic),指的是广告的展示、点击或转化本身就是伪造出来的。CPM/CPC结算的广告中,虚假流量是作弊的主流方法。
  • 归因作弊,则是将其他渠道的流量或者自然流量记在自己名下。一般来说,CPA/CPS 的广告由于伪造转化的成本较高,多采用归因作弊的思路。

从作弊的手段来看,又可以进行以下划分。

  • 机器作弊,即作弊的过程是由机器自动完成的。这种作弊手段比较易于规模化,但是往往容易在统计上留下比较明显的反作弊特征。随着人工智能和深度学习技术的发展,机器作弊有可能在模拟真人的行为方面获得重大突破,这会使反作弊的难度大大增加。
  • 人工作弊,对于CPA/CPS类型的广告,由于转化总量可控,为了追求效果的真实性,真人作弊的方法比较流行。

二、常见的作弊方法

1、服务器刷监测代码

直接在浏览器地址里输入广告监测代码,也就在广告主那里记录了一个曝光,这就是刷量的基本原理。写一个爬虫程序,自动装填各种参数,可以自动发起HTTP请求,刷监测代码。

服务器刷代码的作弊手段,占用了服务器大量带宽不说,虚假流量的涌入也为真实效果的统计提出了严峻的挑战。不过,服务器刷代码的方法还是有漏洞的,只要屏蔽掉各IDC机房的IP地址就可以解决大部分问题。因此,要实现服务器刷代码作弊,还需要弄到大量IP做代理以对抗反作弊。

2、客户端刷监测代码

服务器刷监测代码虽然简单直接,却在IP和cookie等用户身份统计上很难做到自然。于是,就产生了直接在客户端刷监测代码的作弊方法。用户访问了一个网页,网页上的JavaScript又重复访问了好几次监测代码,这样一来,从用户分布上就很难找出什么漏洞了。

不过,这样的作弊也有迹可查,例如,发现某网站广告投放的用户频次大多数都在8/16/24/32这些数字上,基本就可以判断每个用户的浏览都又被刷了7次。要想自动化找出这样的作弊,可以通过对用户频次分布的曲线做傅里叶变换,找出其中的基频来解决。

不论是服务器刷还是客户端刷,在点击位置分布上都会有破绽,上面提到的点击热力图是一个很有用的反作弊工具:正常的用户点击在创意上的位置分布往往呈现与创意关键区域相关的比较自然的分布,而机器产生的用户点击,其分布要么过于均匀,要么过于集中,很容易与自然点击分布相区别。图16-8给出了一个广告创意正常的点击热点分布与作弊的点击热点分布的示例。图16-8左侧是自然点击的热力图,右侧是有作弊行为的点击热力图。可以看出,除了自然点击区域外,还多了一些集中且均匀的点击分布,这些明显不符合正常用户的行为特征,可以认定为作弊行为。

除了cookie、IP级别的统计以及点击热点图这些思路以外,如果广告系统能在JavaScript代码或SDK中收集到更多其他的物理信息,如展示时间、点击时间等,也会对于甄别作弊流量很有帮助。

一般来说,在收集到比较充足的特征以后,可以建立一个反作弊的判断模型,用以过滤作弊行为。这样的模型需要有一个在线的实时计算版本,为在线计费和其他实时反馈模块做过滤;也需要有一个更加精细的离线版本,用于每天处理广告日志,得到最终确认的财务结算数据。由于反作弊特征和模型是广告系统高度保密的模块,在这里我们就不展开讨论其细节了。

3、频繁换用户身份

单一IP或cookie在大量展示或点击的作弊方式是最容易去除的,只需要给一定时间段内的展示或点击设定合理的上限,进而发现那些显著超过上限的IP或cookie并加入黑名单即可。因此,无论采用哪种刷量的手段,一般来说都要比较频繁地变更用户身份,如经常变换IP、cookie 等。

了解了这种作弊方式,对于可以选择流量的DSP来说,有些思路可以起到一定的作用:凡是第一次看到的cookie 或设备号,就干脆不要参与竞价了。

4、「肉鸡」和手机 root

「肉鸡」是指那些被木马感染、可以被黑客远程控制的机器和设备。透过「肉鸡」控制用户后,可以自动发起浏览和点击行为,这样的虚假流量在统计上比较难以分辨。root是指操作系统中超级管理员权限,当拿到root权限后,就可以在后台执行各种访问、点击和下载操作,这些数据也都与真实数据无异。

5、流量劫持

除了制造虚假展示和点击的作弊行为,在广告市场上还存在通过非法手段获得广告展示或点击的准作弊行为,而其中最典型的就是流量劫持。

所谓流量劫持,就是在无权投放广告的地方强行投放,或者改变广告创意甚至落地页的内容。一般来说,只有一些网络底层服务的提供商,如DNS、CDN等,才有能力进行这种劫持。

6、cookie填充

这种方法的英文称为cookie stuffing,而「stuffing」的意思就是「填充]。这是针对CPS联盟广告的一种常见作弊方式。在CPS 联盟的机制下,只要给用户打上标识媒体来源的cookie,如果该用户后面自己去淘宝上产生了购买行为,由于cookie 的存在,这次自然购买结果就变成了媒体带来的效果。

cookie填充在实现方法上,主要有图片+.htaccess 跳转、1×1 iframe和Flash 等,根本原理都是在用户浏览器上静悄悄地对淘宝的推广链接发起HTTP请求,在用户不点击广告的情况下打上站长的cookie。cookie 填充的作弊手段类似于后面要介绍的下载归因,都是将自然结果转变成自己的推广效果,骗取更多的转化付费。

7、IP遮盖

IР遮盖,俗称cloaking,也就是「掩盖」「遮盖」的意思,指的是在广告投放的过程中,屏蔽掉一些IP地址,不对其进行广告展示,相当于是作弊者维护的「黑名单」。一般来说,黑名单上主要是广告市场的监管人员lP,如搜索引擎或者主要广告平台的公司IP。

IР遮盖并不是一种作弊手法,而是一种辅助手段,甚至是目前作弊者都会使用的一种手段:考虑到养一个广告投放账户成本较高,为了在一次投放中收获更多的利益,作弊者想方设法要延长广告的投放时间。如果这个广告出现在搜索引擎上,那么作弊者就会使用IP遮盖,屏蔽掉搜索引擎公司所有的IP地址,导致相关监管人员在处理投诉或举报时,难以快速复现用户所投诉的场景,继而拖延审查流程。当搜索引擎的监管人员通过排查广告创意,确定作弊者违规时,作弊者早已获得了足够的利益。

8、点击滥用与点击注入

点击滥用(click spam)和点击注入(click injection)是移动应用下载广告中较为泛滥的两种作弊手段。

© 版权声明
THE END
喜欢就支持以下吧
点赞0
分享