机器人流量是指网站的非人类流量。 虽然某些机器人流量有益,但过多的机器人流量破坏性很强。
阅读本文后,您将能够:
复制文章链接
机器人流量是指网站或应用程序的非人类流量。机器人流量这个词语通常含有贬义,但实际上机器人流量不一定有益或有害,这主要取决于机器人所要实现的目的。
有些机器人对搜索引擎和数字助手(如 Siri、Alexa)等实用服务而言,必不可少。多数公司欢迎这类机器人访问其网站。
例如用于凭证填充、数据抓取,以及发动 DDoS 攻击等目的的其他机器人,则可能是恶意机器人。即使是某些较为良性的“恶意”机器人,如未经授权的 Web 爬网程序,也会造成损害,因为这些机器人会对站点分析造成妨碍,并产生点击欺诈。
据信,全部 Internet 流量中,超过 40% 以上是由机器人流量组成,其中很大一部分为恶意机器人流量。这也是许多组织开始寻求方法管理进入其站点的机器人流量的原因。
Web 工程师可直接查看指向其站点的网络请求,并辨别是否为机器人流量。Google Analytics 或 Heap 等集成式 Web 分析工具也可助力机器人流量检测。
以下分析异常标志着网络流量为机器人流量:
如上所述,未经授权的机器人流量会影响分析度量指标,如页面访问量、跳出率、会话持续时间、用户定位以及转换次数。度量指标偏差会给站点所有者带来许多不利影响;对于充斥着机器人活动的站点,很难衡量其性能。尝试通过 A/B 测试以及优化转换率来改善站点性能,也会因机器人造成的统计噪声而受阻。
Google Analytics 提供“排除来自已知机器人和蜘蛛程序的点击”(exclude all hits from known bots and spiders)(蜘蛛程序是指爬取网页的搜索引擎机器人)选项。如能识别机器人流量源,用户也可提供具体 IP 列表,Google Analytics 即会将其忽略。
虽然采取这些措施会阻止某些机器人妨碍分析,但无法阻止所有机器人。此外,大部分恶意机器人目的不只是为了扰乱流量分析,而这些措施除了保存分析数据之外,在进行有害机器人活动防护方面别无他法。
攻击者发动 DDoS 攻击最常用的方式就是发送大量机器人流量。某些类型的 DDoS 攻击活动期间,有大量攻击流量指向网站,以致源服务器负担过重,站点运行变慢或者合法用户根本无法访问。
受恶意机器人流量影响,一些网站即使性能未受影响,也可能蒙受经济损失。依赖于广告推广的站点和销售有限库存商品的站点特别容易遭到攻击。
对于广告服务站点而言,机器人登录站点并点击页面的各种元素,可能触发虚假的广告点击,这就是点击欺诈。虽然这种情况最初可以创造广告营收,但在线广告网络平台在检测机器人点击方面尤为擅长。如果怀疑某一网站正在实施点击欺诈,它们会采取措施,通常是禁止该站点或该站点的所有者访问它们的网络平台。因此,广告服务站点的所有者需时刻留意机器人点击欺诈。
库存有限的站点会成为库存囤积机器人的攻击目标。正如其名,这些机器人会定位到电子商务站点,将大量商品加入其购物车,使得合法购物者无商品可购。在某些情况下,这种操作还会致使供应商或者生产商无谓地重新补充库存。库存囤积机器人从不作出购买行为;它们的设计目的仅仅是为了阻碍库存的可用性。
阻止或者管理网站机器人流量,第一步是要纳入 robots.txt 文件。这种文件为机器人提供页面爬取说明,可配置为完全防止机器人访问页面或与网页交互。但应注意,只有善意机器人会遵守 robots.txt 文件中的规则;该文件无法防止恶意机器人爬取网站。
有多种工具可用来协助防御机器人流量滥用。速率限制解决方案能够检测并防止源自单一 IP 地址的机器人流量,但这仍会忽视大量恶意机器人流量。除了速率限制以外,网络工程师可以查看站点的流量并识别可疑网络请求,从而提供 IP 地址列表以便 WAF 等过滤工具加以阻止。这一过程会耗费大量人力,而且只能阻止部分恶意机器人流量。
除速率限制和工程师直接干预外,阻止恶意机器人流量最简单有效的方法就是采用机器人管理解决方案。机器人管理解决方案可以善用智能特性,且能够利用行为分析在恶意机器人访问网站之前对机器人加以阻止。例如,Cloudflare机器人管理利用来自数百万个互联网资产的情报数据,运用机器学习功能主动识别并阻止机器人泛滥这一状况。Super Bot Fight 模式(Pro 和 Business 服务方案可用)为小型组织提供对机器人流量的相似可见性和控制功能。