这不仅是需要管理不良的机器人。机器人管理策略需要避免在阻止不良机器人的同时阻止良性机器人。
阅读本文后,您将能够:
复制文章链接
机器人是一种计算机程序,可以自动通过互联网与网络媒体资源进行交互。害用户互联网体验的那些机器人。“良性”的机器人是指执行有用或有帮助的任务且不会损由于良性的机器人可以与恶意机器人具备相似的特征,因此现有的挑战是确保在制定机器人管理策略时不会阻止阻挡良性的机器人。
现有的很多良性机器人,各自都是为不同的任务而设计的。以下是一些示例:
Web属性需要确保它们在试图过滤出恶意机器人流量时不会阻止良性机器人。尤其重要的是,不要阻止搜索引擎网络爬虫程序的机器人,因为如果没有它们,网站将无法显示在搜索结果中。
恶意机器人可以窃取数据,闯入用户帐户,通过在线表单提交垃圾数据以及执行其他恶意活动。恶意机器人的类型包括凭证填充机器人、内容抓取机器人、垃圾邮件机器人和点击欺诈机器人。
良性机器人管理始于在网站的 robots.txt 文件中正确设置规则。robots.txt 文件是驻留在网络服务器上的文本文件,它为所有访问主机网站或应用程序的机器人指定规则。这些规则定义了机器人可以爬网和不能爬网的页面,它们应该和不应该遵循的链接以及其他对机器人行为要求。
良性机器人将遵循这些规则。例如,如果网站所有者不希望其网站上的某个页面显示在Google搜索结果中,则可以在robots.txt文件中编写规则,而谷歌网络抓取程序机器人不会将该页面编入索引。尽管robots.txt文件实际上不能强制执行这些规则,但是良性机器人已被编程为在执行其他任何操作之前先查找文件并遵循规则。
但是,恶意机器人通常会忽略robots.txt文件,或者会阅读该文件以了解网站试图阻止机器人进入哪些内容,然后访问该内容。因此,管理机器人需要采取比在robots.txt文件列出机器人行为的规则更积极的方式。
允许列表可以视为活动的来宾列表。如果不在嘉宾名单上的某人试图进入活动场地,安全人员将阻止他们进入。名单上的任何人都可以自由参加活动。这样的方法是必要的,因为不请自来的客人可能会表现不佳并破坏其他人的聚会。
对于机器人管理,这基本上就是白名单的工作方式。允许列表是允许访问 Web 资产的机器人列表。通常,这通过“用户代理”、机器人的 IP 地址或两者的组合来工作。用户代理是一串文本,用于向 Web 服务器标识用户(或机器人)的类型。
通过确保列表允许良性机器人用户代理(例如属于搜索引擎的机器人)并阻止不在列表中的所有机器人,网页服务器就可以确保良性机器人的访问。
网页服务器还可以将已知的恶意机器人列入阻止列表。
在网络环境中,阻止列表包含了IP地址、用户代理或其他禁止访问服务器、网络或网页媒体资源的在线身份指示符。这与使用允许列表略有不同:基于阻止列表的机器人管理策略将阻止那些特定的机器人并允许所有其他机器人通过,而允许列表策略仅允许指定的机器人通过并阻止所有其他机器人。
恶意机器人有可能假冒其用户代理字符串,从而至少在最初看起来像一个良性机器人 – 就像小偷可能使用假身份证伪装在来宾名单上并潜入活动场地一样。
因此,良性机器人允许列表必须与其他方法结合起来,以检测欺骗,例如行为分析或机器学习。除了简单地允许已知的良性机器人外,这还有助于主动识别恶意机器人和未知的良性机器人。
机器人管理器产品允许良性机器人访问 Web 资产,同时阻止恶意机器人。Cloudflare 机器人管理使用机器学习和整个网络流量的行为分析来检测恶意机器人,同时自动且持续地将良性机器人列入允许列表。拥有超级机器人抵御模式的小型组织也可以使用类似的功能,现在包含在 Cloudflare Pro 和 Business 服务方案中。