什么是内容抓取?|网页抓取

内容抓取或网页抓取是指机器人从网站上下载或"抓取"所有的内容,并通常为了恶意使用该内容。

学习目标

阅读本文后,您将能够:

  • 了解什么是内容抓取
  • 了解网页抓取机器人的工作原理
  • 阐释攻击者为何会抓取内容
  • 了解如何防止内容抓取

相关内容


想要继续学习吗?

订阅 TheNET,这是 Cloudflare 每月对互联网上最流行见解的总结!

参阅 Cloudflare 的隐私政策,了解我们如何收集和处理您的个人数据。

复制文章链接

什么是内容抓取?

内容抓取机器人

内容抓取或网络抓取是指机器人在不考虑网站所有者意愿的情况下在网站上下载大量或全部内容。内容抓取是数据抓取一种形式。它基本上总是由自动机器人执行。网站抓取机器人有时可以在几秒钟内下载网站上的所有内容。

内容抓取机器人通常用于将内容重新用于恶意目的,例如在攻击者拥有的网站上复制用于 SEO 的内容、侵犯版权和窃取自然流量。内容抓取可能涉及填写和提交表单以访问额外的封闭内容,其副作用是导致公司数据库中产生垃圾数据。此外,完成来自机器人的 HTTP 请求会占用服务器资源,而这些资源原本可以专用于人类用户。

机器人如何抓取内容?

网站抓取机器人通常会发送一系列HTTP GET请求,然后复制并保存Web服务器回复的所有信息,并逐步遍历网站的层次结构,直到复制所有内容。

例如,更复杂的抓取机器人可以使用JavaScript来填写网站上的每个表格并下载任何受限内容。 "浏览器自动化"程序和API允许机器人与网站和API进行自动交互,就好像它们在使用传统的网页浏览器,试图诱骗网站的服务器以为是真实人类用户在访问站点内容。

当然,一个人也可以手动复制并粘贴整个网站,但是机器人可以在几秒钟内抓取并下载网站上的所有内容,即使是大型网站(例如具有成百上千个单独产品的电子商务网站)页面也不例外。

内容抓取机器人的目标是哪种内容?

机器人可以抓取在互联网上公开发布的所有内容——文本、图像、HTML 代码、CSS 代码等等。攻击者可以将抓取的数据用于多种目的。文本可以用来复制到另一个网站上重复使用,以窃取原网站的搜索引擎排名或欺骗用户。攻击者可能使用原网站的 HTML 和 CSS 代码来复制伪造一个看似合法的网站外观或其他公司的品牌。网络罪犯可以使用被盗的内容创建网络钓鱼网站,这些网站看起来像另一个网站的真实版本,从而诱骗用户输入个人信息

还有哪些其他类型的网页抓取?

联络信息抓取

这是指扫描网站以获取联系信息,例如电话号码和电子邮件地址,然后下载该信息。电子邮件收集机器人是一种专门针对电子邮件地址的抓取机器人,通常用于查找垃圾信息的新推送目标。

价格抓取

这是指一家公司从竞争对手公司的网站下载所有定价信息,以便他们可以相应地调整自己的定价。

请参阅什么是数据抓取?以了解更多信息。

公司如何防止网页抓取?

机器人管理解决方案可以借助机器学习来识别机器人行为模式并防止机器人抓取活动。速率限制通常还可以帮助防止内容被抓取:真正的用户不太可能在几秒钟或几分钟内请求几百个页面的内容,而任何以这么高的速度迅速提出请求的“用户”都可能是机器人。CAPTCHA 质询也可以帮助从机器人中筛选出真正的用户。

Cloudflare 机器人管理旨在阻止内容抓取攻击,以及缓解其他种类的恶意流量机器人。与速率限制或 CAPTCHA 解决方案不同,基于机器学习的 Cloudflare 机器人管理可以根据行为模式识别机器人,从而为用户减少摩擦并减少误报(用户被误认为是机器人)。小型组织还可通过 Super Bot Fight Mode 阻止内容抓取攻击,并获得对其机器人流量的可见性,该模式现已在 Cloudflare Pro 和 Business 计划中提供。