章节3

什么是网络爬虫？

为了让你的网站出现在搜索结果中，Google（以及其他搜索引擎，如 Bing、Yandex、Baidu、Naver、Yahoo 或 DuckDuckGo）使用网络爬虫来浏览网站，以发现网站及其网页。

不同的搜索引擎在每个国家都有不同的市场份额。

在本指南中，我们将重点介绍 Google，它是大多数国家最大的搜索引擎。尽管如此，你可能还需要查看其他搜索引擎及其指南，特别是如果你的目标客户在中国、俄罗斯、日本或韩国。

虽然在排名和渲染方面存在一些差异，但大多数搜索引擎在爬取和索引方面的工作方式非常相似。

网络爬虫是一种机器人，它模拟用户并导航通过网站上找到的链接来索引页面。网络爬虫使用自定义的用户代理来标识自己。Google有多个网络爬虫，但最常用的是 Googlebot Desktop 和 Googlebot Smartphone。

该过程的一般概述如下：

查找网址：Google 从许多地方获取网址，包括Google Search Console、网站之间的链接或XML 网站地图。
添加到抓取队列：这些网址被添加到抓取队列中，供 Googlebot 处理。抓取队列中的网址通常只停留几秒钟，但根据具体情况可能长达几天，特别是如果页面需要渲染、索引，或者如果网址已经索引，则需要刷新。然后页面将进入渲染队列。
HTTP 请求：爬虫发出 HTTP 请求以获取头部信息，并根据返回的状态码采取行动。
- 200：它抓取并解析 HTML。
- 30X：它遵循重定向。
- 40X：它记录错误且不加载 HTML。
- 50X：它可能会稍后回来检查状态码是否已更改。
渲染队列：搜索系统的不同服务和组件处理 HTML 并解析内容。如果页面包含基于 JavaScript 客户端的内容，则网址可能会添加到渲染队列。渲染队列对 Google 来说成本更高，因为它需要使用更多资源来渲染 JavaScript，因此渲染的网址占互联网上总页面数的比例较小。其他一些搜索引擎可能没有 Google 相同的渲染能力，而这正是 Next.js 可以帮助你制定渲染策略的地方。
准备索引：如果所有标准都满足，页面可能有资格被索引并在搜索结果中显示。

在接下来的几个部分中，我们将深入探讨搜索系统过程的每个主要组件：抓取和索引，以及渲染和排名。

您已完成本章3