3
章节3
什么是网络爬虫?
为了让你的网站出现在搜索结果中,Google(以及其他搜索引擎,如 Bing、Yandex、Baidu、Naver、Yahoo 或 DuckDuckGo)使用网络爬虫来浏览网站,以发现网站及其网页。
不同的搜索引擎在每个国家都有不同的市场份额。
在本指南中,我们将重点介绍 Google,它是大多数国家最大的搜索引擎。尽管如此,你可能还需要查看其他搜索引擎及其指南,特别是如果你的目标客户在中国、俄罗斯、日本或韩国。
虽然在排名和渲染方面存在一些差异,但大多数搜索引擎在爬取和索引方面的工作方式非常相似。
网络爬虫是一种机器人,它模拟用户并导航通过网站上找到的链接来索引页面。网络爬虫使用自定义的用户代理来标识自己。Google有多个网络爬虫,但最常用的是 Googlebot Desktop 和 Googlebot Smartphone。
Googlebot 如何工作?

该过程的一般概述如下:
- 查找网址:Google 从许多地方获取网址,包括Google Search Console、网站之间的链接或XML 网站地图。
- 添加到抓取队列:这些网址被添加到抓取队列中,供 Googlebot 处理。抓取队列中的网址通常只停留几秒钟,但根据具体情况可能长达几天,特别是如果页面需要渲染、索引,或者如果网址已经索引,则需要刷新。然后页面将进入渲染队列。
- HTTP 请求:爬虫发出 HTTP 请求以获取头部信息,并根据返回的状态码采取行动。
- 200:它抓取并解析 HTML。
- 30X:它遵循重定向。
- 40X:它记录错误且不加载 HTML。
- 50X:它可能会稍后回来检查状态码是否已更改。
 
- 渲染队列:搜索系统的不同服务和组件处理 HTML 并解析内容。如果页面包含基于 JavaScript 客户端的内容,则网址可能会添加到渲染队列。渲染队列对 Google 来说成本更高,因为它需要使用更多资源来渲染 JavaScript,因此渲染的网址占互联网上总页面数的比例较小。其他一些搜索引擎可能没有 Google 相同的渲染能力,而这正是 Next.js 可以帮助你制定渲染策略的地方。
- 准备索引:如果所有标准都满足,页面可能有资格被索引并在搜索结果中显示。
在接下来的几个部分中,我们将深入探讨搜索系统过程的每个主要组件:抓取和索引,以及渲染和排名。
延伸阅读
这有帮助吗?