跳到内容

3

什么是网络爬虫?

为了让你的网站出现在搜索结果中,Google(以及其他搜索引擎,如 Bing、Yandex、Baidu、Naver、Yahoo 或 DuckDuckGo)使用网络爬虫来浏览网站,以发现网站及其网页。

不同的搜索引擎在每个国家都有不同的市场份额

在本指南中,我们将重点介绍 Google,它是大多数国家最大的搜索引擎。尽管如此,你可能还需要查看其他搜索引擎及其指南,特别是如果你的目标客户在中国俄罗斯日本韩国

虽然在排名和渲染方面存在一些差异,但大多数搜索引擎在爬取和索引方面的工作方式非常相似。

网络爬虫是一种机器人,它模拟用户并导航通过网站上找到的链接来索引页面。网络爬虫使用自定义的用户代理来标识自己。Google有多个网络爬虫,但最常用的是 Googlebot DesktopGooglebot Smartphone

Googlebot 如何工作?

Googlebot Flow Chart
Googlebot 索引网页的旅程

该过程的一般概述如下:

  • 查找网址:Google 从许多地方获取网址,包括Google Search Console、网站之间的链接或XML 网站地图
  • 添加到抓取队列:这些网址被添加到抓取队列中,供 Googlebot 处理。抓取队列中的网址通常只停留几秒钟,但根据具体情况可能长达几天,特别是如果页面需要渲染、索引,或者如果网址已经索引,则需要刷新。然后页面将进入渲染队列
  • HTTP 请求:爬虫发出 HTTP 请求以获取头部信息,并根据返回的状态码采取行动。
    • 200:它抓取并解析 HTML。
    • 30X:它遵循重定向。
    • 40X:它记录错误且不加载 HTML。
    • 50X:它可能会稍后回来检查状态码是否已更改。
  • 渲染队列:搜索系统的不同服务和组件处理 HTML 并解析内容。如果页面包含基于 JavaScript 客户端的内容,则网址可能会添加到渲染队列。渲染队列对 Google 来说成本更高,因为它需要使用更多资源来渲染 JavaScript,因此渲染的网址占互联网上总页面数的比例较小。其他一些搜索引擎可能没有 Google 相同的渲染能力,而这正是 Next.js 可以帮助你制定渲染策略的地方。
  • 准备索引:如果所有标准都满足,页面可能有资格被索引并在搜索结果中显示。

在接下来的几个部分中,我们将深入探讨搜索系统过程的每个主要组件:抓取和索引,以及渲染和排名

延伸阅读

您已完成本章3

下一章

4:抓取与索引