章节6

什么是 robots.txt 文件？

robots.txt 文件告诉搜索引擎爬虫哪些页面或文件可以或不可以从你的网站请求。robots.txt 文件是一个网络标准文件，大多数良好机器人在从特定域请求任何内容之前都会读取它。

你可能希望保护网站的某些区域不被抓取，从而不被索引，例如你的 CMS 或管理后台、电子商务中的用户帐户或某些 API 路由等。这些文件必须部署在每个主机的根目录下，或者你可以将根路径 /robots.txt 重定向到目标 URL，大多数机器人都会遵循。

得益于 Next.js 中的静态文件服务，我们可以轻松添加 robots.txt 文件。我们将在根目录下的 public 文件夹中创建一个名为 robots.txt 的新文件。你可以在此文件中放置的示例内容如下：

//robots.txt
 
# Block all crawlers for /accounts
User-agent: *
Disallow: /accounts
 
# Allow all crawlers
User-agent: *
Allow: /

当你使用 yarn dev 运行应用程序时，它现在将在 https://:3000/robots.txt 可用。请注意，public 文件夹名称不是 URL 的一部分。

请勿将公共目录命名为其他名称。此名称无法更改，并且是唯一用于提供静态资产的目录。

您已完成本章6