跳至内容

爬取和索引

什么是 robots.txt 文件?

一个 robots.txt 文件 告诉搜索引擎爬虫你的网站上爬虫可以或不可以请求哪些页面或文件。该 robots.txt 文件是一个大多数 好的机器人 在请求特定域中的任何内容之前都会使用的 Web 标准文件。

你可能希望保护网站的某些区域不被爬取,因此也不被索引,例如你的 CMS 或管理面板、电子商务中的用户帐户或一些 API 路由,仅举几例。

这些文件必须在每个主机的根目录下提供服务,或者你可以将根 /robots.txt 路径重定向到目标 URL,大多数机器人都会遵循此操作。

如何将 robots.txt 文件添加到 Next.js 项目

感谢 静态文件服务 在 Next.js 中,我们可以轻松地添加一个 `robots.txt` 文件。,我们会创建一个名为 `robots.txt` 的新文件,位于根目录下的 public 文件夹中。

你可以放入此文件中的内容示例如下

//robots.txt

# Block all crawlers for /accounts
User-agent: *
Disallow: /accounts

# Allow all crawlers
User-agent: *
Allow: /

当你使用 yarn dev 运行你的应用时,它现在可以在 https://127.0.0.1:3000/robots.txt 中访问。请注意,public 文件夹名称不是 URL 的一部分。

不要将 public 目录重命名为其他名称。名称不可更改,并且是用于提供静态资源的唯一目录。


快速回顾

robots.txt 文件的目的是什么?

进一步阅读