一个 robots.txt 文件 告诉搜索引擎爬虫你的网站上爬虫可以或不可以请求哪些页面或文件。该 robots.txt
文件是一个大多数 好的机器人 在请求特定域中的任何内容之前都会使用的 Web 标准文件。
你可能希望保护网站的某些区域不被爬取,因此也不被索引,例如你的 CMS 或管理面板、电子商务中的用户帐户或一些 API 路由,仅举几例。
这些文件必须在每个主机的根目录下提供服务,或者你可以将根 /robots.txt
路径重定向到目标 URL,大多数机器人都会遵循此操作。
感谢 静态文件服务 在 Next.js 中,我们可以轻松地添加一个 `robots.txt` 文件。,我们会创建一个名为 `robots.txt` 的新文件,位于根目录下的 public
文件夹中。
你可以放入此文件中的内容示例如下
//robots.txt
# Block all crawlers for /accounts
User-agent: *
Disallow: /accounts
# Allow all crawlers
User-agent: *
Allow: /
当你使用 yarn dev
运行你的应用时,它现在可以在 https://127.0.0.1:3000/robots.txt 中访问。请注意,public
文件夹名称不是 URL 的一部分。
不要将 public 目录重命名为其他名称。名称不可更改,并且是用于提供静态资源的唯一目录。
robots.txt
文件