什么是 robots.txt 文件？- 爬取和索引

0 分

爬取和索引

一个 robots.txt 文件告诉搜索引擎爬虫你的网站上爬虫可以或不可以请求哪些页面或文件。该 robots.txt 文件是一个大多数好的机器人在请求特定域中的任何内容之前都会使用的 Web 标准文件。

你可能希望保护网站的某些区域不被爬取，因此也不被索引，例如你的 CMS 或管理面板、电子商务中的用户帐户或一些 API 路由，仅举几例。

这些文件必须在每个主机的根目录下提供服务，或者你可以将根 /robots.txt 路径重定向到目标 URL，大多数机器人都会遵循此操作。

感谢静态文件服务在 Next.js 中，我们可以轻松地添加一个 `robots.txt` 文件。，我们会创建一个名为 `robots.txt` 的新文件，位于根目录下的 public 文件夹中。

你可以放入此文件中的内容示例如下

//robots.txt

# Block all crawlers for /accounts
User-agent: *
Disallow: /accounts

# Allow all crawlers
User-agent: *
Allow: /

当你使用 yarn dev 运行你的应用时，它现在可以在 https://:3000/robots.txt 中访问。请注意，public 文件夹名称不是 URL 的一部分。

不要将 public 目录重命名为其他名称。名称不可更改，并且是用于提供静态资源的唯一目录。

robots.txt 文件的目的是什么？

指示爬虫可以访问和爬取哪些页面/文件为爬虫提供要爬取的 URL 列表添加关于爬取的注释以上所有

你也可以在 GitHub 讨论.