wordpress 站点利用 robots.txt 进行优化

前言

有没有想过,如果某个子目录或者页面不希望搜索引擎收录,那怎么办?

如果我们可以和搜索引擎达成一个约定,约定某些页面不被收录,这就是 robots 协议。

robots 协议(也称为爬虫协议、机器人协议等)的全称是『网络爬虫排除标准』(Robots Exclusion Protocol),网站通过 robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

原则

robots.txt 文件是一个简单的 txt 文件,但是要注意以下几点:

  1. 必须命名为 「robots.txt」,全部为小写。
  2. 必须放在网站根目录下,以雨人博客来说,robots.txt 的地址应该是 http://rainman.me/robots.txt
  3. 一般情况下,robots.txt 里只写着两个函数:User-agent 和 Disallow。
  4. 如果都允许收录,则写: 「Disallow:」,如果都不允许收录,则写:「Disallow: /」。
  5. 当搜索蜘蛛发现不存在 robots.txt 文件时,会产生一个 404 错误日志在服务器上,从而增加服务器的负担,所以如果你的站点对所有搜索引擎公开,则建立 robots.txt 为空即可。

示例

以下是雨人博客的 robots.txt

  1. Sitemap: http://rainman.me/sitemap.xml
  2. Sitemap: http://rainman.me/sitemap-news.xml
  3. User-agent: *
  4. Disallow: /wp-admin/
  5. Disallow: /wp-content/
  6. Disallow: /wp-includes/
  7. Disallow: /*/comment-page-*
  8. Disallow: /*?replytocom=*
  9. Disallow: /category/*/page/
  10. Disallow: /tag/*/page/
  11. Disallow: /*/trackback
  12. Disallow: /feed
  13. Disallow: /*/feed
  14. Disallow: /comments/feed
  15. Disallow: /?s=*
  16. Disallow: /*/?s=*\
  17. Disallow: /attachment/

如果和雨人博客是同主题的 wordpress,那么直接在根目录下新建 robots.txt 文件,然后复制。

详解

下面将详细解释 robots.txt 中每一句话的作用。

Sitemap

指定网站站点地图的地址。

User-agent

如果针对所有蜘蛛,那么就是「User-agent: *」。

如果只是针对指定蜘蛛的约定,则在 User-agent 后跟蜘蛛名称,其中主流搜索引擎的蜘蛛名称如下表。

搜索引擎蜘蛛名称
百度:baidu.comBaiduSpider
有道:yodao.comYodaoBot
Alexa:alexa.comia_archiver
google:google.comGoogleBot
搜搜:soso.comSosoSpider
雅虎:yahoo.comyahoo!+sluerp
必应:bing.comMSNBOT
搜狗:sogou.comsogou+web+spider

Disallow

禁止访问。

如果设置「Disallow: /」将禁止所有页面的抓取。

如淘宝网就禁止了百度 spider 的抓取。

wordpress 站点利用 robots.txt 进行优化

文件下载

zyq

如果我的文章对您有帮助,请我喝杯咖啡吧~

支付宝转账打赏⬆️

微信钱包转账打赏⬆️

目前评论:1   其中:访客  1   博主  0

  1. 韩国时尚购物起义 0

    没有监督的时候也要严格要求自己。

评论加载中...

发表评论

:?::razz::sad::evil::!::smile::oops::grin::eek::shock::???::cool::lol::mad::twisted::roll::wink::idea::arrow::neutral::cry::mrgreen: