相信大家还记得 360 搜索引擎刚出来时,因为不遵循 robots 协议而被百度抓到吊打的事件吧,谁对谁错我们不作评判,今天我们要讨论的是怎么禁止这些不遵循 robots 协议的搜索引擎抓取我们不想让他们抓取的内容。

前不久,WordPress 官方插件目录中新增了一款叫 Blackhole for Bad Bots 的插件,这个插件就是用来收拾这些不守规矩的搜索引擎蜘蛛的。该插件的原理很有意思,在robots.txt 文件中增加一个虚拟的链接,一旦有蜘蛛试图访问,插件就禁止这个蜘蛛访问网站中的其他页面了。守规矩的蜘蛛自然不会去访问这个链接,可以畅通无阻的抓取网站允许搜索引擎收录的页面。

这相当于设了一个巧妙的陷阱,你守规矩,我自然欢迎你,你不守规矩的踏进我布下的陷阱了,呵呵,真不好意思,这里不欢迎你。更棒的是,正常用户看不到这个隐藏链接,遵循 robots 协议的搜索引擎也不受影响。

功能特色

  • 设置简便
  • 代码干净
  • 基于 WordPress API 开发
  • 功能简单专一,不啰嗦
  • 轻量级、高性能、高灵活性
  • 可以很方便地重置屏蔽的蜘蛛列表
  • 可以删除单个被屏蔽的蜘蛛
  • 插件通过设置页面设置,不给后台增加
  • 安静的在后台工作,不会影响正常用户的访问
  • Optionally receive an email c-alert with WHOIS lookup for blocked bots
  • 所有主流搜索引擎已被加入白名单,不会被屏蔽
  • 自定义显示给被屏蔽的搜索引擎的消息
  • 一键重置插件设置

如果你的网站不是基于 WordPress 建设的,没关系,只要你使用的变成语言是 PHP,就可以通过  Blackhole 的独立PHP版实现同样的功能!

白名单

默认情况下,插件不封锁以下任何一个主流的搜索引擎,下面的搜索引擎默认被添加到了插件的白名单中,插件也允许我们在设置中手动添加其他搜索引擎到白名单。

  • AOL.com
  • Baidu
  • Bingbot/MSN
  • DuckDuckGo
  • Googlebot
  • Teoma
  • Yahoo!
  • Yandex

如果你的网站不是基于 WordPress 构建的,也可以使用该插件的 PHP 版本。