「robots.txt」の落とし穴

 

検索ロボット制御はクロールしなくても人間はクロールする

例えば、robots.txtにこのように記入したとしましょう。

User-agent: *
Disallow: /bbs/admin/
Disallow: /bbs/private/

一見問題ないように見えます。検索ロボットは/bbs/admin/も/bbs/provate/にもアクセスしません。
しかし、人間はどうでしょうか。人はずかずかとこれらのフォルダにアクセスしてきます。

例えば貴方が/bbs/private/といった階層に仲間内のBBSを設置して、プライベートな会話をしていたと
します。もちろん検索には登録されたくないし、キャッシュも見られたくないのでrobots.txtを設置します。

しかし悪意あるユーザがURLを手入力してrobots.txtを見た場合はどうでしょう。
プライベートBBSのあるフォルダが堂々とそこに記載されています。そのフォルダ位置まで再度手入力を
行えばプライベートBBSまでたどり着くこととなります。



これらの対応策としては

User-agent: *
Disallow: /bbs/

のように一つしたの階層から禁止すること。/bbs/フォルダに他の公開掲示板が設置されているなら
プライベートBBSの階層を一つ増やすなどの対策をとるひつようがあります。

 

検索ロボットが「robots.txt」に従うとは限らない

「robots.txt」はあくまで紳士協定であり、「robots.txtに制御されないといけない」という
規約も法律もありません。なので有名でない検索ロボットや、作りたての検索ロボットは
もしかしたらrobots.txtを見ずに作業しているかもしれません。

robots.txtは絶対的なものではないということを考えておいてください。

またプライベートな場所ではパスワードなどをきちんと設置しておきましょう。

 

このカテゴリのその他の記事