サイトに来る検索ロボットを「robots.txt」制御しよう

 

検索ロボットとは

検索サイトには人が良質なサイトを登録していくタイプとコンピュータに巡回させるタイプがあります。
コンピュータに巡回させるプログラムを一般的に「検索ロボット」と言います。
あなたのサイトが知らず知らずのうちに検索サイトに登録されている場合検索ロボットが
あなたのサイトを訪問(クロール)したということです。

 

robots.txt

「robot.txt」や「robots.txt」として使われていますが(一般には「robots.txt」が使われています)これらは
自分のサイトにくるロボットのクロールを制御するものです。

自分のサイトに検索登録されたくないプライベートなページやキャッシュされたくない部分が
あるならば「robots.txt」を設置しておきましょう。
METAタグでも制御できますが、観覧するユーザーに対して関係のないタグを渡すのは気が引けるので
私はrobots.txtを使用しています。

 

robots.txtの条件

robots.txtはサイトのトップに設置しないと意味がありません。
検索ロボットは始めにサイトのトップに「robots.txt」が存在しているかどうかを確認します。

正 http://xxx.net/robots.txt
誤 http://xxx.zzz/~hoge/robots.txt

レンタルサーバなどで設置が不可能な方はMETAタグでの使用をおすすめします。

 

robots.txtを書いてみよう

以下は釣堀.netが使用している内容です。

User-agent: *
Disallow: /sup/
Disallow: /bbs/

User-agentは検索ロボットの名前、正規表現によって「*」は全てを意味します。
つまり「全ての検索ロボットは/sup/と/bbs/のクロールや、キャッシュ登録を禁止します」という意味です。

プライベートなBBSを設置している場合は書いておきましょう。

 

特定の検索ロボットのみ禁止する

Googleのロボットのみ/cgi-bin/フォルダのクロール、キャッシュ登録を禁止する。

User-agent: Googlebot
Disallow: /cgi-bin/

ロボット単体ほ規制する必要がある、という状況ななかなかないと思いますが。
あるロボットから大量のアクセスを時間おかずに行われた場合は規制を検討するのも良いでしょう。

 

設置場所

一番上のwebフォルダに設置してください。アクセス権限はとりあえず
観覧できれば良いので、通常の「644」あたりにします。

また「Google sitemap」などでrobots.txtの動きがわかるので登録して見るのも良いでしょう。

 

このカテゴリのその他の記事