robots.txtとは
YahooやGoogleなどの検索エンジンはロボット(クローラー)を使ってWebページを巡回し、情報を収集して検索結果に反映させています。
そのロボットのアクセスを制限する為に「robots.txt」が使われます。
例えば特定のページだけをアクセスさせない・させるといった命令文を書き、実行させることができます。
クロールしてもらえるページ数には上限がある様で、あまり重要ではないページへアクセスされ、有用なページへのクロールがされないという状況は好ましくありません。
なので特定のページへのアクセスを省いたり、テスト用に用意しているファイルへのアクセスを拒否して、有用なページへアクセスを促す・・・などの最適化するのに「robots.txt」が使われます。
このようにクロールを最適化し、Webサイトの重要なページへとクローラーを誘導し訪問数を増やすことで、SEO改善に繋がります。
robots.txtの書き方
では実際に書き方を見てみましょう。
ファイルの作成方法ですが、拡張子を確認すると「.txt」となっていますね。メモ帳で作成したファイルと同じ拡張子です。
特に特殊な操作は必要なく、メモ帳で作ったテキストファイルの名前を「robots」としてあげればファイルの用意は終了です。
記述方法について
続いてファイルの中身の記述方法です。
記述する内容は非常に単純です!
「どの検索ロボットが」「どのページに」「アクセスを許可・拒否する」という内容を書き込みます。
例えば「Googleモバイル用のクローラ」を「attend」というフォルダへのアクセスを「拒否」する場合、次のように記述します。
Disallow: /attend/
1行目にある「User-agent」でロボットの種類を指定します。
続いてアクセス拒否を意味する「Disallow」を書きます。続けてアクセスを拒否するページを指定します。
もしも全てのページを対象とする場合は「/」だけを記述します。
アクセスを許可する場合は「Allow」を指定します。ですがこの記述はあまり使われることはありません。
何故なら、robots.txtでアクセスの拒否をしなければ、基本的に検索ロボットは見に来てくれるからです。
許可を出さずとも見に来るので、「Allow」を使う事はほとんどありません。
最初に検索ロボットの指定をしていますが、検索ロボットの種類ってよくわかりませんよね。
また「特定の検索ロボットだけを除きたい」という状況はあまりありませんよね・・・なので必然的に全ての検索ロボットを指定する事になると思います。
そうなったときに全ての検索ロボットを指定する記述を書き出すのは難しく、記述も煩雑になってしまいます・・・
でも他の書き方をすることで簡単に全てのクローラーを指定する事ができます。
「*」を使って指定すれば、全てのクローラーを指定する事ができるんです!
先ほどの記述を下記のようにしてあげれば・・・
Disallow: /attend/
これで全てのクローラーへ「attend」というフォルダへのアクセスを拒否させることができます。
設置箇所について
最後にファイルの設置箇所を紹介します。
作成したbotots.txtをWebサーバーに置いて、検索ロボットに見てもらわなければ意味がありません。
設置場所はルート直下・・・トップページのHTMLなどがある所と同じ階層にアップしてください。
まとめ
・robots.txtで検索ロボットの巡回の許可・拒否ができる
・Disallowで拒否
・Allowで許可
・作成したファイルはルート直下に設置する