プログラミング言語や環境設定を中心としたパソコン関連の技術メモです。
主にシステム開発中に調べたことをメモしています。TIPS的な位置付けで、気が向いたときにちまちま更新していきます。
robots.txtの書き方
Web系の作業をするときは「tail -f」でerror_logを流しているのですが、ちょくちょく

へーい。robots.txtが見つからなかったぜー

なエラーが混ざってしまってですね。

仕方ないのでrobots.txtを置くことにしたのですが、
どーせだったらちゃんと書き方覚えておくか、と思ったのが今回のきっかけです。

と言う訳でrobots.txtに関するあれこれφ(--)

■ファイル名
robots.txt

■置き場所
公開ディレクトリの中で一番上。URL的には「/」直下ですね。

■書き方
基本的な書き方としては

1.どのクローラ(ユーザエージェント)に
2.許可するのか許可しないのか
3.どのファイルを

ってのを指定します。

1.どのクローラ(ユーザエージェント)に
 「User-Agent: *」って書けば全部のクローラです。
 それ以外は「User-Agent: 【特定のクローラ】」で指定します。

2.許可するのか許可しないのか
 「Disallow(駄目だよ)」「Allow(いーよ)」のどちらかです。
 基本的には「Disallow(駄目だよ)」だけを指定するか、
 「Disallow /(全部駄目だよ)」+「Allow(いーよ)」の組み合わせで指定します。

3.どのファイルを
 ディレクトリとかファイルの指定です。
 「/」を指定すると全部のファイルが対象になります。
 「/hoge/」と指定すると「hoge/」ディレクトリ配下の全ファイルです。
 「/hoge」と指定した場合は「hoge/」ディレクトリ配下の全ファイルと
 「/hoge.html」とか「/hoge」で始まるファイルが対象となります。

robots.txtの書き方の例はこんな感じですかねφ(--)

・全部拒否
User-agent: *
Disallow: /
※全部のクローラを拒否。対象は全ファイル。

・index.htmlだけ見ていーよ
User-agent: *
Disallow: /
Allow: /index.html
※全部のクローラを拒否。対象は全ファイル。index.htmlは許可。

・特定のクローラだけ拒否
User-agent: bot01
Disallow: /

User-agent: bot02
Disallow: /
※「bot01」を拒否。対象は全ファイル。「bot02」を拒否。対象は全ファイル。

あっ、そうそう。
こんな感じでsitemap.xmlの場所を指定することもできますφ(--)
User-agent: *
Sitemap: http://wa3.i-3-i.info/sitemap.xml

以上でっす\(--)/
スポンサーリンク
 
このエントリーをはてなブックマークに追加 

category:● その他  thema:パソコンな日々 - genre:コンピュータ  Posted by ササキマコト 

  関連記事