robots.txtについてご存知でしょうか?もし誤った使い方をしていると、評価してほしいWebサイトがクロールされず、SEOにおいて致命的な問題となる場合があります。
今回はrobots.txtの意味と正しい書き方や設置場所について説明致します。この記事を読んで、robots.txtを設置・編集できるようになりましょう。
robots.txt(ロボッツドットテキスト)って何?
robots.txtとは、クローラーに対して、指定したページやディレクトリへのアクセスを制御するためのテキストファイルです。
robots.txtはクローラーがサイトに訪れた際まず最初に見るファイルになるため、重要な記述をすることが多いです。
用途としては、大きく分けて2つありますので、それぞれについて見ていきましょう。
使い方1:指定したページやディレクトリをクロールさせない
簡単に言えば、クロールのブロックです。
クロールされることで低評価に繋がる可能性がある場合は、この使い方をしたほうが良いでしょう。具体的な例で言えば、「作成途中でまだ不備が残っているページ」などが挙げられます。
使い方2:sitemap.xmlの場所を教えてクロールを促進する
sitemap.xmlの場所をクローラーに知らせることで、効率よくサイト内を巡回出来るようになります。
先ほど申した通り、robots.txtはクローラーがまず最初に訪れるファイルであるため、クローラビリティを向上させるsitemap.xmlの位置は必ず設置&記述するようにしましょう。
用法をまとめると、余計なページがクロールされることを防止し、サイト内のクロールの効率を上げることです。
同ドメインに対してクローラーが訪問するページ数には限りがあります。その中でより重要なページを多く訪問して評価してもらうことで、より上位の表示をねらうことがrobots.txtの目的です。
使用の際の注意点
次は、robots.txtを使用する際の注意点についてご説明します。誤った使い方をしてしまうと、低評価の原因になりかねません。robots.txtについてしっかりと理解しておきましょう。
注意点は大きく分けて5点ありますので、それぞれについて見ていきます。
注意点1:ユーザーのアクセスは制御できない
robots.txtはクローラーのアクセスは制御できますが、ユーザーからのアクセスは制御できません。ユーザーに見られたくないページがある場合は、非公開の設定やパスワードを付けるなどの対策を行いましょう。
注意点2:制御できないクローラーもある
クローラーの中にはrobots.txtの命令を無視してブロックしているページをクロールするものも存在します。そのようなクローラーのアクセスを確実にブロックしたい場合は、.htaccessなど別の方法でブロックを行いましょう。
注意点3:インデックスを削除するわけではない
robots.txtでクロールをブロックしても、インデックスは残りつづけます。インデックスを削除したい場合は、ページの削除やnoindexでの対応が必要です。
また、「現状インデックスされていないページであれば、robots.txtを使ってインデックスを防げる」と考える人もいるようですが、結論から言えば、インデックスを防ぐことはできません。該当ページへのリンクがある場合、インデックスされる可能性があることをGoogleが公表しています。
参照元:Google Search Console ヘルプ
注意点4:ファイル名は「robots.txt」
よくある間違いですが、「robot.txt」ではなく「robots.txt」が正しいファイル名です。
同様に、「Robots.txt」となっている場合も正しく動作しなくなります。ファイルをアップロードする際には、1度ファイル名を確認することをお勧めします。
注意点5:重複コンテンツの正規化には利用しない
コンテンツが重複するページが存在する場合、「片方のページをrobots.txtでブロックすれば正規化できる」と考える人もいますが、これでは正規化は出来ていません。canonicalの設置や301リダイレクト、もしくは文章のリライトなどを行い、正しい方法で正規化を行いましょう。
robots.txtの書き方と設定方法
次にrobots.txtの書き方や設定方法についてご紹介します。robots.txtは特別なツールは必要ありません。パソコンにデフォルトで入っているメモ帳などの機能でも作成することができます。
記載内容は大きく分けて4つあります。
記載内容1:User-agent
記載:必須
制御したいクローラーの名称を記入する箇所です。「*」(アスタリスク)と記入すれば全てのクローラーを指定することができます。指定したいクローラーの名称が不明な場合は、ネットで検索してみたり、アクセスログで確認したりしましょう。
▼書き方 一例
User-agent : * ※全てのクローラーが対象
User-agent : Googlebot ※Googlebotのみ対象
記載内容2:Disallow
記載:必須でありません
クロールをブロックしたいディレクトリやページを記入する箇所です。
▼書き方 一例
Disallow : / ※ 「/」はサイト内全てが対象
Disallow : ※ブロックなし
Disallow : /directory-1/page-1.html ※ページ(/directory-1/page-1.html)のみブロック
Disallow : /directory-2/ ※ディレクトリ(/directory-2/)内全てのページをブロック
記載内容3:Allow
記載:必須でありません
クロールを許可するディレクトリやページを記入する箇所ですが、Disallowでブロックしていない場所はクロールされるため、基本的は記載していなくても問題ありません。
Allow を使用するのは、Disallowでブロック中のディレクトリ内の一部のページだけクロールさせたい等の場合です。
▼書き方 一例
Allow : /directory-2/page-1.html ※ページ(/directory-2/page-1.html)のみクロールを許可
記載内容4:Sitemap
記載:必須でありません
sitemap.xmlのURLを絶対パスで記入する箇所です。sitemap.xmlが複数ある場合は複数記入可能です。
▼書き方 一例
Sitemap : http://blog.final-seo.jp/sitemap.xml
robots.txtの設置場所について
robots.txtを設置する場所は、サイトのルートディレクトリ(トップフォルダ)です。
注意点の項目で1度紹介しましたが、ファイル名が「robots.txt」であることを再度確認してからアップロードすると安心でしょう。
どのサイトもドメインの後ろにrobots.txtと入力すると、robots.txtにアクセスすることができます。もし自分のサイトでアクセスできない場合は、ファイル名や設置場所が間違えていないかどうか、確認すると良いでしょう。
まとめ
robots.txtは簡単に作成することができますが、誤った使い方をした場合、与える影響も大きくなります。書き方だけではなく、意味や正しい使い方を覚えたうえで、サイトのクロールを最適化するrobots.txtを作成しましよう。
関連記事
筆者紹介
片山_03.png)
株式会社doubLe ソリューション事業部 SEO部門 部門長
2017年4月新卒として株式会社doubLeに入社。
WEBデザイン、リスティング広告運用、SEO内部対策と幅広い分野の業務を経験し、2019年6月SEO部門の部門長に就任。
ファイナルSEOブログの運用を担当し、「効果の出るSEO対策」を追及している。ソリューション事業部の元気印として日々奮闘中。