robots.txtとmetaタグでクローラーを拒否して検索エンジンにページを表示させない設定
ホームページ制作会社では、クライアント様にサイトなどの制作物を確認してもらう際、サーバー上にテストアップして、URLを送信する方法を行っています。
この場合、テストアップしたドメインの下層に「index_test.html」といったページや、「test」といったディレクトリが生成され、新たなコンテンツとして検索エンジンにみなされてしまいます。
すると、既存コンテンツとテストアップが重複する内容となってしまい、「低品質コンテンツ」としてSEO評価を大きく下げてしまう恐れがあります。
そこで、テストアップページやディレクトリは、Googleなどのクローラーを拒否設定にして、検索エンジンにインデックスさせないようにする必要があります。
目次
robots.txtを使ってクローラーを拒否する
一番簡単な方法として「robots.txt」を使う方法があります。検索エンジンロボットに対する命令をテキストデータに記述、さらに対象になるディレクトリやページも、robots.txtというテキストデータ1つで指定できます。
全てのクローラーを拒否する。
User-agent: *
Disallow: /
逆に全てのクローラーを許可する。
User-agent: *
Disallow:
ディレクトリやページを指定して拒否する。
User-agent: *
Disallow: /test/
Disallow: /test/aaaa/
Disallow: /test/aaaa/sample_test.html
robots.txtは、ドメインのルートディレクトリ(トップディレクトリ)に設置します。
metaタグで1ページずつ設定する
HTMLの「metaタグ」でクローリングを制御できます。
<meta name="robots" content="noindex,nofollow">
headタグ内に上記を設置。「noindex」で検索エンジンにインデックスさせない、「nofollow」でこのページのリンクはたどらないという指定になります。
数ページ程度であればmetaタグでもいいかもしれませんが、頻繁にテストアップを行うようであればrobots.txtの方が効率はいいでしょう。