robots.txtとmetaタグでクローラーを拒否して検索エンジンにページを表示させない設定

2024年11月18日

ホームページ制作会社では、クライアント様にサイトなどの制作物を確認してもらう際、サーバー上にテストアップして、URLを送信する方法を行っています。

この場合、テストアップしたドメインの下層に「index_test.html」といったページや、「test」といったディレクトリが生成され、新たなコンテンツとして検索エンジンにみなされてしまいます。

すると、既存コンテンツとテストアップが重複する内容となってしまい、「低品質コンテンツ」としてSEO評価を大きく下げてしまう恐れがあります。

そこで、テストアップページやディレクトリは、Googleなどのクローラーを拒否設定にして、検索エンジンにインデックスさせないようにする必要があります。

robots.txtを使ってクローラーを拒否する

一番簡単な方法として「robots.txt」を使う方法があります。検索エンジンロボットに対する命令をテキストデータに記述、さらに対象になるディレクトリやページも、robots.txtというテキストデータ1つで指定できます。

全てのクローラーを拒否する。

User-agent: *
Disallow: /

逆に全てのクローラーを許可する。

User-agent: *
Disallow:

ディレクトリやページを指定して拒否する。

User-agent: *
Disallow: /test/
Disallow: /test/aaaa/
Disallow: /test/aaaa/sample_test.html

robots.txtは、ドメインのルートディレクトリ（トップディレクトリ）に設置します。

HTMLの「metaタグ」でクローリングを制御できます。

<meta name="robots" content="noindex,nofollow">

headタグ内に上記を設置。「noindex」で検索エンジンにインデックスさせない、「nofollow」でこのページのリンクはたどらないという指定になります。

数ページ程度であればmetaタグでもいいかもしれませんが、頻繁にテストアップを行うようであればrobots.txtの方が効率はいいでしょう。