目次
Webクローラーとは
Webクローラー(Web crawler)とは、インターネット上のWebページを自動的に巡回し、情報を収集するプログラムのことです。「ボット」「スパイダー」とも呼ばれ、GoogleのクローラーはGooglebotという名称で知られています。
検索エンジンは、クローラーが収集した情報をもとにページをインデックス(データベースに登録)し、検索結果の表示順位を決定しています。つまり、クローラーにページを正しく認識してもらえなければ、検索結果に表示されることはありません。
SEO対策の観点では、「クローラーが効率よくサイトを巡回できる状態を作ること」がテクニカルSEOの基本になります。
クローラーの仕組み
巡回の流れ
| ステップ | 内容 | SEO上の注意点 |
|---|---|---|
| 1. URLの発見 | サイトマップ・内部リンク・外部リンクからURLを発見する | XMLサイトマップの送信と内部リンクの整備が重要 |
| 2. クロール | 発見したURLにアクセスし、HTMLの内容を取得する | ページの表示速度が遅いとクロール効率が低下する |
| 3. レンダリング | JavaScriptを実行し、最終的なページ内容を把握する | JS依存の表示はレンダリングが遅れる場合がある |
| 4. インデックス | 取得した内容をGoogleのデータベースに登録する | noindexやcanonicalの設定ミスでインデックスされないケースがある |
クロールバジェットとは
クロールバジェットとは、Googleが一定期間内にサイト内で巡回するページ数の上限の目安です。大規模サイト(数万ページ以上)ではクロールバジェットの管理が重要ですが、中小規模サイト(数百〜数千ページ)では通常問題になりません。
ただし、以下のような状態はクロール効率を下げるため、サイト規模に関わらず注意が必要です。
- 大量の低品質ページや重複ページが存在する
- パラメータ付きURLが無制限に生成されている
- リダイレクトが複数回連鎖している(リダイレクトチェーン)
- サーバーレスポンスが遅い
クローラビリティを改善する方法
1. XMLサイトマップを作成・送信する
XMLサイトマップは、サイト内の重要なページをクローラーに伝えるためのファイルです。WordPressの場合、Yoast SEOやRank Mathなどのプラグインで自動生成できます。
- インデックスさせたいページのみを含める
- noindexに設定しているページは除外する
- Search Consoleからサイトマップを送信する
- サイトマップのエラーがないか定期的に確認する
2. 内部リンク構造を整理する
クローラーはリンクをたどってページを発見します。重要なページへの内部リンクが少ないと、クローラーに発見されにくくなります。
- トップページから3クリック以内で全ページに到達できる構造が理想
- パンくずリストを設置し、サイトの階層構造を明示する
- 関連記事への内部リンクを記事本文中に設置する
- 孤立ページ(どこからもリンクされていないページ)を作らない
3. robots.txtを適切に設定する
robots.txtは、クローラーに対して「このページは巡回しないでください」と指示するファイルです。管理画面やテスト環境など、インデックスする必要のないURLをブロックします。
| 設定例 | 意味 |
|---|---|
| Disallow: /admin/ | 管理画面へのクロールを禁止 |
| Disallow: /wp-admin/ | WordPress管理画面へのクロールを禁止 |
| Disallow: /*?* | パラメータ付きURLへのクロールを禁止 |
| Allow: / | すべてのページへのクロールを許可 |
| Sitemap: https://example.com/sitemap.xml | サイトマップの場所をクローラーに通知 |
4. ページの表示速度を改善する
サーバーレスポンスが遅いと、クローラーが一度に取得できるページ数が減少します。表示速度の改善はクローラビリティとユーザー体験の両方に効果があります。
- 画像の最適化(WebP形式への変換・遅延読み込み)
- 不要なプラグインの削除(WordPress)
- キャッシュの活用
- サーバーのスペック見直し
5. 重複コンテンツを解消する
同じ内容のページが複数のURLで存在すると、クローラーが無駄にリソースを消費します。canonical(正規URL)タグを設定し、検索エンジンに優先するURLを指示しましょう。
クローラビリティの確認方法
- Search Console「インデックス作成」レポート:クロール済み・インデックス済みのページ数を確認
- Search Console「URL検査」ツール:個別ページのインデックス状態を確認
- Search Console「クロールの統計情報」:クロール頻度やレスポンスタイムを確認(サイト設定から閲覧可能)
- robots.txtテスター:robots.txtの設定が意図通りか検証
まとめ
Webクローラーに正しくサイトを認識してもらうことは、SEO対策の土台です。XMLサイトマップの送信・内部リンクの整備・robots.txtの設定・表示速度の改善を実施し、クローラビリティを高めましょう。Search Consoleで定期的にインデックス状態を確認し、問題があれば速やかに対処することが重要です。


