目次
この記事で分かること
- SEOクロールの仕組みとGoogleがページを発見・認識するプロセス
- クロールバジェットの概念と中小規模サイトへの影響
- Googleにページを正しくクロールさせるための具体的な施策
- クロールエラーの確認方法と対処法
- インデックスされない場合の原因と解決策
この記事を読んでほしい人
- SEO対策を始めたが、ページが検索結果に表示されないと悩んでいる方
- Search Consoleのクロールレポートの見方が分からない方
- サイトのページ数が増えてきて、クロールの効率化を考えている方
- テクニカルSEOの基礎を体系的に理解したいWebサイト運営者
SEOにおけるクロールの基本的な仕組み
クロールとは、Googleのロボット(Googlebot)がWeb上のページを巡回し、ページの内容を読み取るプロセスのことです。クロールによって読み取られたページはGoogleのインデックス(データベース)に登録され、検索結果に表示される候補となります。
クロール→インデックス→ランキングの3ステップ
Googleの検索結果にページが表示されるまでには、以下の3つのステップがあります。
- クロール:Googlebotがページを発見し、内容を読み取る
- インデックス:読み取ったページをGoogleのデータベースに登録する
- ランキング:検索クエリに対して適切なページを順位付けして表示する
どれだけ質の高いコンテンツを作成しても、クロールされなければインデックスされず、検索結果には一切表示されません。クロールはSEOの最も基礎的かつ重要なステップです。
Googlebotの動作原理
Googlebotはリンクをたどってページを発見します。具体的には以下のルートでページを見つけます。
- 他のサイトからの被リンク
- サイト内の内部リンク
- XMLサイトマップ
- Search ConsoleでのURL検査(手動でのクロールリクエスト)
Googlebotがページを発見した後、そのページのHTMLを取得し、テキスト、リンク、画像、構造化データなどの情報を読み取ります。読み取った情報はインデックスに送られ、Googleのアルゴリズムによって評価されます。
クロールバジェットとは
クロールバジェットとは、Googlebotが一定期間内にサイトをクロールできるページ数の上限のことです。
クロールバジェットが重要になるサイト
数百ページ程度の小規模サイトでは、クロールバジェットを気にする必要はほとんどありません。Googlebotは小規模サイトのすべてのページを問題なくクロールできます。
クロールバジェットが重要になるのは、以下のようなサイトです。
- ページ数が1万ページを超える大規模サイト
- パラメータURLや重複ページが大量に存在するECサイト
- 動的にページを生成するサイト
クロールバジェットを無駄にしている要因
クロールバジェットを消費する不要なページがサイト内に多いと、重要なページのクロール頻度が下がります。以下の要因がクロールバジェットの浪費につながります。
- 低品質な重複ページ
- パラメータ違いの同一コンテンツページ
- 無限ループを生む動的URL
- ソフト404ページ(HTTPステータスは200だが中身のないページ)
- クロール不要なページにrobots.txtでの制限がかかっていない
Googleにページを正しくクロールさせるための施策
Googlebotが自社サイトのページを効率よく発見・読み取りできるようにするための具体的な施策を解説します。
XMLサイトマップの作成と送信
XMLサイトマップは、サイト内のページ一覧をGooglebotに伝えるためのファイルです。Search Consoleからサイトマップを送信することで、Googlebotがページを発見しやすくなります。
サイトマップ作成時の注意点は以下の通りです。
- インデックスさせたいページのみを記載する(noindexページは含めない)
- 最終更新日(lastmod)を正確に設定する
- URLの数が50,000件を超える場合はサイトマップインデックスを使う
- 新しい記事を公開したらサイトマップを更新する
WordPressを使用している場合は、Yoast SEOやRank Mathなどのプラグインが自動でサイトマップを生成・更新してくれます。
内部リンク構造の最適化
Googlebotはリンクをたどってページを発見するため、サイト内の内部リンク構造がクロール効率に大きく影響します。
重要なページにはトップページや主要カテゴリページから3クリック以内でたどり着ける構造にしましょう。ページの階層が深すぎると、Googlebotがそのページに到達しにくくなります。
内部リンク構造の改善ポイントは以下の通りです。
- パンくずリストを設置し、階層構造を明示する
- 関連記事の内部リンクを本文中に適切に配置する
- 孤立ページ(どこからもリンクされていないページ)をなくす
- グローバルナビゲーションに主要カテゴリを配置する
robots.txtの適切な設定
robots.txtは、Googlebotに対してクロールの許可・禁止を指示するためのファイルです。管理画面やログインページなど、クロール不要なページをDisallowで指定し、クロールバジェットの浪費を防ぎます。
ただし、robots.txtでDisallowしたページはクロールされませんが、インデックスから削除されるわけではありません。インデックスさせたくない場合はnoindexメタタグを使用します。
robots.txtの設定例を以下に示します。
User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap.xml
URL構造の正規化
同じ内容のページが複数のURLで存在すると、Googlebotが重複ページを個別にクロールしてしまい、クロールバジェットを浪費します。canonicalタグを使用して、正規URLを指定しましょう。
よくある重複URLの例は以下の通りです。
- http://とhttps://の混在
- www有りと無しの混在
- 末尾のスラッシュ有りと無し
- パラメータ付きURLとパラメータ無しURLの重複
これらはリダイレクト設定とcanonicalタグで統一しましょう。
ページ表示速度の改善
ページの表示速度が遅いと、Googlebotのクロール効率も低下します。サーバーのレスポンスタイムが遅い場合、Googlebotは1回のクロールセッションで取得できるページ数が減少します。
以下の対策でサーバーレスポンスを改善しましょう。
- CDN(コンテンツ配信ネットワーク)の導入
- 画像の最適化(WebP形式への変換、圧縮)
- 不要なプラグインやスクリプトの削除
- サーバーのスペック見直し
クロールエラーの確認と対処法
Search Consoleの「ページのインデックス登録」レポートで、クロールやインデックスに関するエラーを確認できます。
よくあるクロールエラー
| エラーの種類 | 原因 | 対処法 |
|---|---|---|
| 404 Not Found | ページが削除された、URLが変更された | 301リダイレクトを設定する |
| サーバーエラー(5xx) | サーバーの過負荷や設定ミス | サーバーログを確認し原因を特定する |
| リダイレクトエラー | リダイレクトのループや過度なチェーン | リダイレクト設定を整理し直す |
| robots.txtによるブロック | 意図しないDisallow設定 | robots.txtの設定を見直す |
| ソフト404 | 中身のないページが200を返している | 適切な404ステータスを返すか、コンテンツを追加する |
クロール統計情報の確認
Search Consoleの「設定」→「クロールの統計情報」で、Googlebotのクロール状況を詳細に確認できます。以下の情報が確認できます。
- 1日あたりのクロールリクエスト数
- ダウンロードされたページサイズ
- 平均応答時間
- クロールされたページの種類(HTML、CSS、画像など)
平均応答時間が1秒以上の場合は、サーバーの改善を検討しましょう。
インデックスされない場合の原因と解決策
ページがクロールされているにもかかわらず、インデックスに登録されない場合があります。主な原因と対処法を解説します。
品質が基準に達していない
Googleは低品質と判断したページをインデックスしないことがあります。内容が薄い、他サイトのコピーである、ユーザーに有益な情報がないなどのページは、インデックスから除外される可能性があります。
対処法:コンテンツの充実、独自の情報や視点の追加、E-E-A-T(経験・専門性・権威性・信頼性)の向上を図りましょう。
noindexタグが設定されている
意図せずnoindexメタタグが設定されている場合があります。CMSの設定やプラグインの設定で、noindexが有効になっていないかを確認しましょう。
canonicalタグが別ページを指している
canonicalタグが誤って他のページを指定している場合、Googleは指定先のページを正規ページとみなし、当該ページをインデックスしません。
URL検査ツールでの確認
Search ConsoleのURL検査ツールを使えば、特定のページのクロール・インデックス状況を詳細に確認できます。ページがインデックスされない原因が表示されるため、原因の特定と対処に役立ちます。
定期的なクロール管理のポイント
クロールの最適化は一度行えば終わりではなく、サイトの成長に合わせて定期的に管理する必要があります。
月次で確認すべき項目
- Search Consoleのインデックス登録レポートのエラー件数
- クロール統計情報の応答時間の推移
- 新規公開ページがインデックスされているかの確認
- サイトマップの送信状況と検出されたURL数
サイト規模拡大時の注意
サイトのページ数が増えてきたら、以下の対策を検討しましょう。
- 低品質ページの統合・削除
- パラメータURLの正規化
- サイトマップの分割(カテゴリ別など)
- 重要度の低いページへのnoindex設定
まとめ
SEOにおいてクロールは、コンテンツが検索結果に表示されるための最初の関門です。XMLサイトマップの作成、内部リンク構造の最適化、robots.txtの適切な設定、URL正規化、ページ表示速度の改善など、クロールを最適化するための施策を着実に実行しましょう。
Search Consoleのインデックス登録レポートとクロール統計情報を定期的に確認し、エラーの早期発見と対処を行うことが、テクニカルSEOの基盤を維持するための重要なルーティンです。クロールの土台が整ってこそ、コンテンツの品質がランキングに正しく反映されます。


