SEOクロールの基礎知識|Googleにページを正しく認識させる方法

この記事で分かること

  • SEOクロールの仕組みとGoogleがページを発見・認識するプロセス
  • クロールバジェットの概念と中小規模サイトへの影響
  • Googleにページを正しくクロールさせるための具体的な施策
  • クロールエラーの確認方法と対処法
  • インデックスされない場合の原因と解決策

この記事を読んでほしい人

  • SEO対策を始めたが、ページが検索結果に表示されないと悩んでいる方
  • Search Consoleのクロールレポートの見方が分からない方
  • サイトのページ数が増えてきて、クロールの効率化を考えている方
  • テクニカルSEOの基礎を体系的に理解したいWebサイト運営者

SEOにおけるクロールの基本的な仕組み

クロールとは、Googleのロボット(Googlebot)がWeb上のページを巡回し、ページの内容を読み取るプロセスのことです。クロールによって読み取られたページはGoogleのインデックス(データベース)に登録され、検索結果に表示される候補となります。

クロール→インデックス→ランキングの3ステップ

Googleの検索結果にページが表示されるまでには、以下の3つのステップがあります。

  • クロール:Googlebotがページを発見し、内容を読み取る
  • インデックス:読み取ったページをGoogleのデータベースに登録する
  • ランキング:検索クエリに対して適切なページを順位付けして表示する

どれだけ質の高いコンテンツを作成しても、クロールされなければインデックスされず、検索結果には一切表示されません。クロールはSEOの最も基礎的かつ重要なステップです。

Googlebotの動作原理

Googlebotはリンクをたどってページを発見します。具体的には以下のルートでページを見つけます。

  • 他のサイトからの被リンク
  • サイト内の内部リンク
  • XMLサイトマップ
  • Search ConsoleでのURL検査(手動でのクロールリクエスト)

Googlebotがページを発見した後、そのページのHTMLを取得し、テキスト、リンク、画像、構造化データなどの情報を読み取ります。読み取った情報はインデックスに送られ、Googleのアルゴリズムによって評価されます。

クロールバジェットとは

クロールバジェットとは、Googlebotが一定期間内にサイトをクロールできるページ数の上限のことです。

クロールバジェットが重要になるサイト

数百ページ程度の小規模サイトでは、クロールバジェットを気にする必要はほとんどありません。Googlebotは小規模サイトのすべてのページを問題なくクロールできます。

クロールバジェットが重要になるのは、以下のようなサイトです。

  • ページ数が1万ページを超える大規模サイト
  • パラメータURLや重複ページが大量に存在するECサイト
  • 動的にページを生成するサイト

クロールバジェットを無駄にしている要因

クロールバジェットを消費する不要なページがサイト内に多いと、重要なページのクロール頻度が下がります。以下の要因がクロールバジェットの浪費につながります。

  • 低品質な重複ページ
  • パラメータ違いの同一コンテンツページ
  • 無限ループを生む動的URL
  • ソフト404ページ(HTTPステータスは200だが中身のないページ)
  • クロール不要なページにrobots.txtでの制限がかかっていない

Googleにページを正しくクロールさせるための施策

Googlebotが自社サイトのページを効率よく発見・読み取りできるようにするための具体的な施策を解説します。

XMLサイトマップの作成と送信

XMLサイトマップは、サイト内のページ一覧をGooglebotに伝えるためのファイルです。Search Consoleからサイトマップを送信することで、Googlebotがページを発見しやすくなります。

サイトマップ作成時の注意点は以下の通りです。

  • インデックスさせたいページのみを記載する(noindexページは含めない)
  • 最終更新日(lastmod)を正確に設定する
  • URLの数が50,000件を超える場合はサイトマップインデックスを使う
  • 新しい記事を公開したらサイトマップを更新する

WordPressを使用している場合は、Yoast SEOやRank Mathなどのプラグインが自動でサイトマップを生成・更新してくれます。

内部リンク構造の最適化

Googlebotはリンクをたどってページを発見するため、サイト内の内部リンク構造がクロール効率に大きく影響します。

重要なページにはトップページや主要カテゴリページから3クリック以内でたどり着ける構造にしましょう。ページの階層が深すぎると、Googlebotがそのページに到達しにくくなります。

内部リンク構造の改善ポイントは以下の通りです。

  • パンくずリストを設置し、階層構造を明示する
  • 関連記事の内部リンクを本文中に適切に配置する
  • 孤立ページ(どこからもリンクされていないページ)をなくす
  • グローバルナビゲーションに主要カテゴリを配置する

robots.txtの適切な設定

robots.txtは、Googlebotに対してクロールの許可・禁止を指示するためのファイルです。管理画面やログインページなど、クロール不要なページをDisallowで指定し、クロールバジェットの浪費を防ぎます。

ただし、robots.txtでDisallowしたページはクロールされませんが、インデックスから削除されるわけではありません。インデックスさせたくない場合はnoindexメタタグを使用します。

robots.txtの設定例を以下に示します。

User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /search/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://example.com/sitemap.xml

URL構造の正規化

同じ内容のページが複数のURLで存在すると、Googlebotが重複ページを個別にクロールしてしまい、クロールバジェットを浪費します。canonicalタグを使用して、正規URLを指定しましょう。

よくある重複URLの例は以下の通りです。

  • http://とhttps://の混在
  • www有りと無しの混在
  • 末尾のスラッシュ有りと無し
  • パラメータ付きURLとパラメータ無しURLの重複

これらはリダイレクト設定とcanonicalタグで統一しましょう。

ページ表示速度の改善

ページの表示速度が遅いと、Googlebotのクロール効率も低下します。サーバーのレスポンスタイムが遅い場合、Googlebotは1回のクロールセッションで取得できるページ数が減少します。

以下の対策でサーバーレスポンスを改善しましょう。

  • CDN(コンテンツ配信ネットワーク)の導入
  • 画像の最適化(WebP形式への変換、圧縮)
  • 不要なプラグインやスクリプトの削除
  • サーバーのスペック見直し

クロールエラーの確認と対処法

Search Consoleの「ページのインデックス登録」レポートで、クロールやインデックスに関するエラーを確認できます。

よくあるクロールエラー

エラーの種類原因対処法
404 Not Foundページが削除された、URLが変更された301リダイレクトを設定する
サーバーエラー(5xx)サーバーの過負荷や設定ミスサーバーログを確認し原因を特定する
リダイレクトエラーリダイレクトのループや過度なチェーンリダイレクト設定を整理し直す
robots.txtによるブロック意図しないDisallow設定robots.txtの設定を見直す
ソフト404中身のないページが200を返している適切な404ステータスを返すか、コンテンツを追加する

クロール統計情報の確認

Search Consoleの「設定」→「クロールの統計情報」で、Googlebotのクロール状況を詳細に確認できます。以下の情報が確認できます。

  • 1日あたりのクロールリクエスト数
  • ダウンロードされたページサイズ
  • 平均応答時間
  • クロールされたページの種類(HTML、CSS、画像など)

平均応答時間が1秒以上の場合は、サーバーの改善を検討しましょう。

インデックスされない場合の原因と解決策

ページがクロールされているにもかかわらず、インデックスに登録されない場合があります。主な原因と対処法を解説します。

品質が基準に達していない

Googleは低品質と判断したページをインデックスしないことがあります。内容が薄い、他サイトのコピーである、ユーザーに有益な情報がないなどのページは、インデックスから除外される可能性があります。

対処法:コンテンツの充実、独自の情報や視点の追加、E-E-A-T(経験・専門性・権威性・信頼性)の向上を図りましょう。

noindexタグが設定されている

意図せずnoindexメタタグが設定されている場合があります。CMSの設定やプラグインの設定で、noindexが有効になっていないかを確認しましょう。

canonicalタグが別ページを指している

canonicalタグが誤って他のページを指定している場合、Googleは指定先のページを正規ページとみなし、当該ページをインデックスしません。

URL検査ツールでの確認

Search ConsoleのURL検査ツールを使えば、特定のページのクロール・インデックス状況を詳細に確認できます。ページがインデックスされない原因が表示されるため、原因の特定と対処に役立ちます。

定期的なクロール管理のポイント

クロールの最適化は一度行えば終わりではなく、サイトの成長に合わせて定期的に管理する必要があります。

月次で確認すべき項目

  • Search Consoleのインデックス登録レポートのエラー件数
  • クロール統計情報の応答時間の推移
  • 新規公開ページがインデックスされているかの確認
  • サイトマップの送信状況と検出されたURL数

サイト規模拡大時の注意

サイトのページ数が増えてきたら、以下の対策を検討しましょう。

  • 低品質ページの統合・削除
  • パラメータURLの正規化
  • サイトマップの分割(カテゴリ別など)
  • 重要度の低いページへのnoindex設定

まとめ

SEOにおいてクロールは、コンテンツが検索結果に表示されるための最初の関門です。XMLサイトマップの作成、内部リンク構造の最適化、robots.txtの適切な設定、URL正規化、ページ表示速度の改善など、クロールを最適化するための施策を着実に実行しましょう。

Search Consoleのインデックス登録レポートとクロール統計情報を定期的に確認し、エラーの早期発見と対処を行うことが、テクニカルSEOの基盤を維持するための重要なルーティンです。クロールの土台が整ってこそ、コンテンツの品質がランキングに正しく反映されます。

Leave a reply: