WEBクローラーって何?クローラビリティの向上方法【SEO対策 初心者ガイド】

benjamin dada EDZTb2SQ6j0 unsplash

SEO対策の最初の第一歩は、WEBクローラーについて学ぶことです。Googleなどに代表される検索エンジンは、検索ボットであるウェブクローラー(スパイダーとも呼ばれる)でページを探し、サイトに関する情報を収集します。テクニカルSEOを実装するための最初のステップは、アクセスしたいページが分かりやすく、ナビゲートしやすいことを確認することです。本記事では、SEO対策相談所の塚田がSEO対策をやる上で欠かせないサイトやページがクロールしやすい、してもらえることを確認するためほ方法についてご紹介いたします。

WEBクローラーとは

markus spiske iar afB0QQw unsplash
引用元:unsplash.com

検索エンジンの仕組み

WEBクローラーは、エンジンが使用する特殊なボット「検索クローラー」とも呼ばれています。検索エンジンごとに、異なるのですが。Google検索エンジンだけでも公表しているだけで、18種類ものWEBクローラーがあるのです。このウェブクローラーは、クローリングと言ってインターネットを精査し、評価してインデックス(索引)を作るための新しいWebページを検索します。

それらはリンクからリンクへ、URLからURLへと移動し、データを検索エンジンの中央サーバーに戻し、Googleのデータベースに統合できるようにします。それらはインターネットの最前線であり、新しいデータを識別し、それに応じて分類することによりその範囲を広げます。これが検索結果を生み出す仕組みです。

クローリングとWEBクローラーの重要性

クローリングとWEBクローラーは、SEO対策担当者にとっては無視しては通れない存在です。なぜならば、彼らがサイトやページにアクセスしなければインターネット上、具体的には検索エンジンには存在していないも同然だからです。改めてこの重要性を元Googleの検索エンジンの開発責任者でもあったマットカッツ氏のYouTube動画を紹介します。

元Google:検索エンジン開発責任者が語るクローリングの重要性

YouTube動画をご覧頂ければ、その重要性について再確認頂けるかと思います。以下のように、WEBクローラー(スパイダー)がいくつかのウェブページを起点として情報を取得しそこからリンクを辿り検索結果を作る事を解説しています。

image 11
image 12

クローラーボットの「クローラー予算」!?

Google検索エンジンのように、情報量も検索ユーザーも膨大になればなるほど全ての工程を最適化する必要が出てきます。それは検索ユーザーが便利で快適な、情報収集が出来るようにするためというだけじゃなく検索エンジンを維持管理するコスト、労力を出来るだけ合理的に効率化するためでもあるのです。

その為、WEBクローラーには「クローラー予算」と呼ばれるものがあります。これは、各サイトに費やすことができる時間とリソースの上限を言います。最悪の場合では、サイトがインデックス登録されなかったり、Googleの検索結果にまったく表示されなくなる可能性があります。これはクローリングの最適化だけじゃなく、コンテンツのクオリティも同様に考える必要があります。検索エンジンの検索結果は、無限ではないためです。

このクローラー予算は、デッドリンクや404エラーなどの小さな問題がある場合には、クローラーの予算を無駄に費やすことになるわけですから、検索ランキングの結果に重大な影響を与える可能性があることは容易に想像できます。ですから、クローリングをしやすいサイトを作成することはとても重要で大切なSEO対策のひとつと言えるのです。繰り返しですが。クロールされなければ検索結果に表示されないことを意味します。

クローラビリティとは

WEBクローラーがインターネット上のリンクを探し出し、検出のしやすさを言います。これからご紹介するいくつかの細かい対策と設定をしっかり行えば、クローラビリティの向上になります。

クローラーの種類

Google、Yahoo!、Bing、Naverなどがありますが、Yahoo!の検索エンジンに使われているのはGoogleになります。よって、日本ではGoogleのSEO対策をすれば良いと考えられています。具体的な、検索エンジンのシェアなどはこちらの記事で詳しくご紹介しております。

WEBクローラーにクローリングされやすくする方法

john schnobrich yFbyvpEGHFQ unsplash
引用元:unsplash.com

実際にどのような対策をすれば、WEBクローラーにクローリングしてもらいやすくなるのでしょうか。また、最適化後の確認はどのようにすれば良いのでしょうか。

クローラーの動作確認方法

検索したいURLの前にsite:とつけて検索します。検索結果に表示されれば成功です。何も表示されない場合はWEBクローラーがクローリング出来ていない可能性があります。サイトの立ち上げ直後や、新規取得したばかりのドメイン、新しく作成した記事ページなどの場合は、すぐにはインデックスされない場合があります。もちろん、数ヶ月単位で表示されない場合は、対策を見直す必要がありますが。まずは焦らずに、Googleサーチコンソールにて登録した場合はクロールの統計情報で結果を見ることができます。

クローラビリティの向上方法

markus spiske rWKhlvk bsM unsplash
引用元:unsplash.com

XMLサイトマップを作成しGoogleサーチコンソールへ登録

XMLサイトマップを設定しましょう。検索ボットがWebページを理解してクロールするのに役立つXMLサイトマップと呼ばれるものです。ウェブサイトのための見取り図と考えることができます。完了したら、サイトマップをGoogle検索コンソールとBingウェブマスターツールに送信します。Webページを追加および削除するときは、サイトマップを最新の状態に保つことを忘れないでください。ファイルやサイトの存在をGoogleに伝える大切な作業になります。

もしXMLサイトマップを作っていないウェブサイトの場合、最悪のケースではGoogleでサイト名で検索してもまったくヒットしないという事になることもあります。WEBサイトを作ったら、新規サイトを公開する際には必ずXMLサイトマップを作っているか。そして、Googleサーチコンソールに登録しているかを確認しましょう!

WEBサイトの構造

ウェブサイトの構造は、XMLサイトマップと同じぐらい非常に重要です。特に外部リンクなどが少ない、新規ドメインや公開したばかりのホームページであればなおさらです。その理由は、上述しているようにGoogleなどの検索クローラーは、WEBサイトにアクセスしたあとはリンクを辿ってページをクローリングし検索エンジンへインデックス登録していきますが。

クローリング(巡回)する際に、リンクが途切れる。もしくは、どのページからもリンクが張られていないページがあった場合はWEBクローラーはそのページにはアクセスできず検知出来ないのです。つまり、せっかく時間を掛けてデザインも作り込んだ素晴らしいページであってもこのようなケースでは検索ユーザーに見てもらうどころか、検索エンジンに表示されることも無いのです。あとはクローリングのリソースも上限があるため、見つけられず他のサイトを優先されるとなることも懸念すべきです。

そうならないようにするためにも、出来るだけ全てのページに2クリックで辿り着けるようなウェブサイトの設計、サイト構造を最初から考える必要があるのです。これはSEO対策、クローラー最適化は勿論ですが。結果としては、検索ユーザーに対しても親切なWEBサイトでもあります。

内部リンク

Webクローラーは、他のWebサイトと同じようにリンクをたどってページからページへと移動します。したがって、他のコンテンツからリンクしているページのみを見つけることができます。優れた内部リンク構造により、サイトの構造の奥深くにあるページにもすばやくアクセスできます。ただし、構造が不十分だと行き止まりになり、Webクローラーがコンテンツの一部を見落とす可能性があります。内部リンクについては、記事やコンテンツの関連性も意識出来ると尚良いです。

※外部リンクが重要な理由の1つとして、WEBクローラーがサイト、ページを発見しやすいクローリングされやすいという最適化に繋がるというのも1つの理由です。

更新頻度と質の良いページを製作する

コンテンツはあなたのサイトの最も重要な部分です。訪問者を引き付け、彼らにあなたのビジネスを紹介し、そして顧客に変えるのを助けてくれます。そして、1つは、Webクローラーはコンテンツをより頻繁に更新するサイトにアクセスすることです。そしてこれは、更新頻度が高く、重要度が高いページを優先して速くクローリングしてインデックスを付けることを意味します。内容やクオリティはもちろんですが、更新頻度も大切になります。

URLはシンプルに

短くて分かりやすいURLにすることでクローラビリティが高まります。複雑なURLにしてしまうとクローラーが探し出す事ができず、インデックスされなくなってしまいます。また、重要なページのURLのリストをXMLサイトマップの形式で検索エンジンに送信することで、検索ボットにサイトに関する追加のコンテキストが提供されるため、クロール時にサイトを把握する必要がなくなります。

重複ページ・記事をなくす

コンテンツが重複していると、同じまたは非常に類似したコンテンツを特徴とするページは、ランキングを失う可能性があります。コンテンツが重複していると、クローラーがサイトにアクセスする頻度が減少する可能性もあります。そのため、サイトで重複するコンテンツの問題を調べて修正してください。

重複しているかどうかの判断が難しい場合を除いて、基本的には削除できるものは削除した方が良いでしょう。また削除できない場合には、noindexタグにて検索エンジンにインデックス登録しないようする事でクローリングを止める事が可能です。あとは、重要なテーマや記事であれば大幅にリライトしコンテンツを一から作り直すのも効果的です。

不要なアクセスを制御する

あなたのサイトに関連するキーワードのためにランク付けし始めることが出来るように、ウェブサイト上でGoogleにクロールしてインデックスして欲しいページがたくさんあるでしょう。ただ、インデックス登録しなくていいようなページなどがあると思います。

その場合には、robots.txtファイルを利用して、特定のページを見ないようにWEBクローラーに指示できます。これらのファイルに追加される一般的なものには、ディレクトリ、管理者ページ、タグ、およびショッピングカートページが含まれます。検索されたいもの、されたくないものを指定することができます。

他にも.htaccessファイルを活用する方法もあります。アクセスが集中して重くなることを防ぐためアクセス元のファイルを.htaccessファイルに記入することで不要アクセスのブロックをする事ができます。

ページの表示速度・読み込み時間を最適化

WEBクローラーには、「クロール予算」がある事は既にご紹介しましたが。クローリングする際の、リソース・クロール予算を出来るだけ無駄に消費しないようにするためにサイト、ページの表示速度、読み込み時間を最適化する必要があります。これは読み込み速度に関わらず、出来るだけクローラーに負担を少なく、分かりやすく、ページを読み込み、インデックス登録出来るようにしてあげる事を意識しておく必要があります。

Googleのサーチコンソールを活用しよう

GoogleのサーチコンソールにログインしURL検査にサイトURLを登録してリクエストします。専用ツールを利用すれば簡単にクローラビリティの向上になります。もちろん、XMLサイトマップの登録やインデックスが問題なくされているか。エラーやトラブル(カバレッジ)は発生していないかというサイトの健全性をチェックする上でも活用頂けます。

まとめ

あなたのサイト・ページをSEO対策し、検索上位にあげる為にはまずはWEBクローラーにクローリングして貰いインデックス登録してもらう必要がある事をご理解頂けたかと思います。最初の第一歩から、大変だと思われるかもしれませんが。このWEBクローラー最適化がなければSEO対策の道のりもまた遠くなります。ぜひ、今回ご紹介した最適化の方法を活用し今のホームページの状態をチェックし改善して見て下さい。

Leave a reply:

Your email address will not be published.