Home > 製品情報 > Spidermatic™ > ロボットレポート > 検索エンジンロボットについて

検索エンジンロボットについて

「ロボット(クローラー、スパイダーとも呼ばれます。)」の仕組み・役割・収集する情報タイプなどを紹介しています。

「ロボットって何? ロボットは一体なにをするの? 知らなきゃいけないの?」
もし、あなたの業務が以下[こんな人にオススメ]の項目にひとつでも当てはまるなら、ロボットについて知ることは大きな飛躍の第一歩となるかもしれません。

こんな人にオススメ

  • SEO 対策をしたけれど、何から始めればいいの?!
  • 業務価値を高めたいWebデザイナー、Webプログラマ
  • 企業のWebマスター、Web担当者
  • 検索エンジンスパイダーの巡回をキャッチしたい!

ロボットとは

ロボットとはwww上のリンクを巡回し、ページ情報を取得するためのプログラムです。 (※1)

ロボット型検索エンジンの仕組み

ロボット型検索エンジンの仕組み図

  1. ロボットがwww上の情報を収集(キャッシュ)する
  2. キャッシュを検索エンジンのデータベースに送る
  3. 「インデクサ(indexer (※2))」プログラムによりキャッシュを解析する
  4. 解析した情報をインデックス(索引)に格納する

ユーザが検索サイトで検索を実行すると、「インデックス(索引)」と入力された「キーワード」を各検索エンジンのもつ「アルゴリズム (※3)」に従って照会し、検索結果を生成します。

ロボットが収集する情報の種類

検索エンジンにより異なりますが、以下のファイル情報をそれぞれ個別のクローラーにより収集しています。

  • HTMLドキュメント
  • 画像ファイル
  • マルチメディアファイル
  • アーカイブ(削除ファイル)情報
  • リンク切れ情報
  • RSS (※4)

これらの他に更新された情報収集だけを行うものなどがあります。また日々進化を続けるWebにおいては検索エンジンのクローラーも上記のもの以外のデータを収集するもの、テスト的に巡回しているものが多数存在します。

【補足】

※1 リンク巡回とはソースコードの<a>タグを辿ることです。Java ScriptやFlashファイルによるリンクはクローラーによっては理解されない場合もあるため、リンクは<a>タグで指定すると良いでしょう。。

※2 インデクサは各検索エンジンによりプログラムされた単語レベルに情報を分解し、インデックスへ格納します。この作業は各検索エンジンごとに異なります。そのため、検索結果への反映の早さも検索エンジンごとに異なります。

※3 アルゴリズムは検索エンジンにとって肝心かなめの機能です。また日々進化し続けているため、日によって検索結果が変わることがあります。

※4 主にサイトの新着情報のお知らせする仕組みとして活用されることが多いのが特徴です。アドレス、タイトル、記事の見出し、要約、更新時刻をXMLベースで作成します。

Spidermatic™

Spidermatic™ のオフィシャルサイトで登録すると、無料でスパイダーの巡回をメールでお知らせしてくれます!
http://www.spidermatic.com/