Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳。新しいURL登録方法はSEOに必須になる?

 Googleがサイトマップ(Sitemaps)という新しいツールのβ版を公開した(今のところ英語版のみ)。これは、Googleがウェブページを巡回するときに「取りこぼし」のないよう、サイト管理人側でURLの一覧を提供できるというものだ。

 今まではGoogleがリンクをたどってきてくれることを待つ(あるいはたどりやすいようにリンクを設定する)という「巡回待ち」をしなければならなかったが、これからは、更新頻度やサイト内でのファイルの優先順位も含めて、リンク一覧をGoogleに渡すことができるようになるわけである。

 ただし、これはページランクを上げるためのものではない。あくまでも巡回で取りこぼしがないようにするものだ。ファイル数が多くてすべてのファイルが巡回してもらえなかった、というようなサイトにとっては福音といえよう。

 これからのSEOでは、このグーグル・サイトマップ対策も必須になりそうである。ただし、現在Googleから提供されているサイトマップ・ジェネレーターはpythonにしか対応していないので、iswebなど一部のサーバーでしか使えないのが残念。

 以下、β版ということなので、GoogleサイトマップについてのFAQと、サイトマップ・プロトコルについて全訳しておいた。有効に使っていただければ幸いである。

2005年6月 4日21:42| 記事内容分類:サイト構築・SEO| by 松永英明
この記事のリンク用URL| ≪ 前の記事 ≫ 次の記事
| コメント(3) | トラックバック(67)
twitterでこの記事をつぶやく (旧:

GoogleサイトマップFAQ

Googleサイトマップについて

1.Googleサイトマップとは何ですか?

 Googleサイトマップはウェブ巡回の実験です。サイトマップを使ってクローラーに情報提供・指示することで、ウェブのカバー範囲を広げ、インデックスに収納する時間を改善したいと思っています。サイトマップ・フォーマット化されたファイルをウェブサーバーにおくことによって、我々のクローラーは、どのようなページが現存しているか、どれが最近変わったのかを見つけ、それに応じてあなたのサイトを巡回できるようにします。

 基本的に、Googleサイトマップに参加するには2ステップ必要です。

  1. サイトマップ・ジェネレーターを使って正しいフォーマットでサイトマップを作ってください。
  2. サイトに変更を加えたときは、サイトマップを更新してください。
2.Googleサイトマップを使えるのは誰ですか?

 Googleサイトマップはすべてのウェブサイト・オーナーのためのものです。1ページだけのサイトから、絶えず変化する何百万ものページを持つ会社まで。以下に当てはまるなら、特にGoogleサイトマップに興味を持たれるかもしれません。

  • Googleにもっと自分のウェブページを巡回してほしい。
  • サイト上の内容が変わったときにGoogleに告知したい。
3.費用はいくらかかりますか?

 まったく何も。Googleは検索結果に関して請求したことはありませんし、そうするつもりもありません。

4.Googleはなぜこのようなことをするのですか?

 世界の情報をまとめて広くアクセスできるようにするというGoogleの使命に沿って、この協同的な巡回システムによって、カバー範囲と新鮮さを改善することによってユーザーがGoogleの検索結果を使いやすくなるように、我々のクローラーを最適化することができます。

5.始め方は?

 Googleサイトマップのフォーマットについて学ぶには、以下の「サイトマップの作り方は?」を読んでください。もし直接技術的な詳細に飛びたいなら、サイトマップ・プロトコル(下記)とサイトマップ・ジェネレーターについての文書をご覧ください。

6.Googleアカウントに登録する必要がありますか?

 サイトマップを作って登録するためにはアカウントは必要ありません。しかし、サイトマップの状態を追跡し、登録したものへの診断情報を見ることができるようにするには、アカウントに登録することをおすすめします。アカウントを持っていても、結果におけるサイトランキングには影響がありません。もしすでにGmail、グループ、マイサーチヒストリー、アラート、Froogleショッピングリストを使っているなら、すでにGoogleアカウントがありますから、すでに持っているアカウントでGoogleサイトマップを使うことができます。

7.このプログラムに参加すると、Google検索結果でページの順位が変わるでしょうか?

 いいえ。Googleサイトマップを使ってもページランクには影響がありません。ページのランキングの計算には何の変更もありません。

サイトマップ

1. サイトマップ・プロトコルとは?

 サイトマップ・プロトコルとは、ウェブクローラーに対して適切なサイトマップ情報を要約するためのXMLの記法です。それぞれのURLに対して、最終更新日やおよその更新頻度のような巡回のための「ヒント」を付け加えることができます。サイトマップ・プロトコルの詳細はこちら。

2.サイトマップの作り方は?

 サイトマップを作るには多くの方法があります。グーグルのサイトマップ・ジェネレーターを使うことができます。これはGoogle Codeからダウンロードできます。これは基本的な使い方をする場合のためのサイトマップを生成する単純なスクリプトです。サイトマップ・ジェネレーターについては下記にて詳細を記してあります。もしサイトマップ・ジェネレーターがあなたのサイト構造ではうまく昨日しないなら、サイトマップを生成するオリジナルのスクリプトをご自分で書かれて、それを公開してくださればと思います。

3.Googleは、サイトマップのすべてのURLを巡回してインデックスするのですか?

 URLのすべてを巡回してインデックスすることを保証するものではありません。しかし、サイトマップのデータからあなたのサイトの構造を学び、クローラーのスケジュールを改善して、将来、あなたのサイトをもっとよく巡回することになるでしょう。たいていウェブマスターはサイトマップを登録すれば利益を得ることになるでしょうし、ペナルティが課せられることは決してありません。

4.Googleにサイトマップを登録するには?

 Googleサイトマップにあなたのサイトマップを登録する方法はいくつもあります。サイトマップ・ジェネレーターのスクリプトは、サイトマップを作って登録することを自動的にやってくれます。もしサイトマップ・ジェネレーターを使わないなら、Googleサイトマップ・アカウントからサイトマップを登録してもいいですし、登録のためにHTTPリクエストを使ってもかまいません。

 HTTPリクエストを使ってサイトマップを登録するためには、以下のURLへのリクエストを送信してください。

www.google.com/webmasters/sitemaps/ping?sitemap=sitemap_url

たとえば、あなたのサイトマップがhttp://www.example.com/sitemap.gzにあれば、URLはこうなります。

www.google.com/webmasters/sitemaps/ping?sitemap=http://www.example.com/sitemap.gz

「/ping?q=」のあとのURLはすべてエンコードしておいてください。

www.google.com/webmasters/sitemaps/ping?sitemap=http%3A%2F%2Fwww.yoursite.com%2Fsitemap.gz

 wget, curlその他のメカニズムを使ってHTTPリクエストを送信することもできます。リクエストが成功すればHTTP 200レスポンス・コードが返されます。別のレスポンスであれば、再登録すべきです。

 注:サイトマップ・インデックスファイルを提供しているなら、サイトマップ・インデックスファイルの場所を含むHTTPリクエストを一つ送信するだけでかまいません。インデックス内にリストアップされたそれぞれのサイトマップのために別々にリクエストを送信する必要はないのです。

5.サイトマップを作って登録してからどれくらい経てばURLを巡回してもらえますか?

 このベータ期間には、あなたのURLが巡回されたりインデックスに追加されるまでの期間、あるいはされるか否かということについては、いかなる予測も保証もできません。時間が経つにつれて、プロセスが洗練されてウェブマスターの必要をよりよく理解するにつれて、カバー範囲もインデックスされるまでの時間も改善されていくだろうと思います。

6.サイトマップを広く見られたくありません。Googleだけに見られるようにできますか?

 サイトマップは、クローラーがアクセスできるウェブサーバー上におかれるべきです。他のロボットがサイトマップファイルにアクセスするのを防ぎたいなら、Robots Exclusion Standardに従ってrobots.txtファイルを使えばいいでしょう。

 サイトマップに含めたくないページがあるなら、サイトに投稿された最新のサイトマップファイルから削除すればいいです。

7.ダイナミックURLのデータベースからURLを抽出するのは簡単ではありません。どのようにすればサイトマップを作れますか?

 適度に大きなアクセスログ(つまりApache log) を使ってURLを登録することができます。サイトマップ・ジェネレーターは、URLリストから、アクセスログから、あるいはURLに対応した静的ファイルを含むディレクトリパスの指定によって、サイトマップを生成できます。

8.サイトマップのために他のフォーマットを使うことができますか?

 ライブラリの世界で人気の高いプロトコルであるメタデータ収納のためのOpen Archives Initiative (OAI)プロトコルもサポートしています。もしサイトマップがすでにOAI-PMH version 2.0フォーマットで提供されているなら、これを登録してください。また、link/lastModフィールドを使ったRSS 2.0とAtom 0.3 シンジケーション・フィードも受け入れます。

 最後に、もしURLのリストだけを提供したいということであれば、下記の「登録できる最もシンプルなサイトマップは?」を参照してください。

9.登録できる最もシンプルなサイトマップは?

 サイトマップのためには、サイトマップあるいはOAIといったXMLフォーマットをお使いになることを強くおすすめします。それはそれぞれのURLに追加情報を関連づけることができるからです。しかし、単純なURLリストだけのテキストファイル形式のサイトマップも受け入れます。単純なサイトマップ・フォーマットは、1行に1URLというURLリストです。たとえば:

http://www.example.com/catalog?item=1
http://www.example.com/catalog?item=11
……

このフォーマットについてのメモ:

  • URLには新しい行を埋め込んで含んではいけません。
  • Googleは与えられたとおりに正確にURLを巡回しようとするので、完全にURLを指定しなければなりません。
  • サイトマップファイルはUTF-8エンコーディングを使わなければなりません。
10.登録前に、サイトマップに間違いがないかチェックすることはできますか?

 Googleは XMLスキーマを使って、サイトマップに使われる要素と属性を定義します。下記のリンクからこのスキーマをダウンロードできます。

 このスキーマに基づいてサイトマップの構造を実証する助けとなる多くのツールがあります。下記の場所でXML関連ツールを見つけることができます。

 サイトマップまたはサイトマップ・インデックスファイルをあるスキーマに対して検証するには、XMLファイルには追加ヘッダが必要になります。サイトマップ・ジェネレーターを使っているなら、これらのヘッダはすでに含まれています。別のツールを使ってサイトマップを作っているなら、XMLファイル内のヘッダは以下の例のようなものになります。

サイトマップ:

<?xml version='1.0' encoding='UTF-8'?>
	<urlset xmlns="http://www.google.com/schemas/sitemap/0.84"
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
	http://www.google.com/schemas/sitemap/0.84/sitemap.xsd">
	
	<url>
	...
	</url>
	</urlset>

サイトマップ・インデックスファイル:

<?xml version='1.0' encoding='UTF-8'?>
	<sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84"
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84
	http://http://www.google.com/schemas/sitemap/0.84/siteindex.xsd">
	
	<sitemap>
	...
	</sitemap>
	</sitemapindex>

サイトマップ・ジェネレーター

1.サイトマップ・ジェネレーターとは何ですか?

 サイトマップ・ジェネレーターは、自動的にサイトマップを生成してGoogleに登録するように設定できる単純なスクリプトです。サイトマップ・ジェネレーターは、URLリストから、アクセスログから、あるいはURLに対応した静的ファイルを含むディレクトリパスの指定によって、サイトマップを生成できます。サイトマップ・ジェネレーターの詳細についてはこちら。

2.サイトマップ・ジェネレーターに必要な条件は?

 サイトマップ・ジェネレーターはPython 2.2以降のバージョンが必要です。サイトマップ・ジェネレーターを使っているウェブマスターは、ウェブサーバーへのファイル転送とスクリプト稼働のための知識が必要です。

3.サイトマップ・ジェネレーターの動かし方は?

 サイトマップ・ジェネレーターを設定・稼働させるための解説はこちら

4.どこでサイトマップ・ジェネレーターをダウンロードできますか?

 サイトマップ・ジェネレーターはGoogle Codeにおけるオープンソース・プロジェクトの一つとしてリストアップされています。

5.わたしのURLがサイトマップ・ジェネレーターでサポートされた機構によって抽出できないならどうしましょう?

 誰か他の人たちが様々な状況に対応するサイトマップ生成ツールを開発・公開してくださることを期待しています。開発者は、GoogleサイトマップのためのGoogleグループ上で作品について論じ、共有していただければと思います。

アカウント

1.Googleサイトマップ・アカウントとは?

 あなたのGoogleサイトマップ・アカウントは、登録されたサイトマップ、最近の更新についての情報を提供します。また、Googleによって巡回される新しいサイトマップを登録できます。Google アカウントにはログインが必要です。アカウントのホームページで登録してください。もしすでにGmail、グループ、マイサーチヒストリー、アラート、Froogleショッピングリストを使っているなら、すでにGoogleアカウントがありますから、すでに持っているアカウントでサインインできます。

 サイトマップを登録するにはアカウントを使わなくてもかまいません。しかし、アカウント経由でサイトマップを登録するなら、すべての登録の状態を追跡することができます。

2.サイトマップを追加するには?

 サイトマップを作ってウェブサーバー上のアクセスできる場所に置いたなら、診断情報を見るためにサイトマップのリストにそれを追加する必要があります。サイトマップリストに追加するには、

  1. Googleサイトマップ・アカウントにログインしてください。www.google.com/webmasters/sitemaps
  2. 「Add a Sitemap」をクリックしてください。
  3. サイトマップURLを入力して「Submit URL」をクリックしてください。

 新しいサイトマップがメインページに追加されます。もしサイトマップ回収時にエラーが起こったら、修復して再登録するように表示されます。

3.アカウントからサイトマップを削除するには?

 各サイトマップの右にある「Remove」リンクをクリックすれば、リストからサイトマップを削除できます。

4.変更と同時にサイトマップを再登録するには?

 サイトマップ内のURLが変化したとか、すでにリストアップされているページを更新したらいつでも、再巡回のためにサイトマップを再登録できます。必要なサイトマップの右にある「Resubmit」リンクをクリックするだけです。「Submitted」の時刻は、この最新の登録を反映して更新されます。

 通常のツール(おすすめ)を使ってサイトマップを生成・登録することを自動化しているなら、Googleサイトマップ・アカウントで再登録リンクを使う必要はありません。「Submitted」の列は、リンクを手動でクリックした最後の時間を示し続けるでしょう。しかし、「Downloaded」の列は、我々のシステムがサイトマップを取得した最新の時刻を示すよう更新されます。

5.パスワードを忘れました。

 アカウントにアクセスできないとか、パスワードを忘れたときには、こちらへどうぞ。

https://www.google.com/accounts/ForgotPasswd

6.「Submitted」の日付が最新の登録時刻になっていません。

「Submitted」の列は、サイトマップがアカウント経由で最後に手動登録された時刻を示しています。もし、サイトマップ・ジェネレーターその他のアプリケーションを使ってウェブサーバー上で稼働するスクリプトを設定しているなら、登録はアカウントには反映されません。

 しかし、アカウントでは、これらの登録の結果、Googleによってあなたのサイトマップがダウンロードされた最新の時間を、「Last Downloaded」の列で示しています。

連絡手段

1.手助けが必要なとき、だれと連絡を取れますか?

 技術的な問題の助けが必要なら、あるいは他のウェブマスターとプログラムについて論じたいなら、Googleサイトマップ・グループのページへどうぞ。質問の答えを見つけることができるでしょうし、参加者が増えれば情報も集まってきます。我々は議論も読みますし、必要であれば援助を申し出ることもあるでしょう。

2.どこに意見や提案を送れますか?

 わたしたちはGoogleサイトマップ・グループページでの議論を呼んでいます。そして、プログラムについての意見や提案にも目を通すことになります。それは、世界中の専門家ウェブマスターからの技術的な援助も得られる場所です。質問がここで答えられず、Googleサイトマップに関するトラブルがまだあるなら、ここでご連絡ください。個々のウェブサイトに対して技術的援助をしたり、受け取ったすべての電子メールに個々に返答することはできません。しかし、送っていただいたフィードバックのすべてを読んで、それをGoogleサイトマップ改善のために使わせていただきます。

サイトマップ・プロトコル

概要

 サイトマップ・プロトコルは、サーチエンジン・クローラーに、巡回できるウェブサイト上のURLを教えることができます。サイトマップはURLのリストでできており、そのURLの追加情報として、最終更新時刻、更新頻度などを含めることもできます。

 ユーザーがブラウズできるインターフェースを通してウェブサイトのすべての領域に到達できないとき――つまり、ユーザーがリンクをたどってもサイトの一部のページや領域に到達できないときには、サイトマップは特に有益なものとなります。たとえば、特定のページは検索フォームからしかアクセスできないというサイトでは、サイトマップを作ってサーチエンジンに登録することで利益を得られるでしょう。

 この文書ではサイトマップ・ファイルのためのフォーマットを記述しています。また、サーチエンジンがそれを検索できるように、サイトマップをどこに置くべきかを解説しています。

 サイトマップ・プロトコルは、サーチエンジンがすでにURLを検出するために使っている巡回に基づいた機構を補うものではあっても、それに取って代わるものではないことにご注意ください。サーチエンジンにサイトマップ(複数でも可)を登録することで、エンジンのクローラーがあなたのサイトをよりよく巡回する助けとなるでしょう。

 このプロトコルを使ったとしても、ウェブページが検索インデックスに収められることを保証しません。また、このプロトコルを使っても、サーチエンジンによるページのランキングは影響を受けないかもしれません。

 Sitemap 0.84は、Attribution-ShareAlike Criative Commons Licenceのもとで提供されます。

XMLサイトマップ・フォーマット

 XMLサイトマップ・フォーマットで、サイトマップの中に、URLリストとそのURLの追加情報を盛り込むことができます。この追加情報は、そのURLの内容が最後に変更された日付、その内容がどのくらいの頻度で更新されるか、そのURLがサイト内の他のURLと比べてどれくらい重要か、などです。

 XMLサイトマップ・フォーマットは次のXMLタグを使います。

  • changefreq……URLの内容の更新頻度
  • lastmod……そのURLの内容の最終更新時刻
  • loc……URLの場所
  • priority……同じサイト内の他のページと比較したそのページの優先度
  • url……このタグは上記4つのタグをくくる
  • urlset……このタグは上記5つのタグをくくる

 注:サイトマップ・ファイルのすべてのデータ値はURLを含めてXMLエンコードされていなければなりません。以下の表は、文字とその対応するエンコード値のリストです。ある文字をXMLエンコードするには、実体参照も文字コードも使うことができます。XMLエンコードについての詳細についてはFAQ参照。

文字 エスケープ形式
実体参照 文字コード
アンパサンド & &amp; &#38;
シングルクォーテーションマーク ' &apos; &#39;
ダブルクォーテーションマーク " &quot; &#34;
大なり > &gt; &#62;
小なり < &lt; &#60;
サンプル XML サイトマップ

 以下の例は、XMLフォーマットのサイトマップです。例示したサイトマップにはいくつかのURLが含まれており、それぞれがloc XMLタグでくくられています。この例ではそれぞれのURLごとに別のオプションパラメーターが設定されています。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
   <url>
      <loc>http://www.yoursite.com/</loc>
      <lastmod>2005-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
   <url>
      <loc>http://www.yoursite.com/catalog?item=12&amp;desc=vacation_hawaii</loc>
      <changefreq>weekly</changefreq>
   </url>
   <url>
      <loc>http://www.yoursite.com/catalog?item=73&amp;desc=vacation_new_zealand</loc>
      <lastmod>2004-12-23</lastmod>
      <changefreq>weekly</changefreq>
   </url>
   <url>
      <loc>http://www.yoursite.com/catalog?item=74&amp;desc=vacation_newfoundland</loc>
      <lastmod>2004-12-23T18:00:15+00:00</lastmod>
      <priority>0.3</priority>
   </url>
   <url>
      <loc>http://www.yoursite.com/catalog?item=83&amp;desc=vacation_usa</loc>
      <lastmod>2004-11-23</lastmod>
   </url>
</urlset>

 gzipを使ってサイトマップ・ファイルを圧縮することができます。サイトマップ・ファイルを圧縮すれば、必要な帯域幅を減らすことになるでしょう。圧縮解除されたサイトマップ・ファイルは10MBより大きくならないように気をつけてください。

 注:サイトマップ・ファイルはUTF-8エンコーディングを使わなければなりません。

XMLタグ定義

 この節では、サイトマップに使えるXMLタグについての詳細を示します。いくつかのXMLタグ定義にある「サブタグ」では、クエスチョンマーク(「?」)がXMLタグ名の後ろに付いているとき、これは任意であることを示します。

changefreq
定義

任意。この値は特定のURLにおける内容がどれくらいの頻度で更新される可能性があるかを示します。値は"always"(常時), "hourly"(毎時), "daily"(毎日), "weekly"(毎週), "monthly"(毎月), "yearly"(毎年) , "never"(不変)です。"always"値はアクセスごとに変わる文書を示すために使われます。"never"値は、保存用URLを記述するために使われます。

このタグの値はヒントであって、命令ではないことに注意。決定するとき、サーチエンジン・クローラーはこの情報を考慮に入れますが、"hourly"と指定されたページを巡回するのはそれ以下の頻度になるでしょうし、"yearly"と指定されたページはそれ以上の頻度で巡回するかもしれません。クローラーは"never"とされたページも定期的に巡回します。それはこれらのページに突然変更が加えられても処理できるようにです。

制約

列挙されたリスト。有効値は"always", "hourly", "daily", "weekly", "monthly", "yearly", "never"。

<changefreq>monthly</changefreq>
上位タグ url
内容フォーマット

テキスト


lastmod
定義

任意。URLが最後に修正された日時。ISO 8601を使ってタイムスタンプを指定すること。たとえば、2004-09-22T14:12:14+00:00。ISO 8601フォーマットの時間部分を省略できます。たとえば、2004-09-22も有効です。この情報で、クローラーは変化していない文書を再巡回しなくて済むようになります。

制約

値はISO 8601フォーマットでなければならない。

<lastmod>2005-02-21</lastmod>
or
<lastmod>2005-02-21T18:00:15+00:00</lastmod>
上位タグ url
内容フォーマット

テキスト


loc
定義

必須。サイト上のページのURL。

制約

値は2048文字以下でなければならない。

<loc>http://www.yoursite.com/catalog?item=1&amp;desc=vacation_hawaii</loc>
上位タグ url
内容フォーマット

テキスト


priority
定義

任意。特定のURLを同じサイト内の他のページと比べたときの「相対的」な優先度。このタグの値は0.0と1.0の間です。0.0はサイト内で最も優先度の低いページ、1.0はサイト内で最も優先度の高いページとなります。

あるページのデフォルトの優先度は0.5です。

あるページに割り当てた優先度は、サーチエンジンの結果ページにおけるURLの場所には影響しないことに注意。同じサイト上のURLの間で選択するときに、サーチエンジンはこの情報を使います。そのため、重要なページが検索インデックスに存在する可能性を高めることができます。

また、サイト上のすべてのURLに高い優先度を割り当てても意味がないことに注意。優先度は相対的なので、サイト内のURLの間での選択にしか使われません。ページの優先度は、他のサイトのページの優先度と比較されることはありません。

制約

値は 0.0 から 1.0 までの間でなければならない

<priority>0.7</priority>
上位タグ url
内容フォーマット

テキスト


url
定義

特定の URL についての情報をくくります。

サブタグ changefreq?, lastmod?, loc, priority?
上位タグ urlset
内容フォーマット


urlset
定義

サイトマップファイル内のすべてのURLについての情報をくくります。

サブタグ url
内容フォーマット

多数のサイトマップ・ファイルを提供する

 多数のサイトマップファイルを提供することができますが、それぞれのファイルは5万URLを超えてはいけません。また、圧縮解除されたときに10MB(10,485,760)より大きくなってはいけません。これらの限界は、ウェブサーバーがあまりにも巨大なファイルを提供してダウンしたりしないようにするものです。5万以上のURLをリストアップしたければ、多数のサイトマップ・ファイルを作らなければなりません。サイトマップが5万URLまたは10MBを超えた大きさになると予想されるなら、多数のサイトマップ・ファイルを作ることを考慮すべきです。多数のサイトマップを提供するなら、サイトマップ・インデックスファイルでリストアップしなければなりません。サイトマップ・インデックスファイルでは1,000以上のサイトマップをリストできないかもしれません。サイトマップ・インデックスファイルは Sitemap_index.xml と名付けることができます。

 サイトマップ・インデックスファイルの XML フォーマットは、サイトマップファイルの XMLフォーマットに非常に似ています。サイトマップ・インデックスファイルは次のXMLタグを使います。

  • lastmod
  • loc
  • sitemap
  • sitemapindex

 注:サイトマップ・インデックスファイルは、同じサイトにあるサイトマップだけを指定できます。たとえば、http://www.yoursite.com/sitemap_index.xml は http://www.yoursite.com にあるサイトマップを含むことができますが、http://www.mysite.com あるいは http://yourhost.yoursite.com にあるものはだめです。

XMLサイトマップ・インデックスのサンプル

 次の例はXMLフォーマットでのサイトマップ・インデックスを示します。このサイトマップ・インデックスは2つのサイトマップをリストアップしています。

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84">
   <sitemap>
      <loc>http://www.mysite.com/sitemap1.xml.gz</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.mysite.com/sitemap2.xml.gz</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

 注:サイトマップURLは、XMLファイルのすべての値と同様、XMLエンコードされていなければなりません。

サイトマップ・インデックスXMLタグ定義
  • locタグは必須であり、サイトマップの場所を指定します。
  • lastmodタグは対応するサイトマップファイルが修正された日時を識別する任意のタグです。サイトマップ内のどれかのページが変更された日時とは対応しません。lastmodタグの値はISO 8601フォーマットでなければいけません。
    最終更新タイムスタンプを提供することで、サーチエンジン・クローラーがインデックス内のサイトマップの下位セットのみを検索できるようになります――つまり、クローラーは特定の日付以降に更新されたサイトマップだけを検索することができるのです。この逐次的なサイトマップ取得の仕組みによって、非常に大きなサイトでも新しいURLを速やかに発見できるようになります。
  • sitemapタグは個々のサイトマップについての情報をくくります。
  • sitemapindexタグはサイトマップ・ファイル全体の情報をくくります。

サイトマップファイルの場所

 サイトマップファイルの場所で、そのサイトマップに含むことのできるURLの組み合わせが決まります。[]http://yoursite.com/catalog/sitemap.gz[] にあるサイトマップ・ファイルは[]http://yoursite.com/catalog/[] に始まるURLを含むことができますが、[]http://yoursite.com/images/[] に始まるURLを含むことができません。

 "[]http://site.org/path/sitemap.gz[]"を変更する権限があるなら、"[]http://site.org/path/[]"に始まるURLの情報を提供する権限があるということになるでしょう。[]http://yoursite.com/catalog/sitemap.gz[] で有効と思われるURLの例。

  • http://yoursite.com/catalog/show?item=23
  • http://yoursite.com/catalog/show?item=233&user=3453

http://yoursite.com/catalog/sitemap.gz で有効ではないと思われるURL の例。

  • http://yoursite.com/image/show?item=23
  • http://yoursite.com/image/show?item=233&user=3453
  • http://mysite.com/catalog/show?item=24

 有効と見なされないURLはそれ以上たどられることはありません。サイトマップをウェブサーバーのルートディレクトリに置くことを強く推奨します。たとえば、HTTPウェブサーバーが yoursite.com にあるなら、サイトマップ・インデックスファイルは "http://yoursite.com/sitemap.gz" にあるといいでしょう。特定のケースで、異なったパスのための別のサイトマップを作る必要があるかもしれません――つまり、組織内でのセキュリティ・パーミッションで別のディレクトリへの書き込みアクセスを制限している場合など。

よくある質問

Q:URLをXMLエンコードするには?

 適切にURLエンコードするには、HTML 4.0仕様書B.2.1節で勧告された手続きに従ってください。文字列をUTF-8に変換してから、その結果をURLエスケープしてください。国際化リソース識別子(IRI)の詳細は、RFC2396 (セクション2.3と2.4)ならびにRFC3987を参照のこと。

 以下はURLをXMLコーディングするpythonスクリプトの例。

    $ python
    Python 2.2.2 (#1, Feb 24 2003, 19:13:11)
    >>> import xml.sax.saxutils
    >>> xml.sax.saxutils.escape("http://www.test.org/view?widget=3&count>2")

 この例でエンコードされたURLは以下のようになります。

    http://www.test.org/view?widget=3&amp;count&gt;2
Q:サイトマップを作るのにどの文字エンコード方法を使うかというのは重要ですか?

 はい。サイトマップ・ファイルはUTF-8エンコードを使わなければなりません。

Q:時間を指定するには?

 lastmodタイムスタンプ、ならびにこのプロトコルのすべての日付と時刻はISO 8601エンコーディングを使ってください。たとえば、 2004-09-22T14:12:14+00:00。

 ISO 8601フォーマットの時間部分を省略することもできます。たとえば、2004-09-22も有効。しかし、サイトがしばしば変更されるなら、クローラーがサイトについての完全な情報を手に入れられるよう、時間部分も含めておくことをおすすめします。

Q:lastmod日付とは?

 変化がないファイルにおいては、これは実際にファイルが更新された日付です。この日付を手に入れるには、UNIX dateコマンドを使うことができます。

$ date --iso-8601=seconds -u -r /home/foo/www/bar.html

>> 2004-10-26T08:56:39+00:00

 多くのダイナミックURLにおいては、lastmodの日時は、もとになるデータが変更されたとき、あるいは周期的な更新に基づく近似値(可能であれば)によってlastmodの日付を決めることができるかもしれません。およその日付やタイムスタンプであっても使ってあれば、クローラーは変更されていないURLを巡回しなくてすみます。これはウェブサーバーの帯域とCPUへの要求を減らすことになるでしょう。

Q:どこにサイトマップを置けばいいですか?

 サイトマップをHTMLサーバーのルートディレクトリに置くことを強くおすすめします。つまり、[]http://yoursite.com/sitemap.gz[]に置いてください。

 特定のケースで、異なったパスのための別のサイトマップを作る必要があるかもしれません――つまり、組織内でのセキュリティ・パーミッションで別のディレクトリへの書き込みアクセスを制限している場合など。

 "[]http://site.org/path/sitemap.gz[]"を変更することができるなら、"[]http://site.org/path/[]"以下のメタデータを報告する権限があるということになるでしょう。

Q:サイトマップはどれぐらい大きくてもいいですか?

 サーチエンジンは、圧縮解除したときに10MB(10,485,760バイト)以上、あるいは5万以上のURLを含む場合にはサイトマップを処理できません。つまり、5万以上のURLがサイト上にあるとか、サイトマップが10MB以上になる場合は、多数のサイトマップファイルとサイトマップ・インデックスファイルを使わなければならないということです。小さいサイトであっても、5万URL以上、あるいは10MB以上に成長しそうなときは、サイトマップ・インデックスファイルを使うべきです。

Q:サイトには何千万というURLがあります。最近変更したものだけを登録するにはどうしたらいいですか?

 頻繁に更新する少数のサイトマップに更新URLをリストアップし、サイトマップ・インデックスファイルでそのサイトマップファイルを指定するためにlastmodタグを使えばいいです。サーチエンジンは、更新されたサイトマップだけをすぐに巡回するようになるでしょう。

Q:サイトマップを作ったら何が起こるのですか?

 サイトマップを作った後、サイトマップの場所をサーチエンジンに知らせる必要があります。その通知を受けたサーチエンジンはサイトマップを検索し、URLをクローラーがたどれるようにします。

Q:サイトマップのURLは完全に指定されなければいけませんか?

 はい。サーチエンジンは、提供されたとおり正確にURLを巡回します。(XMLコーディングされているなら、サーチエンジンはURLをXMLデコードします) URLにはプロトコル(たとえばhttp)を含む必要があります。ウェブサーバーが必要とするなら、URL末尾のスラッシュも忘れてはいけません。たとえば、[]http://www.google.com/[] はサイトマップのための有効なURLですが、www.google.comはそうではありません。

Q:サイトにはURLが「http」と「https」のバージョンの両方があります。両方ともリストアップする必要がありますか?

 いいえ。サイトマップでは一つのURLには一つだけのバージョンをリストアップしてください。URLの多数のバージョンを含めてあると、サイトの不完全な巡回という結果に終わるかもしれません。

Q:サイト上のURLにはセッションIDがあります。それを取り去る必要がありますか?

 はい。URLにセッションIDを含めていると、サイトの巡回が不完全かつ冗長になるかもしれません。

Q:サイトマップにおけるURLの順番は影響がありますか?

 いいえ。サイトマップにおけるURLの順番は、サーチ・エンジンによって使用・判断される方法に影響を与えません。

Q:サイト上のいくつかのページでフレームを使っています。framesetのURLを入れるべきか、それともフレームの中身のURLを入れるべきですか?

 両方のURLを入れてください。

Q:サイトマップはzip圧縮できますか?それともgzipでないといけませんか?

 サイトマップ圧縮にはgzipを使ってください。

Q:XMLサイトマップ内での「priority」は、検索結果においてわたしのページのランキングを変えますか?

 いいえ。サイトマップでの「priority」は、サイト内の他のURLとの比較におけるURLの優先度を示すだけです。

Q:XMLサイトマップに対して有効にできるXMLスキーマはありますか?

 サイトマップ・ファイルに有効なXMLスキーマはhttp://www.google.com/schemas/sitemap/0.84/sitemap.xsd にあります。サイトマップ・インデックスファイルで有効なXMLスキーマはhttp://www.google.com/schemas/sitemap/0.84/siteindex.xsd にあります。

【広告】★文中キーワードによる自動生成アフィリエイトリンク
以下の広告はこの記事内のキーワードをもとに自動的に選ばれた書籍・音楽等へのリンクです。場合によっては本文内容と矛盾するもの、関係なさそうなものが表示されることもあります。
2005年6月 4日21:42| 記事内容分類:サイト構築・SEO| by 松永英明
この記事のリンク用URL| ≪ 前の記事 ≫ 次の記事
| コメント(3) | トラックバック(67)
twitterでこの記事をつぶやく (旧:

トラックバック(67)

※当ブログへトラックバックされる場合は必ずこのページへのリンクを入れてください。こちらへのリンクのない一方通行トラックバックは承認されません。

トラックバックURL: http://www.kotono8.com/mt5/mt-tb.cgi/424

Google Sitemaps Google Sitemaps Help と、その日本語訳(絵文録ことのは) Googleのクローラーがサイトを巡回する際、サイトの状況を把握してもらえるようになるというGoogle Sitemapsに登録してみまし... 続きを読む

Movable Type 用 Google Sitemaps のテンプレートの例を参考に、TypePad 向けバージョンを書いてみました。 続きを読む

・Google、Webインデックス強化の新ツールβ公開(ITmedia News)  Google Sitemaps(BETA)の当該サイトを見てもチンプンカンプンな訳ですが、ありがたいことにFAQ を和訳してくれたサイトがあ... 続きを読む

Google、Webインデックス強化の新ツールβ公開 仕様に則ったXMLのサイ... 続きを読む

・Google、Webインデックス強化の新ツールβ公開(ITmedia) サイトの検索情報をGoogleに提出するためのツール「Google Sitemaps」がβ公開された。ただし、ランキング操作には利用できない。 ランキ... 続きを読む

Google、Webインデックス強化の新ツールβ公開 サイトの検索情報をGoog 続きを読む

Google、Webインデックス強化の新ツールβ公開 サイトの検索情報をGoog 続きを読む

Google の新サービスである Google Sitemaps に登録してみました。現在の所、英語版のみのサービスらしいのですが、自分の Web サイトの U... 続きを読む

Googleの新サービスで、自分のWebサイトのURL情報などをGoogleに... 続きを読む

RSS から XSLT で簡単に XML Sitemap Format に変換できそうですね.Google Sitemaps については,「絵文録ことのは」で「よくある質問」の日本語訳が公開されていて,とても参考になりました. 続きを読む

Google、更新情報などを検索結果に反映するツールでインデックス強化 Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳。新しいURL登録方法はSEOに必須になる? Google Si... 続きを読む

グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳 GoogleSite... 続きを読む

正史三国志の館Blog 風古 --中華庭園 - Googleサイトマップ (2005年6月 7日 17:45)

2005年6月4日。GoogleからSitemapsβ版が公開された。これはWEBサイトのサイトマップをGoogleに提出し、そこに載っているページをクロールしやすくするためもの。遊園地でいうパンフレットの... 続きを読む

Google Sitemapsを利用するためにテンプレートを1つ作りましたよ。…というお話。 続きを読む

Google Sitemaps 続きを読む

barlog ≫+||||≪ - Google Sitemap MT編 (2005年6月 8日 01:26)

先日のサイトマップですが@Backyard経由、絵文録ことのは経由、SEMリサーチを参考にさせていただきMT用に作成しました。 しかしそのまま提出し1日待ったと... 続きを読む

LeThanhTon Street Journal - Google Sitemapsって (2005年6月 8日 02:47)

ここ数日ウェブを賑わせているGoogle Sitemapsですが、私も早速やっ... 続きを読む

LeThanhTon Street Journal - Google Sitemapsって (2005年6月 8日 02:51)

ここ数日ウェブを賑わせているGoogle Sitemapsですが、私も早速やっ... 続きを読む

barlog ≫+||||≪ - Google Sitemap MT編 (2005年6月 8日 03:27)

先日のサイトマップですが@Backyard経由、絵文録ことのは経由、SEMリサーチを参考にさせていただきMT用に作成しました。 しかしそのまま提出し1日待ったと... 続きを読む

いろんなところで紹介されていますので御存知の方も多いでしょう。 「Google ... 続きを読む

Google Sitemapsというものにこのブログを登録しました。 今まではG... 続きを読む

Google Sitemapsというものにこのブログを登録しました。 今まではG... 続きを読む

面白い記事を見つけました。GoogleでWebインデックス強化の新ツールβ公開というものでGoogleがウェブページをクロール(巡回する)ときに、取りこぼしのないよう、サイト管理人側でURLの... 続きを読む

Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロト... 続きを読む

巷で話題のGoogle Sitemapsに対応してみました。うちのsitemap... 続きを読む

Google Sitemapsとは  Sitemapsが公開されているサイトには、「このような協調的なクローリングシステムがあれば、Googleインデックスのカバー範囲や情報の鮮度が改善される。その結果、Google... 続きを読む

Google Sitemapsとは  Sitemapsが公開されているサイトには、「このような協調的なクローリングシステムがあれば、Googleインデックスのカバー範囲や情報の鮮度が改善される。その結果、Google... 続きを読む

Googleが2005/06に新らしいツールとしてGoogle-Sitemapsのベータ版の提供を開始しました。さっそくGoogleSitemapsの決められたフォーマットを作成支援するテンプレートを作成してみました。 続きを読む

アダルト・ブログでアフィリエイトする方法 - Google Sitemaps作成テンプレート(FC2専用) (2005年6月18日 00:09)

FC2BLOG用Google Sitemaps作成テンプレートが公開されました。これは、この6月から公開されたGoogle Sitemapsのためのツールです。これの効果は、Googleのスパイダーはこちらがサイトを更新しても... 続きを読む

アダルト・ブログでアフィリエイトする方法 - Google Sitemaps作成テンプレートの追記 (2005年6月19日 11:29)

昨日紹介したGoogle Sitemaps作成テンプレート(FC2専用)ですが、Googleの仕様に合わないところがあり、上手く動作しないとの報告を受けました。前回と同じく、 FC2BLOG用Google Sitemaps作成テンプ... 続きを読む

Google Sitemaps ジェネレーターを作るにあたり まずはサイト内のリンクをたどり、URLを抽出するスクリプトを作ってみた 続きを読む

google サイトマップ とりあえず、メモしておこう (´ ▽`) XMLでサイトマップを定義して googleさんに 来い来いカモーンとするものみたい。 より下層までしっかり拾ってくれるよ... 続きを読む

Googleさんが始めた新サービス、「Google Sitemaps」。 これが一般のネットユーザにはな〜んも関係ないのですが、 Web運営者にとってはひじょ〜に重要なサービスなのです。 簡単にいいます... 続きを読む

Googleにウェブマスターのためのガイドラインがあることはご存知でしょうか?ウェブマスターのための Google 情報から確認できます。 グーグルを使用してキーワードで検索して、自分の... 続きを読む

[あ] UnderDone(あんでるどん) - RSS -> Google Sitemaps (2005年7月27日 00:00)

Googleの最近のサービスにGoogle Sitemapsというのがあります。Googleとしては一応すべてのページを巡回しているつもりですが、巡回しきれていないページがあるかもしれないので、それをサポ... 続きを読む

movabletypeのテンプレートの編集からインデックス・テンプレートに新しい... 続きを読む

Google Sitemaps 続きを読む

アフィリエイトで成り上がりセレブに! - Google Sitemapsメモ (2005年9月 8日 10:32)

別サイトの大量のディープリンクがGoogleになかなか拾われないため、Google Sitemaps用のツールはないかと探していたら結構いっぱい見つかった。作成された方、感謝です。 続きを読む

Viewing statistics for your site(Google Sitemaps) いつのことかはわかりませんが、Google Sitemapsにstatsのコーナーができていました。たとえばサイト内のページをgoogleのロボットが読めなかったりした... 続きを読む

Google サイトマップと言うのがあるみたいで、なんじゃらホイ?と思いグッグた... 続きを読む

Google Sitemapsとは  Sitemapsが公開されているサイトには... 続きを読む

Google Sitemaps というクロール依頼(?)サービスが2005年6月から開始されてるそうです。 以下の条件をクリア出来れば利用可能の... 続きを読む

Google サイトマップと言うのがあるみたいで、なんじゃらホイ?と思いグッグた... 続きを読む

「検索エンジンから来る人が いつまでも過去記事のキーワードで来る。」 とか 「Googleの検索結果のキャッシュを見ると すげぇ昔にインデックスさ... 続きを読む

こんにちは。にしまちです。「はじめてのちゃぶろメモ抹茶編」でおなじみの月曜日のたくらみさんが、ちゃぶろでのGoogleSitemaps導入する方法... 続きを読む

クラフトワークス ビジネスブログ - Google Sitemaps 日本語ドキュメント (2005年11月14日 12:53)

いつのまにか google.co.jp にも Google Sitemaps の... 続きを読む

クラフトワークス ビジネスブログ - Google Sitemaps 日本語ドキュメント (2005年11月14日 12:54)

いつのまにか google.co.jp にも Google Sitemaps の... 続きを読む

Googleサイトマップ日本語版が公開されています。 Googleサイトマップ日本語版の公開と同時に、グーグルがそのサイトをどのように見ているかが... 続きを読む

Google Sitemap - ようこそ!  かなり前に見た記憶があったGoogle Sitemapを、MTだとテンプレートで自動生成できるようなのでや... 続きを読む

Google Sitemap - ようこそ!  かなり前に見た記憶があったGoogle Sitemapを、MTだとテンプレートで自動生成できるようなのでや... 続きを読む

これ、そういや触れてませんでした。備忘録兼ねて書いておきます。 Google S... 続きを読む

サラリーマンの気ままなブログ - Movable Typeでgoogleサイトマップを作成 (2006年1月 4日 12:50)

前回のgoogleサイトマップにて手動でgoogleサイトマップを作りましたが、今回は Movabl... 続きを読む

Google Analytics (グーグル、ウェブ解析サービス)については投稿してあったのだが エントリー(投稿)し忘れていたので、今更ながらGoogl... 続きを読む

インターネットビギナーズガイド - FC2ブログ (2006年4月23日 11:48)

FC2ブログが、なんとGoogleサイトマップに対応した!(04/21) 続きを読む

↑ 目次 グーグルサイトマップ いろいろ調べス よくわからんのですが 外部リンク ニュースクリップ 関連するブログ グーグルによる... 続きを読む

Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳。新しいURL登録方法はSEOに必須になる? [絵文録ことのは]2... 続きを読む

PukiWiki/TrackBack 0.1 - 雑記/2006-05-04 (2006年5月 4日 10:54)

Prev 雑記 帽子コレクション。というわけではないが、出歩く際に帽子はかかせない。 で車にはいつも数個の帽子が転がっている。 冬用帽子を片... 続きを読む

ネットショップのためのSEOブログ - Gマップ攻略 (2006年5月 9日 13:32)

Googleサイトマップ、 ご存じですか? SEO的なツールです。 今までになかったツールですので、 この2、3ヶ月、検証してました。 みなさんにも... 続きを読む

Google Sitemaps と Google Analytics を設定した。 Google Sitemaps とは… ITmedia... 続きを読む

01WEBマスター【WEB管理人のための基礎知識】 - グーグルサイトマップ google sitemap とは (2006年10月20日 03:28)

グーグルロボットのためのサイト案内地図 続きを読む

サラリーマンアフィリエイト情報局 - 「Google Sitemap」とは? (2006年10月24日 19:53)

先日、「ROR」についての説明を「「Google Sitemap」より、早くして... 続きを読む

起業家・Webデザイナー・SE→CIOを目指しつつの大学生のアレ - 日々進化しているGoogle Sitemapで効率クローリング (2007年1月21日 23:35)

今更感は否めないですが、知らない人も結構多いGoogle Sitemap。 これ... 続きを読む

Googleから提供されているサイトマップ作成ツール「sitemap_gen.p... 続きを読む

Google Sitemapへの登録方法。 Google Sitemapとは、 サイトマップを使ってグーグルのクローラーに情報提供したり、 ここにあります... 続きを読む

コメント(3)

> URLには新しい行を埋め込んで含んではいけません。

「新しい行」は「改行」としたほうが、より日本語としての意味が取りやすいと思います。

googleで日本語版が公開されてますね。
http://www.google.com/webmasters/sitemaps/docs/ja/faq.html

本日3時間くらい、XMLを勉強しているが
イマイチまだわからない。Googleからダウンロードしてみたが、説明を見ててもわからん・・・

また勉強しにきます。

コメントする

OpenID対応しています OpenIDについて

このブログ記事について

このページは、松永英明が2005年6月 4日 21:42に書いたブログ記事です。
同じジャンルの記事は、サイト構築・SEOをご参照ください。

ひとつ前のブログ記事は「「電車男マーケティング」――フィクションを流行らせて既成事実化する巧妙な戦略」です。

次のブログ記事は「ガードレール金属片 謎を「解明」してみせる人たち」です。

最近のコンテンツはインデックスページで見られます。
過去に書かれたものは月別・カテゴリ別の過去記事ページで見られます。