【絵文録ことのは.】HOME|過去ログ表紙 > [電網社会] > Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳。新しいURL登録方法はSEOに必須になる?
≫ 次:ガードレール金属片 謎を「解明」してみせる人たち
≪ 前: 「電車男マーケティング」――フィクションを流行らせて既成事実化する巧妙な戦略
Googleがサイトマップ(Sitemaps)という新しいツールのβ版を公開した(今のところ英語版のみ)。これは、Googleがウェブページを巡回するときに「取りこぼし」のないよう、サイト管理人側でURLの一覧を提供できるというものだ。
今まではGoogleがリンクをたどってきてくれることを待つ(あるいはたどりやすいようにリンクを設定する)という「巡回待ち」をしなければならなかったが、これからは、更新頻度やサイト内でのファイルの優先順位も含めて、リンク一覧をGoogleに渡すことができるようになるわけである。
ただし、これはページランクを上げるためのものではない。あくまでも巡回で取りこぼしがないようにするものだ。ファイル数が多くてすべてのファイルが巡回してもらえなかった、というようなサイトにとっては福音といえよう。
これからのSEOでは、このグーグル・サイトマップ対策も必須になりそうである。ただし、現在Googleから提供されているサイトマップ・ジェネレーターはpythonにしか対応していないので、iswebなど一部のサーバーでしか使えないのが残念。
以下、β版ということなので、GoogleサイトマップについてのFAQと、サイトマップ・プロトコルについて全訳しておいた。有効に使っていただければ幸いである。
Googleサイトマップはウェブ巡回の実験です。サイトマップを使ってクローラーに情報提供・指示することで、ウェブのカバー範囲を広げ、インデックスに収納する時間を改善したいと思っています。サイトマップ・フォーマット化されたファイルをウェブサーバーにおくことによって、我々のクローラーは、どのようなページが現存しているか、どれが最近変わったのかを見つけ、それに応じてあなたのサイトを巡回できるようにします。
基本的に、Googleサイトマップに参加するには2ステップ必要です。
Googleサイトマップはすべてのウェブサイト・オーナーのためのものです。1ページだけのサイトから、絶えず変化する何百万ものページを持つ会社まで。以下に当てはまるなら、特にGoogleサイトマップに興味を持たれるかもしれません。
まったく何も。Googleは検索結果に関して請求したことはありませんし、そうするつもりもありません。
世界の情報をまとめて広くアクセスできるようにするというGoogleの使命に沿って、この協同的な巡回システムによって、カバー範囲と新鮮さを改善することによってユーザーがGoogleの検索結果を使いやすくなるように、我々のクローラーを最適化することができます。
Googleサイトマップのフォーマットについて学ぶには、以下の「サイトマップの作り方は?」を読んでください。もし直接技術的な詳細に飛びたいなら、サイトマップ・プロトコル(下記)とサイトマップ・ジェネレーターについての文書をご覧ください。
サイトマップを作って登録するためにはアカウントは必要ありません。しかし、サイトマップの状態を追跡し、登録したものへの診断情報を見ることができるようにするには、アカウントに登録することをおすすめします。アカウントを持っていても、結果におけるサイトランキングには影響がありません。もしすでにGmail、グループ、マイサーチヒストリー、アラート、Froogleショッピングリストを使っているなら、すでにGoogleアカウントがありますから、すでに持っているアカウントでGoogleサイトマップを使うことができます。
いいえ。Googleサイトマップを使ってもページランクには影響がありません。ページのランキングの計算には何の変更もありません。
サイトマップ・プロトコルとは、ウェブクローラーに対して適切なサイトマップ情報を要約するためのXMLの記法です。それぞれのURLに対して、最終更新日やおよその更新頻度のような巡回のための「ヒント」を付け加えることができます。サイトマップ・プロトコルの詳細はこちら。
サイトマップを作るには多くの方法があります。グーグルのサイトマップ・ジェネレーターを使うことができます。これはGoogle Codeからダウンロードできます。これは基本的な使い方をする場合のためのサイトマップを生成する単純なスクリプトです。サイトマップ・ジェネレーターについては下記にて詳細を記してあります。もしサイトマップ・ジェネレーターがあなたのサイト構造ではうまく昨日しないなら、サイトマップを生成するオリジナルのスクリプトをご自分で書かれて、それを公開してくださればと思います。
URLのすべてを巡回してインデックスすることを保証するものではありません。しかし、サイトマップのデータからあなたのサイトの構造を学び、クローラーのスケジュールを改善して、将来、あなたのサイトをもっとよく巡回することになるでしょう。たいていウェブマスターはサイトマップを登録すれば利益を得ることになるでしょうし、ペナルティが課せられることは決してありません。
Googleサイトマップにあなたのサイトマップを登録する方法はいくつもあります。サイトマップ・ジェネレーターのスクリプトは、サイトマップを作って登録することを自動的にやってくれます。もしサイトマップ・ジェネレーターを使わないなら、Googleサイトマップ・アカウントからサイトマップを登録してもいいですし、登録のためにHTTPリクエストを使ってもかまいません。
HTTPリクエストを使ってサイトマップを登録するためには、以下のURLへのリクエストを送信してください。
www.google.com/webmasters/sitemaps/ping?sitemap=sitemap_url
たとえば、あなたのサイトマップがhttp://www.example.com/sitemap.gzにあれば、URLはこうなります。
www.google.com/webmasters/sitemaps/ping?sitemap=http://www.example.com/sitemap.gz
「/ping?q=」のあとのURLはすべてエンコードしておいてください。
www.google.com/webmasters/sitemaps/ping?sitemap=http%3A%2F%2Fwww.yoursite.com%2Fsitemap.gz
wget, curlその他のメカニズムを使ってHTTPリクエストを送信することもできます。リクエストが成功すればHTTP 200レスポンス・コードが返されます。別のレスポンスであれば、再登録すべきです。
注:サイトマップ・インデックスファイルを提供しているなら、サイトマップ・インデックスファイルの場所を含むHTTPリクエストを一つ送信するだけでかまいません。インデックス内にリストアップされたそれぞれのサイトマップのために別々にリクエストを送信する必要はないのです。
このベータ期間には、あなたのURLが巡回されたりインデックスに追加されるまでの期間、あるいはされるか否かということについては、いかなる予測も保証もできません。時間が経つにつれて、プロセスが洗練されてウェブマスターの必要をよりよく理解するにつれて、カバー範囲もインデックスされるまでの時間も改善されていくだろうと思います。
サイトマップは、クローラーがアクセスできるウェブサーバー上におかれるべきです。他のロボットがサイトマップファイルにアクセスするのを防ぎたいなら、Robots Exclusion Standardに従ってrobots.txtファイルを使えばいいでしょう。
サイトマップに含めたくないページがあるなら、サイトに投稿された最新のサイトマップファイルから削除すればいいです。
適度に大きなアクセスログ(つまりApache log) を使ってURLを登録することができます。サイトマップ・ジェネレーターは、URLリストから、アクセスログから、あるいはURLに対応した静的ファイルを含むディレクトリパスの指定によって、サイトマップを生成できます。
ライブラリの世界で人気の高いプロトコルであるメタデータ収納のためのOpen Archives Initiative (OAI)プロトコルもサポートしています。もしサイトマップがすでにOAI-PMH version 2.0フォーマットで提供されているなら、これを登録してください。また、link/lastModフィールドを使ったRSS 2.0とAtom 0.3 シンジケーション・フィードも受け入れます。
最後に、もしURLのリストだけを提供したいということであれば、下記の「登録できる最もシンプルなサイトマップは?」を参照してください。
サイトマップのためには、サイトマップあるいはOAIといったXMLフォーマットをお使いになることを強くおすすめします。それはそれぞれのURLに追加情報を関連づけることができるからです。しかし、単純なURLリストだけのテキストファイル形式のサイトマップも受け入れます。単純なサイトマップ・フォーマットは、1行に1URLというURLリストです。たとえば:
http://www.example.com/catalog?item=1 http://www.example.com/catalog?item=11 ……
このフォーマットについてのメモ:
Googleは XMLスキーマを使って、サイトマップに使われる要素と属性を定義します。下記のリンクからこのスキーマをダウンロードできます。
このスキーマに基づいてサイトマップの構造を実証する助けとなる多くのツールがあります。下記の場所でXML関連ツールを見つけることができます。
サイトマップまたはサイトマップ・インデックスファイルをあるスキーマに対して検証するには、XMLファイルには追加ヘッダが必要になります。サイトマップ・ジェネレーターを使っているなら、これらのヘッダはすでに含まれています。別のツールを使ってサイトマップを作っているなら、XMLファイル内のヘッダは以下の例のようなものになります。
サイトマップ:
<?xml version='1.0' encoding='UTF-8'?> <urlset xmlns="http://www.google.com/schemas/sitemap/0.84" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84 http://www.google.com/schemas/sitemap/0.84/sitemap.xsd"> <url> ... </url> </urlset>
サイトマップ・インデックスファイル:
<?xml version='1.0' encoding='UTF-8'?> <sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.google.com/schemas/sitemap/0.84 http://http://www.google.com/schemas/sitemap/0.84/siteindex.xsd"> <sitemap> ... </sitemap> </sitemapindex>
サイトマップ・ジェネレーターは、自動的にサイトマップを生成してGoogleに登録するように設定できる単純なスクリプトです。サイトマップ・ジェネレーターは、URLリストから、アクセスログから、あるいはURLに対応した静的ファイルを含むディレクトリパスの指定によって、サイトマップを生成できます。サイトマップ・ジェネレーターの詳細についてはこちら。
サイトマップ・ジェネレーターはPython 2.2以降のバージョンが必要です。サイトマップ・ジェネレーターを使っているウェブマスターは、ウェブサーバーへのファイル転送とスクリプト稼働のための知識が必要です。
サイトマップ・ジェネレーターを設定・稼働させるための解説はこちら。
サイトマップ・ジェネレーターはGoogle Codeにおけるオープンソース・プロジェクトの一つとしてリストアップされています。
誰か他の人たちが様々な状況に対応するサイトマップ生成ツールを開発・公開してくださることを期待しています。開発者は、GoogleサイトマップのためのGoogleグループ上で作品について論じ、共有していただければと思います。
あなたのGoogleサイトマップ・アカウントは、登録されたサイトマップ、最近の更新についての情報を提供します。また、Googleによって巡回される新しいサイトマップを登録できます。Google アカウントにはログインが必要です。アカウントのホームページで登録してください。もしすでにGmail、グループ、マイサーチヒストリー、アラート、Froogleショッピングリストを使っているなら、すでにGoogleアカウントがありますから、すでに持っているアカウントでサインインできます。
サイトマップを登録するにはアカウントを使わなくてもかまいません。しかし、アカウント経由でサイトマップを登録するなら、すべての登録の状態を追跡することができます。
サイトマップを作ってウェブサーバー上のアクセスできる場所に置いたなら、診断情報を見るためにサイトマップのリストにそれを追加する必要があります。サイトマップリストに追加するには、
新しいサイトマップがメインページに追加されます。もしサイトマップ回収時にエラーが起こったら、修復して再登録するように表示されます。
各サイトマップの右にある「Remove」リンクをクリックすれば、リストからサイトマップを削除できます。
サイトマップ内のURLが変化したとか、すでにリストアップされているページを更新したらいつでも、再巡回のためにサイトマップを再登録できます。必要なサイトマップの右にある「Resubmit」リンクをクリックするだけです。「Submitted」の時刻は、この最新の登録を反映して更新されます。
通常のツール(おすすめ)を使ってサイトマップを生成・登録することを自動化しているなら、Googleサイトマップ・アカウントで再登録リンクを使う必要はありません。「Submitted」の列は、リンクを手動でクリックした最後の時間を示し続けるでしょう。しかし、「Downloaded」の列は、我々のシステムがサイトマップを取得した最新の時刻を示すよう更新されます。
アカウントにアクセスできないとか、パスワードを忘れたときには、こちらへどうぞ。
https://www.google.com/accounts/ForgotPasswd
「Submitted」の列は、サイトマップがアカウント経由で最後に手動登録された時刻を示しています。もし、サイトマップ・ジェネレーターその他のアプリケーションを使ってウェブサーバー上で稼働するスクリプトを設定しているなら、登録はアカウントには反映されません。
しかし、アカウントでは、これらの登録の結果、Googleによってあなたのサイトマップがダウンロードされた最新の時間を、「Last Downloaded」の列で示しています。
技術的な問題の助けが必要なら、あるいは他のウェブマスターとプログラムについて論じたいなら、Googleサイトマップ・グループのページへどうぞ。質問の答えを見つけることができるでしょうし、参加者が増えれば情報も集まってきます。我々は議論も読みますし、必要であれば援助を申し出ることもあるでしょう。
わたしたちはGoogleサイトマップ・グループページでの議論を呼んでいます。そして、プログラムについての意見や提案にも目を通すことになります。それは、世界中の専門家ウェブマスターからの技術的な援助も得られる場所です。質問がここで答えられず、Googleサイトマップに関するトラブルがまだあるなら、ここでご連絡ください。個々のウェブサイトに対して技術的援助をしたり、受け取ったすべての電子メールに個々に返答することはできません。しかし、送っていただいたフィードバックのすべてを読んで、それをGoogleサイトマップ改善のために使わせていただきます。
サイトマップ・プロトコルは、サーチエンジン・クローラーに、巡回できるウェブサイト上のURLを教えることができます。サイトマップはURLのリストでできており、そのURLの追加情報として、最終更新時刻、更新頻度などを含めることもできます。
ユーザーがブラウズできるインターフェースを通してウェブサイトのすべての領域に到達できないとき――つまり、ユーザーがリンクをたどってもサイトの一部のページや領域に到達できないときには、サイトマップは特に有益なものとなります。たとえば、特定のページは検索フォームからしかアクセスできないというサイトでは、サイトマップを作ってサーチエンジンに登録することで利益を得られるでしょう。
この文書ではサイトマップ・ファイルのためのフォーマットを記述しています。また、サーチエンジンがそれを検索できるように、サイトマップをどこに置くべきかを解説しています。
サイトマップ・プロトコルは、サーチエンジンがすでにURLを検出するために使っている巡回に基づいた機構を補うものではあっても、それに取って代わるものではないことにご注意ください。サーチエンジンにサイトマップ(複数でも可)を登録することで、エンジンのクローラーがあなたのサイトをよりよく巡回する助けとなるでしょう。
このプロトコルを使ったとしても、ウェブページが検索インデックスに収められることを保証しません。また、このプロトコルを使っても、サーチエンジンによるページのランキングは影響を受けないかもしれません。
Sitemap 0.84は、Attribution-ShareAlike Criative Commons Licenceのもとで提供されます。
XMLサイトマップ・フォーマットで、サイトマップの中に、URLリストとそのURLの追加情報を盛り込むことができます。この追加情報は、そのURLの内容が最後に変更された日付、その内容がどのくらいの頻度で更新されるか、そのURLがサイト内の他のURLと比べてどれくらい重要か、などです。
XMLサイトマップ・フォーマットは次のXMLタグを使います。
注:サイトマップ・ファイルのすべてのデータ値はURLを含めてXMLエンコードされていなければなりません。以下の表は、文字とその対応するエンコード値のリストです。ある文字をXMLエンコードするには、実体参照も文字コードも使うことができます。XMLエンコードについての詳細についてはFAQ参照。
| 文字 | エスケープ形式 | ||
|---|---|---|---|
| 実体参照 | 文字コード | ||
| アンパサンド | & | & | & |
| シングルクォーテーションマーク | ' | ' | ' |
| ダブルクォーテーションマーク | " | " | " |
| 大なり | > | > | > |
| 小なり | < | < | < |
以下の例は、XMLフォーマットのサイトマップです。例示したサイトマップにはいくつかのURLが含まれており、それぞれがloc XMLタグでくくられています。この例ではそれぞれのURLごとに別のオプションパラメーターが設定されています。
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.yoursite.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.yoursite.com/catalog?item=12&desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.yoursite.com/catalog?item=73&desc=vacation_new_zealand</loc>
<lastmod>2004-12-23</lastmod>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.yoursite.com/catalog?item=74&desc=vacation_newfoundland</loc>
<lastmod>2004-12-23T18:00:15+00:00</lastmod>
<priority>0.3</priority>
</url>
<url>
<loc>http://www.yoursite.com/catalog?item=83&desc=vacation_usa</loc>
<lastmod>2004-11-23</lastmod>
</url>
</urlset>
gzipを使ってサイトマップ・ファイルを圧縮することができます。サイトマップ・ファイルを圧縮すれば、必要な帯域幅を減らすことになるでしょう。圧縮解除されたサイトマップ・ファイルは10MBより大きくならないように気をつけてください。
注:サイトマップ・ファイルはUTF-8エンコーディングを使わなければなりません。
この節では、サイトマップに使えるXMLタグについての詳細を示します。いくつかのXMLタグ定義にある「サブタグ」では、クエスチョンマーク(「?」)がXMLタグ名の後ろに付いているとき、これは任意であることを示します。
| changefreq | |
| 定義 | 任意。この値は特定のURLにおける内容がどれくらいの頻度で更新される可能性があるかを示します。値は"always"(常時), "hourly"(毎時), "daily"(毎日), "weekly"(毎週), "monthly"(毎月), "yearly"(毎年) , "never"(不変)です。"always"値はアクセスごとに変わる文書を示すために使われます。"never"値は、保存用URLを記述するために使われます。 このタグの値はヒントであって、命令ではないことに注意。決定するとき、サーチエンジン・クローラーはこの情報を考慮に入れますが、"hourly"と指定されたページを巡回するのはそれ以下の頻度になるでしょうし、"yearly"と指定されたページはそれ以上の頻度で巡回するかもしれません。クローラーは"never"とされたページも定期的に巡回します。それはこれらのページに突然変更が加えられても処理できるようにです。 |
|---|---|
| 制約 | 列挙されたリスト。有効値は"always", "hourly", "daily", "weekly", "monthly", "yearly", "never"。 |
| 例 | <changefreq>monthly</changefreq> |
| 上位タグ | url |
| 内容フォーマット | テキスト |
| lastmod | |
| 定義 | 任意。URLが最後に修正された日時。ISO 8601を使ってタイムスタンプを指定すること。たとえば、2004-09-22T14:12:14+00:00。ISO 8601フォーマットの時間部分を省略できます。たとえば、2004-09-22も有効です。この情報で、クローラーは変化していない文書を再巡回しなくて済むようになります。 |
|---|---|
| 制約 | 値はISO 8601フォーマットでなければならない。 |
| 例 | <lastmod>2005-02-21</lastmod> or <lastmod>2005-02-21T18:00:15+00:00</lastmod> |
| 上位タグ | url |
| 内容フォーマット | テキスト |
| loc | |
| 定義 | 必須。サイト上のページのURL。 |
|---|---|
| 制約 | 値は2048文字以下でなければならない。 |
| 例 | <loc>http://www.yoursite.com/catalog?item=1&desc=vacation_hawaii</loc> |
| 上位タグ | url |
| 内容フォーマット | テキスト |
| priority | |
| 定義 | 任意。特定のURLを同じサイト内の他のページと比べたときの「相対的」な優先度。このタグの値は0.0と1.0の間です。0.0はサイト内で最も優先度の低いページ、1.0はサイト内で最も優先度の高いページとなります。 あるページのデフォルトの優先度は0.5です。 あるページに割り当てた優先度は、サーチエンジンの結果ページにおけるURLの場所には影響しないことに注意。同じサイト上のURLの間で選択するときに、サーチエンジンはこの情報を使います。そのため、重要なページが検索インデックスに存在する可能性を高めることができます。 また、サイト上のすべてのURLに高い優先度を割り当てても意味がないことに注意。優先度は相対的なので、サイト内のURLの間での選択にしか使われません。ページの優先度は、他のサイトのページの優先度と比較されることはありません。 |
|---|---|
| 制約 | 値は 0.0 から 1.0 までの間でなければならない |
| 例 | <priority>0.7</priority> |
| 上位タグ | url |
| 内容フォーマット | テキスト |
| url | |
| 定義 | 特定の URL についての情報をくくります。 |
|---|---|
| サブタグ | changefreq?, lastmod?, loc, priority? |
| 上位タグ | urlset |
| 内容フォーマット | 空 |
| urlset | |
| 定義 | サイトマップファイル内のすべてのURLについての情報をくくります。 |
|---|---|
| サブタグ | url |
| 内容フォーマット | 空 |
多数のサイトマップファイルを提供することができますが、それぞれのファイルは5万URLを超えてはいけません。また、圧縮解除されたときに10MB(10,485,760)より大きくなってはいけません。これらの限界は、ウェブサーバーがあまりにも巨大なファイルを提供してダウンしたりしないようにするものです。5万以上のURLをリストアップしたければ、多数のサイトマップ・ファイルを作らなければなりません。サイトマップが5万URLまたは10MBを超えた大きさになると予想されるなら、多数のサイトマップ・ファイルを作ることを考慮すべきです。多数のサイトマップを提供するなら、サイトマップ・インデックスファイルでリストアップしなければなりません。サイトマップ・インデックスファイルでは1,000以上のサイトマップをリストできないかもしれません。サイトマップ・インデックスファイルは Sitemap_index.xml と名付けることができます。
サイトマップ・インデックスファイルの XML フォーマットは、サイトマップファイルの XMLフォーマットに非常に似ています。サイトマップ・インデックスファイルは次のXMLタグを使います。
注:サイトマップ・インデックスファイルは、同じサイトにあるサイトマップだけを指定できます。たとえば、http://www.yoursite.com/sitemap_index.xml は http://www.yoursite.com にあるサイトマップを含むことができますが、http://www.mysite.com あるいは http://yourhost.yoursite.com にあるものはだめです。
次の例はXMLフォーマットでのサイトマップ・インデックスを示します。このサイトマップ・インデックスは2つのサイトマップをリストアップしています。
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84">
<sitemap>
<loc>http://www.mysite.com/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.mysite.com/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
注:サイトマップURLは、XMLファイルのすべての値と同様、XMLエンコードされていなければなりません。
サイトマップファイルの場所で、そのサイトマップに含むことのできるURLの組み合わせが決まります。http://yoursite.com/catalog/sitemap.gz にあるサイトマップ・ファイルはhttp://yoursite.com/catalog/ に始まるURLを含むことができますが、http://yoursite.com/images/ に始まるURLを含むことができません。
"http://site.org/path/sitemap.gz"を変更する権限があるなら、"http://site.org/path/"に始まるURLの情報を提供する権限があるということになるでしょう。http://yoursite.com/catalog/sitemap.gz で有効と思われるURLの例。
http://yoursite.com/catalog/sitemap.gz で有効ではないと思われるURL の例。
有効と見なされないURLはそれ以上たどられることはありません。サイトマップをウェブサーバーのルートディレクトリに置くことを強く推奨します。たとえば、HTTPウェブサーバーが yoursite.com にあるなら、サイトマップ・インデックスファイルは "http://yoursite.com/sitemap.gz" にあるといいでしょう。特定のケースで、異なったパスのための別のサイトマップを作る必要があるかもしれません――つまり、組織内でのセキュリティ・パーミッションで別のディレクトリへの書き込みアクセスを制限している場合など。
適切にURLエンコードするには、HTML 4.0仕様書B.2.1節で勧告された手続きに従ってください。文字列をUTF-8に変換してから、その結果をURLエスケープしてください。国際化リソース識別子(IRI)の詳細は、RFC2396 (セクション2.3と2.4)ならびにRFC3987を参照のこと。
以下はURLをXMLコーディングするpythonスクリプトの例。
$ python
Python 2.2.2 (#1, Feb 24 2003, 19:13:11)
>>> import xml.sax.saxutils
>>> xml.sax.saxutils.escape("http://www.test.org/view?widget=3&count>2")
この例でエンコードされたURLは以下のようになります。
http://www.test.org/view?widget=3&count>2
はい。サイトマップ・ファイルはUTF-8エンコードを使わなければなりません。
lastmodタイムスタンプ、ならびにこのプロトコルのすべての日付と時刻はISO 8601エンコーディングを使ってください。たとえば、 2004-09-22T14:12:14+00:00。
ISO 8601フォーマットの時間部分を省略することもできます。たとえば、2004-09-22も有効。しかし、サイトがしばしば変更されるなら、クローラーがサイトについての完全な情報を手に入れられるよう、時間部分も含めておくことをおすすめします。
変化がないファイルにおいては、これは実際にファイルが更新された日付です。この日付を手に入れるには、UNIX dateコマンドを使うことができます。
$ date --iso-8601=seconds -u -r /home/foo/www/bar.html
>> 2004-10-26T08:56:39+00:00
多くのダイナミックURLにおいては、lastmodの日時は、もとになるデータが変更されたとき、あるいは周期的な更新に基づく近似値(可能であれば)によってlastmodの日付を決めることができるかもしれません。およその日付やタイムスタンプであっても使ってあれば、クローラーは変更されていないURLを巡回しなくてすみます。これはウェブサーバーの帯域とCPUへの要求を減らすことになるでしょう。
サイトマップをHTMLサーバーのルートディレクトリに置くことを強くおすすめします。つまり、http://yoursite.com/sitemap.gzに置いてください。
特定のケースで、異なったパスのための別のサイトマップを作る必要があるかもしれません――つまり、組織内でのセキュリティ・パーミッションで別のディレクトリへの書き込みアクセスを制限している場合など。
"http://site.org/path/sitemap.gz"を変更することができるなら、"http://site.org/path/"以下のメタデータを報告する権限があるということになるでしょう。
サーチエンジンは、圧縮解除したときに10MB(10,485,760バイト)以上、あるいは5万以上のURLを含む場合にはサイトマップを処理できません。つまり、5万以上のURLがサイト上にあるとか、サイトマップが10MB以上になる場合は、多数のサイトマップファイルとサイトマップ・インデックスファイルを使わなければならないということです。小さいサイトであっても、5万URL以上、あるいは10MB以上に成長しそうなときは、サイトマップ・インデックスファイルを使うべきです。
頻繁に更新する少数のサイトマップに更新URLをリストアップし、サイトマップ・インデックスファイルでそのサイトマップファイルを指定するためにlastmodタグを使えばいいです。サーチエンジンは、更新されたサイトマップだけをすぐに巡回するようになるでしょう。
サイトマップを作った後、サイトマップの場所をサーチエンジンに知らせる必要があります。その通知を受けたサーチエンジンはサイトマップを検索し、URLをクローラーがたどれるようにします。
はい。サーチエンジンは、提供されたとおり正確にURLを巡回します。(XMLコーディングされているなら、サーチエンジンはURLをXMLデコードします) URLにはプロトコル(たとえばhttp)を含む必要があります。ウェブサーバーが必要とするなら、URL末尾のスラッシュも忘れてはいけません。たとえば、http://www.google.com/ はサイトマップのための有効なURLですが、www.google.comはそうではありません。
いいえ。サイトマップでは一つのURLには一つだけのバージョンをリストアップしてください。URLの多数のバージョンを含めてあると、サイトの不完全な巡回という結果に終わるかもしれません。
はい。URLにセッションIDを含めていると、サイトの巡回が不完全かつ冗長になるかもしれません。
いいえ。サイトマップにおけるURLの順番は、サーチ・エンジンによって使用・判断される方法に影響を与えません。
両方のURLを入れてください。
サイトマップ圧縮にはgzipを使ってください。
いいえ。サイトマップでの「priority」は、サイト内の他のURLとの比較におけるURLの優先度を示すだけです。
サイトマップ・ファイルに有効なXMLスキーマはhttp://www.google.com/schemas/sitemap/0.84/sitemap.xsd にあります。サイトマップ・インデックスファイルで有効なXMLスキーマはhttp://www.google.com/schemas/sitemap/0.84/siteindex.xsd にあります。
コメントとトラックバック
[No.1] トラックバック:「Google Sitemaps」(the meager)[2005年6月 5日 03:52]
Google Sitemaps Google Sitemaps Help と、その日本語訳(絵文録ことのは) Googleのクローラーがサイトを巡回する際、サイトの状況を把握してもらえるようになるというGoogle Sitemapsに登録してみまし...……[全文を読む][No.2] トラックバック:「TypePad 用 Google Sitemaps テンプレート」(観測気球)[2005年6月 5日 16:51]
Movable Type 用 Google Sitemaps のテンプレートの例を参考に、TypePad 向けバージョンを書いてみました。……[全文を読む][No.3] トラックバック:「Google、Webインデックス強化の新ツールβ公開」(@Backyard)[2005年6月 6日 01:12]
・Google、Webインデックス強化の新ツールβ公開(ITmedia News) Google Sitemaps(BETA)の当該サイトを見てもチンプンカンプンな訳ですが、ありがたいことにFAQ を和訳してくれたサイトがあ...……[全文を読む][No.4] トラックバック:「Google Sitemaps β版」(外部記憶)[2005年6月 6日 07:21]
Google、Webインデックス強化の新ツールβ公開 仕様に則ったXMLのサイ...……[全文を読む][No.5] トラックバック:「Googleクロール用のサイトマップ仕様がβ公開」(ShinBLOG)[2005年6月 6日 11:16]
・Google、Webインデックス強化の新ツールβ公開(ITmedia) サイトの検索情報をGoogleに提出するためのツール「Google Sitemaps」がβ公開された。ただし、ランキング操作には利用できない。 ランキ...……[全文を読む][No.6] トラックバック:「Google、Webインデックス強化の新ツールβ公開」(てけとぉな blog)[2005年6月 6日 12:48]
Google、Webインデックス強化の新ツールβ公開 サイトの検索情報をGoog……[全文を読む][No.7] トラックバック:「Google、Webインデックス強化の新ツールβ公開」(てけとぉな blog)[2005年6月 6日 12:49]
Google、Webインデックス強化の新ツールβ公開 サイトの検索情報をGoog……[全文を読む][No.8] トラックバック:「Google Sitemaps(BETA) に登録」(Luna's*PaPa)[2005年6月 6日 17:09]
Google の新サービスである Google Sitemaps に登録してみました。現在の所、英語版のみのサービスらしいのですが、自分の Web サイトの U...……[全文を読む][No.9] トラックバック:「Google Sitemaps」(Magic White)[2005年6月 6日 21:52]
Googleの新サービスで、自分のWebサイトのURL情報などをGoogleに...……[全文を読む][No.10] トラックバック:「XML Sitemap Format と RSS (RDF Site Summary)」(おのひろきおんらいん)[2005年6月 6日 22:57]
RSS から XSLT で簡単に XML Sitemap Format に変換できそうですね.Google Sitemaps については,「絵文録ことのは」で「よくある質問」の日本語訳が公開されていて,とても参考になりました.……[全文を読む][No.11] トラックバック:「Movable TypeとGoogle Sitemaps」(野良犬の塒)[2005年6月 7日 00:40]
Google、更新情報などを検索結果に反映するツールでインデックス強化 Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳。新しいURL登録方法はSEOに必須になる? Google Si...……[全文を読む][No.12] トラックバック:「グーグル・サイトマップ」(Knowledge Blog)[2005年6月 7日 11:39]
グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳 GoogleSite...……[全文を読む][No.13] トラックバック:「Googleサイトマップ」(正史三国志の館Blog 風古 --中華庭園)[2005年6月 7日 17:45]
2005年6月4日。GoogleからSitemapsβ版が公開された。これはWEBサイトのサイトマップをGoogleに提出し、そこに載っているページをクロールしやすくするためもの。遊園地でいうパンフレットの...……[全文を読む][No.14] トラックバック:「Google Sitemapsを利用してみる」(CEFA::Blog)[2005年6月 7日 20:14]
Google Sitemapsを利用するためにテンプレートを1つ作りましたよ。…というお話。……[全文を読む][No.15] トラックバック:「Google Sitemaps」(KoshigoeBLOG)[2005年6月 7日 20:57]
Google Sitemaps……[全文を読む][No.16] トラックバック:「Google Sitemap MT編」(barlog ≫+||||≪)[2005年6月 8日 01:26]
先日のサイトマップですが@Backyard経由、絵文録ことのは経由、SEMリサーチを参考にさせていただきMT用に作成しました。 しかしそのまま提出し1日待ったと...……[全文を読む][No.17] トラックバック:「Google Sitemapsって」(LeThanhTon Street Journal)[2005年6月 8日 02:47]
ここ数日ウェブを賑わせているGoogle Sitemapsですが、私も早速やっ...……[全文を読む][No.18] トラックバック:「Google Sitemapsって」(LeThanhTon Street Journal)[2005年6月 8日 02:51]
ここ数日ウェブを賑わせているGoogle Sitemapsですが、私も早速やっ...……[全文を読む][No.19] トラックバック:「Google Sitemap MT編」(barlog ≫+||||≪)[2005年6月 8日 03:27]
先日のサイトマップですが@Backyard経由、絵文録ことのは経由、SEMリサーチを参考にさせていただきMT用に作成しました。 しかしそのまま提出し1日待ったと...……[全文を読む][No.20] トラックバック:「サイトマップをGoogleに提出。。ウマァー?!」(縁にまつわるエトセトラ。。)[2005年6月 8日 10:54]
いろんなところで紹介されていますので御存知の方も多いでしょう。 「Google ...……[全文を読む][No.21] トラックバック:「Google Sitemapsといふもの」(JING's blog)[2005年6月 8日 20:08]
Google Sitemapsというものにこのブログを登録しました。 今まではG...……[全文を読む][No.22] トラックバック:「Google Sitemapsといふもの」(JING's blog)[2005年6月 8日 20:10]
Google Sitemapsというものにこのブログを登録しました。 今まではG...……[全文を読む][No.23] トラックバック:「Google、Webインデックス強化の新ツールβ 「Google Sitemaps」公開」(初心に返る副業アフィリエイト)[2005年6月10日 09:24]
面白い記事を見つけました。GoogleでWebインデックス強化の新ツールβ公開というものでGoogleがウェブページをクロール(巡回する)ときに、取りこぼしのないよう、サイト管理人側でURLの...……[全文を読む][No.24] トラックバック:「Google Sitemaps 登録」(Lost-Season)[2005年6月11日 13:07]
Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロト...……[全文を読む][No.25] トラックバック:「Google Sitemapsに対応してみる」(*nisshi.jp)[2005年6月12日 20:35]
巷で話題のGoogle Sitemapsに対応してみました。うちのsitemap...……[全文を読む][No.26] トラックバック:「Google Sitemapsを試してみる」(waterbird.jp BLOG)[2005年6月14日 02:17]
Google Sitemapsとは Sitemapsが公開されているサイトには、「このような協調的なクローリングシステムがあれば、Googleインデックスのカバー範囲や情報の鮮度が改善される。その結果、Google...……[全文を読む][No.27] トラックバック:「Google Sitemapsを試してみる」(waterbird.jp BLOG)[2005年6月14日 02:19]
Google Sitemapsとは Sitemapsが公開されているサイトには、「このような協調的なクローリングシステムがあれば、Googleインデックスのカバー範囲や情報の鮮度が改善される。その結果、Google...……[全文を読む][No.28] トラックバック:「FC2BLOG用Google Sitemaps作成テンプレート」(お気に入りはなんざんしょ。)[2005年6月17日 17:55]
Googleが2005/06に新らしいツールとしてGoogle-Sitemapsのベータ版の提供を開始しました。さっそくGoogleSitemapsの決められたフォーマットを作成支援するテンプレートを作成してみました。……[全文を読む][No.29] トラックバック:「Google Sitemaps作成テンプレート(FC2専用)」(アダルト・ブログでアフィリエイトする方法)[2005年6月18日 00:09]
FC2BLOG用Google Sitemaps作成テンプレートが公開されました。これは、この6月から公開されたGoogle Sitemapsのためのツールです。これの効果は、Googleのスパイダーはこちらがサイトを更新しても...……[全文を読む][No.30] トラックバック:「Google Sitemaps作成テンプレートの追記」(アダルト・ブログでアフィリエイトする方法)[2005年6月19日 11:29]
昨日紹介したGoogle Sitemaps作成テンプレート(FC2専用)ですが、Googleの仕様に合わないところがあり、上手く動作しないとの報告を受けました。前回と同じく、 FC2BLOG用Google Sitemaps作成テンプ...……[全文を読む][No.31] トラックバック:「サイト探索」(Produce by Sieg)[2005年7月 2日 04:30]
Google Sitemaps ジェネレーターを作るにあたり まずはサイト内のリンクをたどり、URLを抽出するスクリプトを作ってみた……[全文を読む][No.32] トラックバック:「google sitemap (メモ)」(テストBLOG)[2005年7月 6日 19:13]
google サイトマップ とりあえず、メモしておこう (´ ▽`) XMLでサイトマップを定義して googleさんに 来い来いカモーンとするものみたい。 より下層までしっかり拾ってくれるよ...……[全文を読む][No.33] トラックバック:「Google Sitemapsに登録する」(XOOPS Log)[2005年7月14日 22:01]
Googleさんが始めた新サービス、「Google Sitemaps」。 これが一般のネットユーザにはな〜んも関係ないのですが、 Web運営者にとってはひじょ〜に重要なサービスなのです。 簡単にいいます...……[全文を読む][No.34] トラックバック:「ウェブマスターのための Google 情報」(オンラインカジノの舞台裏)[2005年7月26日 05:48]
Googleにウェブマスターのためのガイドラインがあることはご存知でしょうか?ウェブマスターのための Google 情報から確認できます。 グーグルを使用してキーワードで検索して、自分の...……[全文を読む][No.35] トラックバック:「RSS -> Google Sitemaps」([あ] UnderDone(あんでるどん))[2005年7月27日 00:00]
Googleの最近のサービスにGoogle Sitemapsというのがあります。Googleとしては一応すべてのページを巡回しているつもりですが、巡回しきれていないページがあるかもしれないので、それをサポ...……[全文を読む][No.36] トラックバック:「グーグル サイトマップ」(お買い物大好き)[2005年8月12日 18:28]
movabletypeのテンプレートの編集からインデックス・テンプレートに新しい...……[全文を読む][No.37] トラックバック:「Google Sitemaps」(KoshigoeBLOG)[2005年9月 5日 00:54]
Google Sitemaps……[全文を読む][No.38] トラックバック:「Google Sitemapsメモ」(アフィリエイトで成り上がりセレブに!)[2005年9月 8日 10:32]
別サイトの大量のディープリンクがGoogleになかなか拾われないため、Google Sitemaps用のツールはないかと探していたら結構いっぱい見つかった。作成された方、感謝です。 ……[全文を読む][No.39] トラックバック:「Google Sitemaps に統計機能がついてた」(the meager)[2005年9月10日 04:44]
Viewing statistics for your site(Google Sitemaps) いつのことかはわかりませんが、Google Sitemapsにstatsのコーナーができていました。たとえばサイト内のページをgoogleのロボットが読めなかったりした...……[全文を読む][No.40] トラックバック:「Google Sitemapsを作って、登録 」(BLOG REMINDER)[2005年10月 3日 01:29]
Google サイトマップと言うのがあるみたいで、なんじゃらホイ?と思いグッグた...……[全文を読む][No.41] トラックバック:「Google Sitemapsを試してみる」(waterbird.jp BLOG)[2005年10月11日 07:10]
Google Sitemapsとは Sitemapsが公開されているサイトには...……[全文を読む][No.42] トラックバック:「Google Sitemaps (BETA) の使い方」(yahooとgoogle日和見日記)[2005年10月11日 12:05]
Google Sitemaps というクロール依頼(?)サービスが2005年6月から開始されてるそうです。 以下の条件をクリア出来れば利用可能の...……[全文を読む][No.43] 投稿者:Landscape[2005年10月24日 20:12]
> URLには新しい行を埋め込んで含んではいけません。
「新しい行」は「改行」としたほうが、より日本語としての意味が取りやすいと思います。
[No.44] トラックバック:「ふたつのサイトマップ(メルマガ第13号)」(MT専科)[2005年10月27日 01:11]
メルマガ第13号です。...……[全文を読む][No.45] トラックバック:「Google Sitemapsを作って、登録」(BLOG REMINDER)[2005年10月30日 19:39]
Google サイトマップと言うのがあるみたいで、なんじゃらホイ?と思いグッグた...……[全文を読む][No.46] トラックバック:「Google site maps」(Kappers)[2005年10月30日 21:16]
「検索エンジンから来る人が いつまでも過去記事のキーワードで来る。」 とか 「Googleの検索結果のキャッシュを見ると すげぇ昔にインデックスさ...……[全文を読む][No.47] トラックバック:「ふたつのサイトマップ(#13)」(MT専科)[2005年11月 1日 00:01]
メルマガ第13号です。...……[全文を読む][No.48] トラックバック:「ちゃぶろで Google Sitemaps を利用する」(抹茶ラボ - Infomation)[2005年11月 4日 12:59]
こんにちは。にしまちです。「はじめてのちゃぶろメモ抹茶編」でおなじみの月曜日のたくらみさんが、ちゃぶろでのGoogleSitemaps導入する方法...……[全文を読む][No.49] 投稿者:rava[2005年11月 9日 14:56]
googleで日本語版が公開されてますね。
http://www.google.com/webmasters/sitemaps/docs/ja/faq.html
[No.50] トラックバック:「Google Sitemaps 日本語ドキュメント」(クラフトワークス ビジネスブログ)[2005年11月14日 12:53]
いつのまにか google.co.jp にも Google Sitemaps の...……[全文を読む][No.51] トラックバック:「Google Sitemaps 日本語ドキュメント」(クラフトワークス ビジネスブログ)[2005年11月14日 12:54]
いつのまにか google.co.jp にも Google Sitemaps の...……[全文を読む][No.52] トラックバック:「「Google Sitemaps(ベータ版)」日本語版「Googleサイトマップ(ベータ版)」で強化された統計情報」(lab-a.sakura.ne.jp)[2005年11月18日 06:45]
Googleサイトマップ日本語版が公開されています。 Googleサイトマップ日本語版の公開と同時に、グーグルがそのサイトをどのように見ているかが...……[全文を読む][No.53] トラックバック:「Google Sitemapを使ってみる」(Melight Elmuse)[2005年11月26日 10:37]
Google Sitemap - ようこそ! かなり前に見た記憶があったGoogle Sitemapを、MTだとテンプレートで自動生成できるようなのでや...……[全文を読む][No.54] トラックバック:「Google Sitemapを使ってみる」(Melight Elmuse)[2005年11月26日 10:38]
Google Sitemap - ようこそ! かなり前に見た記憶があったGoogle Sitemapを、MTだとテンプレートで自動生成できるようなのでや...……[全文を読む][No.55] トラックバック:「Google Sitemaps」(SPIRIT SPREAD)[2005年11月27日 19:35]
これ、そういや触れてませんでした。備忘録兼ねて書いておきます。 Google S...……[全文を読む][No.56] トラックバック:「ふたつのサイトマップ(#13)」(MT専科)[2005年12月 7日 22:04]
メルマガ第13号です。...……[全文を読む][No.57] トラックバック:「Movable Typeでgoogleサイトマップを作成」(サラリーマンの気ままなブログ)[2006年1月 4日 12:50]
前回のgoogleサイトマップにて手動でgoogleサイトマップを作りましたが、今回は Movabl...……[全文を読む][No.58] トラックバック:「Google Sitemaps(サイトマップ)〜Googlebot君はあなたのサイトをどう見るか?〜」(MyPersonalLinks+)[2006年1月 8日 16:25]
Google Analytics (グーグル、ウェブ解析サービス)については投稿してあったのだが エントリー(投稿)し忘れていたので、今更ながらGoogl...……[全文を読む][No.59] 投稿者:インターネットビジネス集客情報起業家[2006年4月13日 00:46]
本日3時間くらい、XMLを勉強しているが
イマイチまだわからない。Googleからダウンロードしてみたが、説明を見ててもわからん・・・
また勉強しにきます。
[No.60] トラックバック:「FC2ブログ」(インターネットビギナーズガイド)[2006年4月23日 11:48]
FC2ブログが、なんとGoogleサイトマップに対応した!(04/21)……[全文を読む][No.61] トラックバック:「グーグルサイトマップ/目次」(kizuki.info)[2006年4月30日 08:26]
↑ 目次 グーグルサイトマップ いろいろ調べス よくわからんのですが 外部リンク ニュースクリップ 関連するブログ グーグルによる...……[全文を読む][No.62] トラックバック:「グーグル・サイトマップは新たなSEO手法?」(hidettanのつれずれ日記)[2006年5月 1日 00:05]
Google Sitemaps グーグル・サイトマップ(ベータ版)FAQとプロトコル全訳。新しいURL登録方法はSEOに必須になる? [絵文録ことのは]2...……[全文を読む][No.63] トラックバック:「雑記/2006-05-04」(PukiWiki/TrackBack 0.1)[2006年5月 4日 10:54]
Prev 雑記 帽子コレクション。というわけではないが、出歩く際に帽子はかかせない。 で車にはいつも数個の帽子が転がっている。 冬用帽子を片...……[全文を読む][No.64] トラックバック:「Gマップ攻略」(ネットショップのためのSEOブログ)[2006年5月 9日 13:32]
Googleサイトマップ、 ご存じですか? SEO的なツールです。 今までになかったツールですので、 この2、3ヶ月、検証してました。 みなさんにも...……[全文を読む][No.65] トラックバック:「Google Sitemaps と Google Analytics」(仮免許運転中)[2006年8月23日 12:47]
Google Sitemaps と Google Analytics を設定した。 Google Sitemaps とは… ITmedia...……[全文を読む][No.66] トラックバック:「グーグルサイトマップ google sitemap とは」(01WEBマスター【WEB管理人のための基礎知識】)[2006年10月20日 03:28]
グーグルロボットのためのサイト案内地図 ……[全文を読む][No.67] トラックバック:「「Google Sitemap」とは?」(サラリーマンアフィリエイト情報局)[2006年10月24日 19:53]
先日、「ROR」についての説明を「「Google Sitemap」より、早くして...……[全文を読む][No.68] トラックバック:「日々進化しているGoogle Sitemapで効率クローリング」(起業家・Webデザイナー・SE→CIOを目指しつつの大学生のアレ)[2007年1月21日 23:35]
今更感は否めないですが、知らない人も結構多いGoogle Sitemap。 これ...……[全文を読む][No.69] トラックバック:「Googleサイトマップ作成時に出るエラーについて」(サーログ)[2007年3月13日 05:45]
Googleから提供されているサイトマップ作成ツール「sitemap_gen.p...……[全文を読む]このエントリー登録状況一覧
旧URL★
はてなブックマーク ★MM/Memo
新URL★
はてなブックマーク ★MM/Memo
トラックバック(参照元逆リンク)用URL
この記事へトラックバックする場合は、このトラックバック用URLを、あなたのウェブログ等の投稿ページの「トラックバック先のURL」欄に入れて更新してください。
トラックバックが重複しても削除依頼コメントは不要です。見つけ次第適当に消します。
こちらの記事へのリンクのないトラックバックは受け付けていません。無関係な記事からのトラックバック、宣伝のみのspamトラックバックは削除することがあります。
記事内容と関係のないコメントは削除します。
コメントならびにトラックバックについては、「管理人がこのブログには必要ないと判断した」というだけの理由で断りなく削除することがあります。
コメント(ご意見・ご感想)を投稿する