Sitemaps XML format - sitemaps.org 日本語訳(中)
11/25/2006, 12:16 | Category: メモ
実体参照による別表記
SitemapファイルはUTF-8でエンコードされていること。
その他のXMLと同様に、URLを含むあらゆる値が下記に記載されているような実体参照を使用した別表記を行うこと。
| Character | Escape Code | |
| Ampersand | & | & |
| Single Quote | ' | ' |
| Double Quote | " | " |
| Greater Than | > | > |
| Less Than | < | < |
さらに、Sitemapファイルに含まれる全てのURLも、サイトを設置しているウェブサーバーに認識されるよう、別表記し、URLエンコードされている必要がある。ただし、大抵の場合は何もしなくてもされている。
それらのURLがURLにおけるRFC-3986標準、IRIにおけるRFC-3987標準とXML標準に準拠しているかどうか、ぜひチェックしてほしい。
下記の例は非ASCII文字(ü)と実体参照による別表記を行う必要のある記号(&)を使ったURLである。
http://www.example.com/ümlat.html&q=name
これをサーバーに合わせてISO-8859-1にエンコードし、別表記したものが下記
http://www.example.com/%FCmlat.html&q=name
同じくUTF-8にエンコードした場合
http://www.example.com/%C3%BCmlat.html&q=name
さらに実体参照による別表記をした場合
http://www.example.com/%C3%BCmlat.html&q=name
サンプルSitemaps XML
次の例はXMLのフォーマットでSitemapを示したもの。それぞれ違ったパラメーターを持つ少ないURLを表している。
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc> <lastmod>2004-12-23</lastmod> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc> <lastmod>2004-12-23T18:00:15+00:00</lastmod> <priority>0.3</priority> </url> <url> <loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc> <lastmod>2004-11-23</lastmod> </url> </urlset>
サイトマップファイルの索引の作成(URLリストを分割する)
Sitemapファイルは複数に分割することができる。
しかしそれぞれのSitemapファイルに載せることのできるURLの数は50,000までで、ファイルの容量は10MBまででなければならない。
容量を10MB以内に収め、サーバーに負荷をかけないためにgzip形式にて圧縮しても構わない。
Sitemapファイルに載せたいURLが50,000以上ある場合はSitemapファイルを分ける必要がある。
複数のSitemapファイルを提供したいときはそれぞれのSitemapファイルをSitemapファイルの索引ファイルの中にリスト化する。
Sitemapファイルの索引に掲載できるURLの数は1,000までで、10MBを超えてはならない。この索引ファイルのXMLフォーマットはSitemapsファイルのものとよく似ている。
その他、Sitemapプロトコルでは下記の規制がある。
・
・親のXMLタグとして、個々のURLごとに
・個々の
オプション・タグである
注)索引は同じサイト上にあるものしか指定できない。例えばhttp://www.yoursite.com/sitemap_index.xmlはhttp://www.yoursite.com上にあるSitemapファイルを読み込むことができるが、http://www.example.comやhttp://yourhost.yoursite.com上にあるファイルは読み込むことができない。また、索引もUTF-8で記述すること。
Sitemap索引ファイルのサンプルXML
<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc>http://www.example.com/sitemap1.xml.gz</loc> <lastmod>2004-10-01T18:23:17+00:00</lastmod> </sitemap> <sitemap> <loc>http://www.example.com/sitemap2.xml.gz</loc> <lastmod>2005-01-01</lastmod> </sitemap> </sitemapindex>
注)Sitemapファイルと同じように、全ての値が実体参照で別表記されていること。
XMLタグの定義
<sitemapindex> ※必須
ファイル内の全てのSitemapファイルの情報をまとめる役割。
<sitemap> ※必須
個々のSitemapファイルの情報をまとめる役割。
<loc> ※必須
Sitemapファイルの場所を指定する。
Atom、RSS、またはシンプルなテキストファイルなどがここに入る。
<lastmod> ※任意
Sitemapファイルの更新時間。そのSitemapにリストされているページのうちのどれかが変わった時間。W3C Datetimeフォーマットに順ずるべきである。
更新時間の提供によって、索引の中のSitemapファイルの一部のみをクローラーに巡回させることができるようになる。すなわち、クローラーは更新されたSitemapファイルのみを巡回するようになるかもしれない。
この増加するSitemapファイルにより大規模なサイトでも新しいページを速く発見させることができる。
★Sitemaps XML format - sitemaps.org 日本語訳(上)
★Sitemaps XML format - sitemaps.org 日本語訳(中)
★Sitemaps XML format - sitemaps.org 日本語訳(下)









0 Comment(s)
コメントする