Sitemaps XML format - sitemaps.org 日本語訳(中)

原文:sitemaps.org - Protocol

実体参照による別表記

SitemapファイルはUTF-8でエンコードされていること。
その他のXMLと同様に、URLを含むあらゆる値が下記に記載されているような実体参照を使用した別表記を行うこと。

CharacterEscape Code
Ampersand&&
Single Quote''
Double Quote""
Greater Than>>
Less Than<&lt;

さらに、Sitemapファイルに含まれる全てのURLも、サイトを設置しているウェブサーバーに認識されるよう、別表記し、URLエンコードされている必要がある。ただし、大抵の場合は何もしなくてもされている。
それらのURLがURLにおけるRFC-3986標準、IRIにおけるRFC-3987標準とXML標準に準拠しているかどうか、ぜひチェックしてほしい。

下記の例は非ASCII文字(ü)と実体参照による別表記を行う必要のある記号(&)を使ったURLである。

http://www.example.com/ümlat.html&q=name

これをサーバーに合わせてISO-8859-1にエンコードし、別表記したものが下記

http://www.example.com/%FCmlat.html&q=name

同じくUTF-8にエンコードした場合

http://www.example.com/%C3%BCmlat.html&q=name

さらに実体参照による別表記をした場合

http://www.example.com/%C3%BCmlat.html&amp;q=name


サンプルSitemaps XML

次の例はXMLのフォーマットでSitemapを示したもの。それぞれ違ったパラメーターを持つ少ないURLを表している。

<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc> <lastmod>2004-12-23</lastmod> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc> <lastmod>2004-12-23T18:00:15+00:00</lastmod> <priority>0.3</priority> </url> <url> <loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc> <lastmod>2004-11-23</lastmod> </url> </urlset>

サイトマップファイルの索引の作成(URLリストを分割する)

Sitemapファイルは複数に分割することができる。
しかしそれぞれのSitemapファイルに載せることのできるURLの数は50,000までで、ファイルの容量は10MBまででなければならない。
容量を10MB以内に収め、サーバーに負荷をかけないためにgzip形式にて圧縮しても構わない。
Sitemapファイルに載せたいURLが50,000以上ある場合はSitemapファイルを分ける必要がある。

複数のSitemapファイルを提供したいときはそれぞれのSitemapファイルをSitemapファイルの索引ファイルの中にリスト化する。
Sitemapファイルの索引に掲載できるURLの数は1,000までで、10MBを超えてはならない。この索引ファイルのXMLフォーマットはSitemapsファイルのものとよく似ている。

その他、Sitemapプロトコルでは下記の規制がある。
というタグで始まり、というタグで終わること
・親のXMLタグとして、個々のURLごとにタグを記入すること
・個々のタグに子要素としてを含ませること

オプション・タグであるは索引にも同様に使用できる。

注)索引は同じサイト上にあるものしか指定できない。例えばhttp://www.yoursite.com/sitemap_index.xmlはhttp://www.yoursite.com上にあるSitemapファイルを読み込むことができるが、http://www.example.comやhttp://yourhost.yoursite.com上にあるファイルは読み込むことができない。また、索引もUTF-8で記述すること。


Sitemap索引ファイルのサンプルXML

<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc>http://www.example.com/sitemap1.xml.gz</loc> <lastmod>2004-10-01T18:23:17+00:00</lastmod> </sitemap> <sitemap> <loc>http://www.example.com/sitemap2.xml.gz</loc> <lastmod>2005-01-01</lastmod> </sitemap> </sitemapindex>

注)Sitemapファイルと同じように、全ての値が実体参照で別表記されていること。


XMLタグの定義


<sitemapindex> ※必須

ファイル内の全てのSitemapファイルの情報をまとめる役割。


<sitemap> ※必須

個々のSitemapファイルの情報をまとめる役割。


<loc> ※必須

Sitemapファイルの場所を指定する。
Atom、RSS、またはシンプルなテキストファイルなどがここに入る。


<lastmod> ※任意

Sitemapファイルの更新時間。そのSitemapにリストされているページのうちのどれかが変わった時間。W3C Datetimeフォーマットに順ずるべきである。

更新時間の提供によって、索引の中のSitemapファイルの一部のみをクローラーに巡回させることができるようになる。すなわち、クローラーは更新されたSitemapファイルのみを巡回するようになるかもしれない。
この増加するSitemapファイルにより大規模なサイトでも新しいページを速く発見させることができる。


Sitemaps XML format - sitemaps.org 日本語訳(上)
★Sitemaps XML format - sitemaps.org 日本語訳(中)
Sitemaps XML format - sitemaps.org 日本語訳(下)


0 Comment(s)

コメントする

コメントを投稿

※承認されるまではコメントは表示されません。

名前
メールアドレス
URL
コメント

Profile

Subscribe

(Thanks to "80x15 BBM")

Sponsored Link

第二新卒

第二新卒、既卒の方向け
“いい就職”応援サイト