Wie erstelle ich eine gute XML-Sitemap?

Klar: Sitemaps sind sinnvoll. Aber welche Angaben sollten sie enthalten - und welche können schädlich sein?

Dass man Google und anderen Suchmaschinen als Webmaster eine XML-Sitemap anbieten sollte, die den Crawlern das Crawlen erleichtet, ist wahrscheinlich Konsens. Weniger eindeutig geklärt ist aber, welche Angaben eine solche Sitemap enthalten sollte, damit ein Blog (oder eine beliebige andere Website) am meisten davon profitiert. Haben die Angaben in der XML-Sitemap tatsächlich Einfluss auf das Ranking einer Seite in den Suchergebnislisten? Und was passiert, wenn man eine höhere Änderungshäufigkeit angibt, als es tatsächlich gibt? Fragen über Fragen...

Diese Angaben gehören in eine XML-Sitemap - die Pflicht

Beginnen wir bei den Basics: Bei sitemaps.org kann man nachlesen, welche Regeln für XML-Sitemap-Dateien gelten. Da ist zunächst das folgende, verbindliche Grundgerüst, das in jedem Fall enthalten sein muss:

  • Eine XML-Sitemap besteht aus XML-Tags (wer hätte das gedacht?).
  • Eine XML-Sitemap muss in UTF-8 codiert sein.
  • Eine XML-Sitemap beginnt mit einem einleitenden <urlset>-Tag und endet mit einem schließenden </urlset>-Tag.
  • Für jede in einer XML-Sitemap enthaltene URL gibt es ein <url>-Tag und ein untergeordnetes <loc>-Tag.

Ein Beispiel für eine XML-Sitemap, die nur die Pflichtangaben enthält, sieht also folgendermaßen aus:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://blogblogblog.de/</loc>
</url>
</urlset> 

So weit, so eindeutig, nun gibt es aber noch einige optionale Angaben, mit denen man seine XML-Sitemaps verfeinern kann.

Optionale Angaben für eine XML-Sitemap – die Kür

Um den Suchmaschinen ein genaueres Bild von der eigenen Website zu vermitteln, kann man drei optionale Tags in die Sitemap einbauen. Dies sind:

  • <lastmod> - Dieses Tag gibt an, wann eine Seite zum letzten Mal geändert wurde.
  • <changefreq> - Dieses Tag gibt an, wie häufig sich eine Seite in der Regel ändert.
  • <priority> - Dieses Tag gibt an, für wie wichtig der Webmaster eine Seite im Gesamtgefüge seiner Website hält.

Diese optionalen Angaben sind durchaus charmant, weil sie es ermöglichen, ein wenig Einfluss auf das Crawling der eigenen Website zu nehmen: Man kann den Suchmaschinen sagen, ob es sich lohnt, täglich vorbeizuschauen (mit <changefreq>) und wann die enthaltenen Seiten konkret zuletzt aktualisiert wurden (mit <lastmod>). Und man kann angeben, auf welche Seiten man keinen Wert legt. Nur: Ob die Suchmaschinen sich tatsächlich nach den Angaben richten, bleibt offen. Schließlich halt es sich eher um Empfehlungen als um verbindliche Vorgaben für die Crawler.

Ebenfalls offen bleibt, welchen Einfluss diese optionalen Angaben letztlich auf die Indexierung einer Website (bzw. ihrer einzelnen Seiten) haben – und was passiert, wenn die Angaben in der XML-Sitemap mit der Realität nicht so recht übereinstimmen.

Die Angaben in der XML-Sitemap und die Realität

Ich z. B. nutze derzeit zwei verschiedene Sitemap-Generatoren für meine verschiedenen Blogs. Bei einem handelt es sich um eine Extension für meine Blog-Software Pivotx. Enthalten sind alle Pflichtangaben und die optionale Angabe <lastmod>.

Beim anderen Generator handelt es sich um den GSiteCrawler von Softplus. Diese kostenlose Desktop-Anwendung bietet sehr viele Konfigurationsmöglichkeiten. Standardmäßig sind in den Sitemaps aber neben <lastmod> auch die Tags <changefreq> und <priority> enthalten. Und damit fangen die Probleme an.

Die Änderungshäufigkeit ist nämlich für alle Seiten auf „täglich“ gesetzt. Dabei ändert sich nicht mal die Startseite meines Blogs Der Privatanleger täglich. Alle anderen Seiten werden noch viel seltener aktualisiert – schließlich werden Artikel nur einmal geschrieben. Hier bei Blog Blog Blog sieht es mit der Änderungshäufigkeit noch trauriger aus.

In irgendeinem Forum (weiß nicht mehr, wo genau) habe ich nun den Rat gefunden, dass die angegebene Frequenz möglichst nahe an der Realität sein sollte – eine schnellere Änderungsfrequenz anzugeben, bringe nichts. Eher im Gegenteil. Das klingt einleuchtend, aber gesichertes Faktenwissen sieht anders aus. Sollte ich dieses Tag also einfach ganz weglassen? Ich tendiere fast dazu.

Auch die Priorisierung einzelner Seiten ist ein Problem: Der GsiteCrawler setzt die Startseite standardmäßig auf „1“ (das Maximum), alle anderen Seiten auf „0,5“. Nun gibt es aber durchaus Seiten, die ich persönlich auf das Minimum, also „0“ setzen würde – beispielsweise die Seiten verschiedener Tags (also von Stichwörtern zu Blog-Artikeln). Damit kann man zwar laut sitemaps.org nicht das Ranking dieser Seiten beeinflussen, aber es wäre eben realitätsgerecht: Eine Seite für ein Tag, das nur in einem Artikel vorkommt, ist nun mal nicht wichtig – und sollte am besten auch von Suchmaschinen gar nicht beachtet werden.

Aber wie bewerkstellige ich vernünftige Priorisierungen für meine verschiedenen Unterseiten? Ich weiß es nicht. Eigentlich ein Grund, das <priority>-Tag direkt wegzulassen. Oder vielleicht noch weiterzugehen: Vielleicht gehören diese Stichwort-URLs eigentlich gar nicht in die Sitemap. Ich habe schließlich gerade bei Sistrix gelesen, wie Googles Vertrauen in eine Domain beschädigt werden kann, wenn die entspricht Website zu viele müllige Seiten im Vergleich zum wertvollen Content produziert (da ging es zwar um Duplicate-Content, aber dennoch...).

Andererseits: Bisher bin ich mit meiner ausführlichen, aber nicht wirklich der Realität entsprechenden Sitemap für Der Privatanleger gut gefahren - meine Artikel sind bei Google gut platziert und die Besucherzahlen steigen Monat für Monat an. Warum sollte ich also etwa ändern?

Ihr seht: Ich habe ein bisschen über das Problem nachgedacht, aber ich bin immer noch etwas ratlos. Ist weniger mehr, wenn es um Sitemaps für Blogs geht? Welche Seiten Eures Blogs nehmt Ihr in die XML-Sitemap auf? Und welche optionalen Tags sind Euch wichtig? Vielleicht ist der eine oder andere ja schon zu einem abschließenden Ergebnis für die eigene Website gekommen...

Zum Weiterlesen

acht Kommentare

Alex

Wow, welch ein Artikel.
Ich muss gestehen, dass ich für die XML Sitemap ein Plugin benutze, dem ich blind vertraue! :D

Alex (URL) - 15-04-’10 11:50
Tanja

Geht mir wie Alex, für Wordpress gibt es ein tolles Plugin und das wird einmal eingestellt und damit dann dauerhaft genutzt, ohne irgendwelchen Zusatzaufwand ;-)

Tanja (URL) - 15-04-’10 13:01
Holger

Ihr wollt also sagen, ich mache mir völlig übertriebene Sorgen? Ich bin überhaupt erst drauf gekommen, weil ich vom GSiteCrawler auf ein Plugin umstellen wollte – und die Sitemaps, die das generiert hat, enthielten viel weniger Seiten (keine Archivseiten, keine Tag-Seiten) und halt auch viel weniger optionale Angaben. Und irgendwie fällt er mir schwer, mich plötzlich auf eine so kleine Sitemap einzustellen. ;)

Holger (URL) - 15-04-’10 17:33
Tanja

Nimm dieses Plugin hier: http://www.arnebrachhold.de/projects/wor.. damit fährst Du am besten und kannst auch alles individuell einstellen was Du drin haben willst und was nicht. Einmal eingestellt, dann passiert alles andere immer automatisch.

Den GSiteCrawler kenne ich natürlich auch und ich nutze ihn nur für meinen Shop, weils da keine vernünftige andere Lösung gibt.

Tanja (URL) - 15-04-’10 19:56
Alex

Aha, muss ich das Plugin wechseln? :D
Ich benutze Google XML Sitemaps – This plugin will generate a special XML sitemap which will help search engines like Google, Yahoo, Bing and Ask.com to better index your blog.

Na dann…

Alex (URL) - 15-04-’10 21:20
Holger

Danke, Tanja. :) Ich hab leider das Problem, dass ich die exotische Blog-Software PivotX nutze. Hatte am Anfang keinen Webspace mit MySQL. Na ja, und außerdem mag ich PivotX halt. Nur gibt’s eben nur eine einzige Sitemap-Extension.

Ich habe mir gerade mal die Schnäppchentiger-Sitemap angeschaut: Da scheinen auch nur wichtige Seiten enthalten zu sein – aber die Änderungshäufigkeit ist für alle Seiten auf “daily” gesetzt. Ist das realistisch? Bei Workablogic (gleiches Plugin) sind nicht ausschließlich Artikel enthalten, aber nur bei den Artikeln ist als Änderungsfrequenz “daily” angegeben.

Aber wahrscheinlich ist es wirklich egal. Oder “daily” ist sogar das Optimum…

Holger (URL) - 15-04-’10 22:29
Tanja

Vielleicht magst Du Dir ja testweise mal Wordpress ankucken? Gibt echt vieles, was man damit anstellen kann ;-)
Mir wurde damals als ich anfangen wollte Serenpedity empfohlen und ich habe mich dann doch nach einigem Informieren für Wordpress entschieden. Was so verbreitet ist, kann nur gut sein… aber ist natürlich Geschmackssache und ich will Dir nix einreden was Du gar nicht wirklich magst.

Ich persönlich habe nur Artikel und die Startseite in den Wordpress Blogs in der sitemap. Ist mir das wichtigste und den Rest frisst Google sowieso irgendwann. Daily mag zwar übertrieben sein, aber wenn die Kommentare so kommen würden wie auf der crazytoast.de, dann würde es schon passen.

@Alex: Du hast Du das gleiche Plugin wie ich gerade an Deiner Sitemap gesehen habe…

Tanja (URL) - 15-04-’10 23:36
Holger

Nein, ich bleibe jetzt bei PivotX, bis es irgendwann nicht mehr weiterentwickelt wird (was hoffentlich noch lange dauert). Wenn ich neu anfangen würde und wüsste, was ich heute weiß, würde ich sicher WP nehmen, aber nu ist mir das einfach zu stressig, schließlich kann bei so einem Umstieg auch immer was schiefgehen.

Außerdem habe ich bestimmt ein Drittel zur deutschen Übersetzung von PivotX beigetragen, ich kann also schon aus diesem Grund überhaupt nicht mehr wechseln. ;)

Holger (URL) - 16-04-’10 08:03


Bitte beantworte diese einfache Frage. Die kleine Aufgabe dient als Schutz gegen Kommentar-Spam.

Auf dieser Seite werden die Kommentare moderiert.
Das bedeutet, dass die Kommentare erst dann veröffentlicht werden, wenn sie freigeschaltet wurden.

Persönliche Informationen speichern?
Benachrichtigen
E-Mail Adresse nicht anzeigen
Hinweis: Alle HTML-Tags außer <b> und <i> werden aus Deinem Kommentar entfernt. URLs oder Mailadressen werden automatisch umgewandelt.