Umlaut URLs bei Amazon,Wikipedia,etc

hk

Angesehenes Mitglied
Bin mal wieder beim Thema Umlaute URLs gelandet, aber diesmal nicht bei der Domain selber, sondern die URLs von Unterseiten.

Aktuell werden bei mir Unterseiten mit Umlauten im Titel so umgeschrieben, das aus den Umlauten eine Zwei Buchstaben Combination (ä->ae - keine ahnung wie man das nennt) geschrieben wird. Als beispiel werde ich hier mal den begriff Südafrika verwenden. Also sieht die URL dann so aus:

domain.de/suedafrika.html

Mir ist aufgefallen, wenn ich nach dem Begriff mit Umlaut suche, steht die Seite weiter hinten in den SERPs als wenn ich nach der zwei Buchstaben Combi suche (was aber wohl niemand macht). Da nur die URL das Keyword ohne umlaut enthält, sehe ich dieses als ausschlaggebend. Bei einer besonders starken Domain wird dieser effekt wohl nicht so ins Gewicht fallen, in meinem Fall aber deutlich erkennbar.

Nun ist mir aber aufgefallen das zB wikipedia (Amazon,...) umlaute in den URLs verwendet, allerdings dachte ich das manche Browser damit Probleme hätten. In diesem Fall aber nicht.

Mit der Suche ich nach Südafrika sehe ich den Eintrag von Wikipedia:

de.wikipedia.org/wiki/Südafrika

Diese Domain kann ich auch ohne Probleme mit dem Internet Explorer 6 ohne (IDN) Plugin aufrufen (Im gegensatz zu beispielsweise www.bücher.de). Beim aufruf der Seite steht in der Adresszeile:
de.wikipedia.org/wiki/S%C3%BCdafrika

Wie werden diese Umlaut URLs umgesetzt bzw umgeschrieben?

[EDIT]OK, bei eingabe der Adresse "de.wikipedia.org/wiki/Südafrika" direkt in die Adresszeile des IE 6 gehts auch nicht. Also ist die URL bei Google interna als punycode gespeichert und wird in den Serps nur mit Umlaut ausgegeben, oder?
unsure.gif
Würde dann aber doch trotzdem bedeuten, wenn man auf besucher von Suchmaschinen setzt und nicht auf direkteingabe - was ja gerade bei unterseiten der fall ist - hätte man mit einer Umlaut URL keinen Nachteil.
 
Mir scheint, Du vermischelst da was. Grundsätzlich kann jeder Browser mit Umlauten umgehen, sofern er diese richtig bekommt.
Innerhalb von HTML werden Umlaute durch bestimmte Zeichenkombinationen ersetzt, z.B. ä -> & a u m l ; (ohne die Leerzeichen natürlich, die sind nur damit mans hier lesen kann). Innerhalb einer URL werden Umlaute üblicherweise ebenfalls ersetzt, aber anders, da wird aus dem ä ein %FC (jedenfalls gemäss http://www.albionresearch.com/misc/urlencode.php ).

Die meisten Browser kommen heutzutage auch mit Umlauten und anderen Sonderzeichen innerhalb HTML klar, deshalb ist es nicht mehr zwingend nötig, Umlaute im HTML zu codieren (aber sauberer ists auf jeden Fall).

Für den beim Domain-Teil einer URL besteht eine Ersetzung mit dem Punycode oder ACE-String. Aber der Domain-Teil stellt noch ein anderes Problem: die Domain wird vom Browser verwendet, um die IP-Adresse des Servers dieser Domain zu finden. Das dafür verwendete System heisst DNS (Domain Name System), und die DNS-Server, welche die Domain-Namen zu IP-Adressen auflösen, die verstehen keine Umlaute. Also kann auch kein Browser einen DNS-Server z.B. nach "domäne.de" fragen - der DNS-Server würde schlicht keine Antwort geben.

QUOTE (Holger Klass @ Mo 23.4.2007, 16:06)Mit der Suche ich nach Südafrika sehe ich den Eintrag von Wikipedia:

de.wikipedia.org/wiki/Südafrika


Da ist Google wohl zu gut: die im Suchresultat angezeigte URL stimmt nicht ganz. Du siehst es wenn Du mit der Maus über den Link fährst - die effektive URL ist "de.wikipedia.org/wiki/S%C3%BCdafrika".

Wie sich codierte und nicht codierte Umlaute auf das Ranking auswirken, weiss ich nicht.

Griessli
Irene

 
QUOTE (Irene @ Mo 23.4.2007, 16:28)Innerhalb einer URL werden Umlaute üblicherweise ebenfalls ersetzt, aber anders, da wird aus dem ä ein %FC (jedenfalls gemäss http://www.albionresearch.com/misc/urlencode.php ).

Theoretisch stimmt das.

Praktisch sind aber die Ersetzungen dieser amerikanischen Tools meistens fehlerhaft. Denn die betrachten alle Zeichen mit Codepunkten 128 - 255 (da sind auch die deutschen Umlaute mit dabei) als Ein-Byte-Darstellungen und wandeln deshalb das ü als %FC um. Dem würde der Zeichensatz ISO-8859-1 entsprechen - und die Zeichen der anderen ISO-8859 - Codepages sind in dieser Logik nicht mehr darstellbar. Das ist aber eine Schwäche dieser Ami-Tools.

Deshalb gibt es eine zweite Variante: Nimm die UTF-8 - Byte - Darstellung des Zeichens


QUOTE Südafrika


und wandele diese um


QUOTE S%C3%BCdafrika


Deshalb sind in diesem Ausdruck zwei Positionen codiert. Analog werden im dmoz seit längerer Zeit die Urls mit UTF-8 praktisch doppelt codiert:

Familienforschung: Quellen: FAQs, Hilfen und Einführungen

Man muß die Url aufrufen, um den Effekt zu sehen. Beim Drüberstreichen mit der Maus wird das 'ü' sofort korrekt angezeigt.
 
Hi Irene,
vielen dank für deine Antwort. Mir geht es hier ausschließlich um die URLs.

Das die URL tatsächlich in Punycode vorliegt habe ich dann schon bemerkt und mir die frage quasi selber beantwortet, deshalb der Edit am Ende des Posts. Das sieht man bei google in den SERPs aber auch nur beim überfahren mit der Maus wenn man einem Browser benutzt der keine Umlaute in der Domain unterstützt (deshalb ist es mir nicht gleich aufgefallen). Das Google "de.wikipedia.org/wiki/Südafrika" war auf die direkte Sichtbare anzeige in den SERPs bezogen.

Die andere Aussage (Fragestellung) war, das man also bei bei Suchmaschinen Traffik keine Probleme mit Umlaut URLs hat (bei google jedenfalls, andere sumas habe ich jetzt nicht nachgesehen). Also spricht doch eigentlich nichts dagegen bei Unterseiten (die in der Regel nicht über direkteingabe erfolgen, sondern für Suchmaschienentraffik interessant sind) umlaute zu verwenden (mein Schluß daraus).


Was ich jedoch viel interessanter/verwirrender in dem Zusammen hang finde:

Suche bei google nach fußball.de Liefert:

QUOTE
Fussball.de - Home
Meine Homepage. - Startseite. Bearbeiten... - Blog. Bearbeiten... - Fotos&Videos. Bearbeiten... - Profil. Bearbeiten... Hallo ... fussball.de ...
fußball.de/ - 35k - Im Cache - Ähnliche Seiten - Notieren


Dort linkt die Überschrift allerdings nicht auf die Fußball.de URL im Punycode sondern auf "Fussball.de"?!
blink.gif
Die Url Fußball.de scheint einen redirekt auf Fussball.de zu haben, aber dass google das in seinem Index beachtet und dann anpasst?
 
Hallo jAuer,

QUOTE
deshalb gibt es eine zweite Variante: Nimm die UTF-8 - Byte - Darstellung des Zeichens



1)

QUOTE
Südafrika



und wandele diese um

2)

QUOTE
S%C3%BCdafrika



dies ist genau das Problem, welches ich gerade habe. ;-)

Im MSIE 7 werden Umlaute, wie ü im URL's leider analog zu 1) codiert.

Im Firefox und durch Google werden URL's mit dem Umlaut ü analog zu 2) codiert.

Irgendwelche Ideen, wie das Problem mit dem MSIE behoben werden könnte?

Danke, xcomm
 
Zurück
Oben