Wie gehen Spider mit Header Forwards um?

Josh

Legendäres Mitglied
Hi alle

Ich wollte gerne mal wissen, wie Spider mit weitergeleiteten Headers umgehen. Beispiel:

Ich habe einen Link, der auf die Seite aaa.php führt. Auf aaa.php wird nun gleich zu Beginn die Seite per Header weitergeleitet auf bbb.php, z.B. mit PHP's

header("location: bbb.php");

Der Surfer kriegt von all dem eigentlich nichts mit, ausser dass in der Browseradresszeile statt aaa.php nun bbb.php steht. Doch wie gehen Spider damit um? Ignorieren sie einfach aaa.php, als würde es das gar nicht geben, und fahren mit bbb.php fort? Also wenn ich in einer Suchmaschine aaa.php suchen würde, würde das nicht aufgeführt? Oder merkt sich der Spider, dass aaa.php nach bbb.php führt, und gibt bei der Suche nach aaa.php automatisch den Link nach bbb.php aus?
Irgendwie verwirrt mich diese Geschichte etwas!
wink.gif


Danke für Info. Grüsse
Josh
 
QUOTE (Josh @ Mi 5.1.2005, 13:32) Ich habe einen Link, der auf die Seite aaa.php führt. Auf aaa.php wird nun gleich zu Beginn die Seite per Header weitergeleitet auf bbb.php, z.B. mit PHP's

header("location: bbb.php");

Hi Josh,

zuerst einmal fehlt da der Status. Dem Besucher sollte die Zusatzinfo gegeben werden, ob es sich um eine zeitweilige oder dauerhafte Umleitung handelt. Nur der Ordnung halber, denn ich glaube nicht, dass es überhaupt einen Effekt hat.

Da Header-Informationen vom Server kommen, ist nicht zu erwarten, dass im Zuge einer Umleitung noch ein sinnvolles Dokument übertragen wird.

Eine ordentliche Suchmaschine wird also jedenfalls bei einem Location-Header sofort die Verbindung kappen (schon um meine Bandbreite und Rechenleistung nicht unnötig zu belasten), und die Zielseite entweder direkt abfragen, oder sie auf den Stapel der zu crawlenden Seiten legen.

Von Slurp weiß ich übrigens, dass er die Zielseite _direkt_ abfragt. Zuerst holt er sich aaa.php, direkt danach holt er sich bbb.php von der selben IP aus. Er ersetzt in seinem Index innerhalb einiger Wochen aaa.php durch bbb.php.

Gruß, SloMo
 
QUOTE (SloMo @ Mi 5.1.2005, 14:47) Von Slurp weiß ich übrigens, dass er die Zielseite _direkt_ abfragt. Zuerst holt er sich aaa.php, direkt danach holt er sich bbb.php von der selben IP aus. Er ersetzt in seinem Index innerhalb einiger Wochen aaa.php durch bbb.php.

Slurp fragt bei mir aber immernoch Seiten ab, die schon Seite einiger Zeit mit 301 Redirect an einen neuen Ort permanent weitergeleitet werden (.htaccess).

Warum fragt er die alte Seite immernoch ab? Sogar Seiten bei denen ich den 410 Gone sende, möchte Inktomi immernoch spidern...
 
QUOTE zuerst einmal fehlt da der Status. Dem Besucher sollte die Zusatzinfo gegeben werden, ob es sich um eine zeitweilige oder dauerhafte Umleitung handelt. Nur der Ordnung halber, denn ich glaube nicht, dass es überhaupt einen Effekt hat.


Mache als Webmaster niemals den Fehler dem Spider die Möglichkeit zu geben, selber zu denken. Wenn er anfängt zu denken, kann er sich irren.
Wenn Du eine Umleitung möchtest, sag ihm, dass es eine permanente 301 Umleitung ist. Bei dem was Du machst, resultiert eine 302. Ich habe die Erfahrung gemacht, dass es einen Effekt hat. Google hat hier so lange die aaa.php indiziert, bis ich ihm ganz klar gemacht habe, dass wir einen 301 möchten.

PS Also so:
header("HTTP/1.0 301 Moved Permanently");
header("Location: bbb.php");
 
Warum nicht in die .htaccess
CODE redirect permanent /alt.html http://domain.com/neu.html

und sich nicht mehr sorgen?


QUOTE Slurp

ist, was die Implementierung von Standards wie RFC2616 angeht, nur als Schrott zu bezeichnen. Im übrigen ist die 410-Implementierung auch bei Googlebot noch nicht sonderlich weit gediehen
rolleyes.gif
 
QUOTE (Oliver Hörler @ Mi 5.1.2005, 16:04)Slurp fragt bei mir aber immernoch Seiten ab, die schon Seite einiger Zeit mit 301 Redirect an einen neuen Ort permanent weitergeleitet werden (.htaccess).

Warum fragt er die alte Seite immernoch ab? Sogar Seiten bei denen ich den 410 Gone sende, möchte Inktomi immernoch spidern...


Angenommen, eine gehackte Site könnte mit diesen Mitteln innerhalb weniger Crawl-Zyklen aus allen relevanten Suchmaschinen gestrichen oder auf eine konkurrierende Site umgeleitet werden... die Folgen kann sich jeder selbst ausmalen. Diese Methode wäre noch beliebter als Denial-Of-Service Attacken.

Deshalb werden selbst 301,302 und 410 nicht beim ersten Auftreten akzeptiert, sondern noch lange Zeit gegengecheckt.

Gruß, SloMo
 
Hallo Josh

Die aaa.php wird ignoriert.

Hier bei einer kleinen Website die ich bei einem Re-Design so gelöst habe.
Ich wollte die Originaldateien die nicht von mir waren noch belassen.

Website :http://www.hoteljaco.com und wird per Php auf /en/ weitergeleitet.

Vor ca 6Wochen gemacht und alles wunderbar.

Gruss Space
 
QUOTE (SloMo @ Mi 5.1.2005, 18:54) Angenommen, eine gehackte Site könnte mit diesen Mitteln innerhalb weniger Crawl-Zyklen aus allen relevanten Suchmaschinen gestrichen oder auf eine konkurrierende Site umgeleitet werden... die Folgen kann sich jeder selbst ausmalen. Diese Methode wäre noch beliebter als Denial-Of-Service Attacken.

Deshalb werden selbst 301,302 und 410 nicht beim ersten Auftreten akzeptiert, sondern noch lange Zeit gegengecheckt.

Was aber nur inktomi macht. Alle anderen begnügen sich mit einer Umleitung, bzw. der 404er Fehlermeldung und spidern dann die neue Site. Nur inktomi möchte noch Sachen spidern die seit sehr langem nicht mehr existieren.

Vernünftig wäre das ja. Aber wenn eine Seite seit über zwei Monaten nicht mehr da ist, dann sollte sie aus dem Index kommen. Denn wenn eine Seite gehackt wurde, so sollte ja nach einer Woche wieder der richtige Content drauf sein und wenn nicht, dann nütz das gegenchecken auch nix. Aber nach einem Jahr noch Seiten crawlen, die es nicht mehr gibt? Komische Sachen, die es gibt. Wahrscheinlich haben die zuviel Resourcen.

 
Zurück
Oben