Spider erzeugt zuviel Traffic

Michael Hierweck

Aktives Mitglied
Hallo,

bei einem von uns betreuten Internetangebot ist es so, dass der Traffic erheblich schneller wächst als der Besucherstrom. Eine Analyse über die vergangenen Wochen ergab:

Das Angebot weißt (per Zählpixel/Cookie) etwa 1.000 Besucher mit 2.200-2.500 Seitenabrufen täglich aus. Hinzu kommen noch im Mittel 2.500 Seitenabrufe durch Googlebot und sage und schreibe rund 15.000 Seitenabrufe durch Yahoo Slurp! pro Tag. Tendenz seit Wochen steigend.

Wir freuen uns natürlich darüber, dass uns die Suchmaschinen mögen. Keine Frage.

Aber: insgesamt etwas mehr 20.000 Zugriffe durch Robots, das ist Faktor 10 gegenüber den menschlichen Zugriffen, stellen doch Probleme dar. Vor zwei Monaten war es noch Faktor 3-4. So lässt die Performance der Website gerade in der vergangenen Woche messbar (gemessen mit ab (Apache Benchmark)) nach, was mit einen Rückgang der menschlichen Seitenabrufe einher geht.

Wären die Zugriffe menschlicher Natur, könnten wir ohne mit der Wimper zu zucken technisch aufrüsten, um die Performance wiederherzustellen... Leider bringt Robot-Traffic allein kein Geld.

Selbst wenn wir keine Lösung finden, würde ich das Thema, was ich auch "an sich" für interessant halte, gern diskutieren.

Beste Grüße

Michael
 
Vielleicht fragt sich jetzt jemand: 1 GB? Was regt er sich auf?
Ich sollte ich noch dazu sagen, dass der Robot-Traffic insgesamt ca. 1,25 GB ausmacht, von rund 2,5 GB Gesamttraffic. Allerdings picken sich die Robots natürlich die Rosinen (dynamisch generierte Textinhalte, CPU- und IO-lastig) heraus und lassen statische Inhalte (Bilder, Stylesheets, JavaScripts etc.) liegen.
 
Die Frage ist für mich, willst du eine Lösung?

Wenn ja, dann gibt es diverse.
Wenn du aber den Yahoo bot weiterhin auf deiner Seite willst, dann ist es einfach so.
 
Yahoo und google bieten Crawl-Delays an!

http://help.yahoo.com/help/us/ysearch/slurp/slurp-03.html

Dies wurde aufgrund massiver Beschwerden eingeführt! Yahoo weiss also längst, dass ihr Bot teilweise zu massiven Problemen führen kann. Der Slurp ist schon rel. eigen und verdient eine eigene Zeile in der robots.txt

Die Hinweise zu google musst Du Dir aber selber suchen...
Via Google Webmastertools gibt es z.B. die Auswahlmöglichkeit der Crawl-Geschwindigkeit. Könnte aber auch in der robots.txt gehen.

Wegen Statisch/Dynamisch: hast Du häufige Updates? Wie lässt sich das so "faken", dass die dynamischen Seiten "statischer" aussehen? Vielleicht liegt hier ein Problem? Definier mal, was Du genau "dynamisch" machst.
 
QUOTE (sd12 @ Do 8.3.2007, 10:51) Die Frage ist für mich, willst du eine Lösung?

Wenn ja, dann gibt es diverse.
Wenn du aber den Yahoo bot weiterhin auf deiner Seite willst, dann ist es einfach so.

Ich möchte vielleicht auch eine Lösung, aber vor allem auch mal den Aspekt diskutieren. Wie ist das denn bei auch?
 
QUOTE (Peter Schneider @ Do 8.3.2007, 11:08) Yahoo und google bieten Crawl-Delays an!

Danke, das sehe ich mir mal an.
 
QUOTE (Alain Aubert @ Do 8.3.2007, 14:07) PS
@Peter es ist mir neu, dass Google diese Erweiterung unterstützt. Hast Du dafür eine Quelle oder hast Du es ausprobiert?

Du kannst in den Webmastertools die crawlgeschwindigkeit einstellen.
 
Ja das ist gut. Aber kann ich es google auch in meiner robots.txt mitteilen? Ich meinte eben nein...?
 
Mir sind eigentlich auch nur die "Webmastertools" für google bewusst...

Könntest Du die "dynamischen Inhalte" als html archivieren (=als fertiges File speichern) (Beiträge von heute, gestern, usw)? Sagen wir alle 24 h und schön die Seiten untereinander verlinken lassen? Dann vollen Zugriff aufs Archiv und die Robots vom eigentlichen, dynamischen Inhalt mehr oder weniger aussperren?

Klar, das macht nicht bei jeden Projekt Sinn...
 
QUOTE (Michael Hierweck @ Do 8.3.2007, 9:10)Aber: insgesamt etwas mehr 20.000 Zugriffe durch Robots, das ist Faktor 10 gegenüber den menschlichen Zugriffen, stellen doch Probleme dar. Vor zwei Monaten war es noch Faktor 3-4. So lässt die Performance der Website gerade in der vergangenen Woche messbar (gemessen mit ab (Apache Benchmark)) nach, was mit einen Rückgang der menschlichen Seitenabrufe einher geht.

Irgendwie scheint es mir da massive Leistungsprobleme zu geben. So als Überschlag:


QUOTE 60 * 60 * 24 = 86.400 Sekunden pro Tag



QUOTE 16.000 Slurp + 2.500 google + 2.500 Besucher = 21.000 Aufrufe


Slurp müßte durch Crawl-Delay gebremst werden, so daß er sich gleichmäßig verteilt.

Das ist im Schnitt immer noch nur alle 4 Sekunden ein Aufruf, wobei google langsamer crawlt, wenn die Seite langsamer reagiert.

Irgendwie scheinen mir da andere Dinge faul zu sein.
 
Zurück
Oben