robots.txt - Unterverzeichnis

Felix Weber · 18.09.2007

Hi!

Wie kann ich folgendes bewerkstelligen:

http://www.domain.de/verzeichnis/ ist gesperrt, aber
http://www.domain.de/verzeichnis/verzeichnis2 ist zugänglich ?

Ich meine mit:
CODE User-agent: *
Disallow: /verzeichnis

wird auch /verzeichnis/verzeichnis2 gesperrt sein!

Felix

hk · 18.09.2007

Google würde das akzeptieren:

CODE
User-agent: *
Disallow: /verzeichnis
Allow: /verzeichnis/verzeichnis2

wie es die anderen se annehmen kann ich dir nicht sagen

Jürgen Auer · 18.09.2007

QUOTE (Felix Weber @ Di 18.09.2007, 08:36)Ich meine mit:

CODE User-agent: *
Disallow: /verzeichnis

wird auch /verzeichnis/verzeichnis2 gesperrt sein!

Stimmt.

Also muß entweder die Verzeichnisstruktur geändert oder die zu sperrenden Dateien im /verzeichnis müssen angegeben werden.

Ich meine, für google mal eine Lösung der Form

QUOTE Allow: /Verzeichnis
Disallow: /

gesehen zu haben. Aber der Allow-Operator ist nicht offiziell definiert, das klappt also bloß bei google.

Blackscorpio · 18.09.2007

Moin,

machs am besten wirklich einfach so:

QUOTE
User-Agent: *
Disallow: /verzeichnis/datei1.html
Disallow: /verzeichnis/datei2.txt

Somit hast du kein Problem mit dem gesperrten Unterverzeichnis. Sicherlich bei vielen Dateien etwas umständlich aber denke der sauberste Weg für alle SuMas...

Gruß, Dan

Felix Weber · 18.09.2007

Hi!

Danke!
Ich habe mich mal über den Allow-Operator informiert!
Gefunden habe ich ihn bei:
http://www.google.com/robots.txt
http://www.nytimes.com/robots.txt

Wobei selfhtml.org
sagt:
QUOTE Es besteht übrigens keine Möglichkeit, Verzeichnisse explizit für die Indizierung zu erlauben. Ein Schlüsselwort Allow: wurde niemals definiert.

Dagegen sagt wikipediawikipedia:

QUOTE Allow: (Googlebot, Yahoo! Slurp) Auslesen erlauben Disallow: /
Allow: /public Das Verzeichnis /public darf durchsucht werden, der Rest nicht
(Syntaxerweiterung des Googlebot)

google sagt ja selber:

QUOTE Die Erweiterung "Allow"
Googlebot erkennt die der robots.txt-Standarddatei hinzugefügte Erweiterung "Allow". Diese Erweiterung wird unter Umständen nicht von allen Suchrobotern anderer Suchmaschinen erkannt. Überprüfen Sie, ob dies auch für andere Suchmaschinen gilt, an denen Sie interessiert sind. Die "Allow"-Zeile funktioniert genauso wie die "Disallow"-Zeile. Geben Sie einfach das Verzeichnis oder die Seite an, das bzw. die zugelassen werden soll.

Möglicherweise möchten Sie "Disallow" und "Allow" gemeinsam verwenden. Wenn Sie beispielsweise in einem Unterverzeichnis den Zugriff auf alle Seiten bis auf eine sperren möchten, erreichen Sie dieses mit den folgenden Einträgen:

User-agent: Googlebot

Disallow: /folder1/

Allow: /folder1/myfile.html

Durch diese Einträge wird der Zugriff auf alle Seiten im Verzeichnis folder1 mit Ausnahme der Seite myfile.html gesperrt.

mmh, also Yahoo und Google akzeptieren "allow"! Was ist mit den anderen?

QUOTE Moin,

machs am besten wirklich einfach so:

CODE
User-Agent: *
Disallow: /verzeichnis/datei1.html
Disallow: /verzeichnis/datei2.txt

Somit hast du kein Problem mit dem gesperrten Unterverzeichnis. Sicherlich bei vielen Dateien etwas umständlich aber denke der sauberste Weg für alle SuMas...

Gruß, Dan

Gebe dir recht, dass es die einfachste Lösung wäre, aber bei ein paar tausend Dateien ??

Felix

Felix Weber · 18.09.2007

Hi!

Habe gerade bei ask.com folgendes gefunden:

QUOTE Q: Can I prevent the Ask crawler from indexing all or part of my site/URL?
A: Yes. The Ask crawler will respect and obey commands that direct it not to index all or part of a given URL. To specify that the Ask crawler visit only pages whose paths begin with /public, include the following lines:
# Allow only specific directories
User-agent: Teoma
Disallow: /
Allow: /public

hier

Somit kann ich sagen, dass folgende Sumas "allow" akzetieren:

Google
Yahoo
Ask

Denke ich werde das mit dem "allow" ausprobieren.

Felix

Jürgen Auer · 21.09.2007

QUOTE (Felix Weber @ Di 18.09.2007, 11:18)Somit kann ich sagen, dass folgende Sumas "allow" akzetieren:

Google
Yahoo
Ask

Thanks für das Zusammensuchen.

Damit beschränkt sich das nicht mehr auf google - und MSN hat ohnehin eine gewisse Eigenwilligkeit bezüglich der robots.txt: Da sperre ich

QUOTE Disallow: /confirm/

aus - und MSN holt sich www.server-daten.de/confirm ohne Slash, die leitet per 301 auf /confirm/ weiter - und MSN listet die Version ohne Slash.

robots.txt - Unterverzeichnis

Felix Weber

Angesehenes Mitglied

hk

Angesehenes Mitglied

Jürgen Auer

Legendäres Mitglied

Blackscorpio

Aktives Mitglied

Felix Weber

Angesehenes Mitglied

Felix Weber

Angesehenes Mitglied

Jürgen Auer

Legendäres Mitglied

Wir schützen Ihre Privatsphäre