robots.txt - Unterverzeichnis

Google würde das akzeptieren:

CODE
User-agent: *
Disallow: /verzeichnis
Allow: /verzeichnis/verzeichnis2



wie es die anderen se annehmen kann ich dir nicht sagen
 
QUOTE (Felix Weber @ Di 18.09.2007, 08:36)Ich meine mit:

CODE User-agent: *
Disallow: /verzeichnis

wird auch /verzeichnis/verzeichnis2 gesperrt sein!

Stimmt.

Also muß entweder die Verzeichnisstruktur geändert oder die zu sperrenden Dateien im /verzeichnis müssen angegeben werden.

Ich meine, für google mal eine Lösung der Form


QUOTE Allow: /Verzeichnis
Disallow: /


gesehen zu haben. Aber der Allow-Operator ist nicht offiziell definiert, das klappt also bloß bei google.
 
Moin,

machs am besten wirklich einfach so:

QUOTE
User-Agent: *
Disallow: /verzeichnis/datei1.html
Disallow: /verzeichnis/datei2.txt



Somit hast du kein Problem mit dem gesperrten Unterverzeichnis. Sicherlich bei vielen Dateien etwas umständlich aber denke der sauberste Weg für alle SuMas...

Gruß, Dan
 
Hi!

Danke!
Ich habe mich mal über den Allow-Operator informiert!
Gefunden habe ich ihn bei:
http://www.google.com/robots.txt
http://www.nytimes.com/robots.txt

Wobei selfhtml.org
sagt:
QUOTE Es besteht übrigens keine Möglichkeit, Verzeichnisse explizit für die Indizierung zu erlauben. Ein Schlüsselwort Allow: wurde niemals definiert.


Dagegen sagt wikipediawikipedia:

QUOTE Allow: (Googlebot, Yahoo! Slurp) Auslesen erlauben Disallow: /
Allow: /public Das Verzeichnis /public darf durchsucht werden, der Rest nicht
(Syntaxerweiterung des Googlebot)


google sagt ja selber:

QUOTE Die Erweiterung "Allow"
Googlebot erkennt die der robots.txt-Standarddatei hinzugefügte Erweiterung "Allow". Diese Erweiterung wird unter Umständen nicht von allen Suchrobotern anderer Suchmaschinen erkannt. Überprüfen Sie, ob dies auch für andere Suchmaschinen gilt, an denen Sie interessiert sind. Die "Allow"-Zeile funktioniert genauso wie die "Disallow"-Zeile. Geben Sie einfach das Verzeichnis oder die Seite an, das bzw. die zugelassen werden soll.

Möglicherweise möchten Sie "Disallow" und "Allow" gemeinsam verwenden. Wenn Sie beispielsweise in einem Unterverzeichnis den Zugriff auf alle Seiten bis auf eine sperren möchten, erreichen Sie dieses mit den folgenden Einträgen:

User-agent: Googlebot

Disallow: /folder1/

Allow: /folder1/myfile.html

Durch diese Einträge wird der Zugriff auf alle Seiten im Verzeichnis folder1 mit Ausnahme der Seite myfile.html gesperrt.


mmh, also Yahoo und Google akzeptieren "allow"! Was ist mit den anderen?


QUOTE Moin,

machs am besten wirklich einfach so:



CODE
User-Agent: *
Disallow: /verzeichnis/datei1.html
Disallow: /verzeichnis/datei2.txt



Somit hast du kein Problem mit dem gesperrten Unterverzeichnis. Sicherlich bei vielen Dateien etwas umständlich aber denke der sauberste Weg für alle SuMas...

Gruß, Dan

Gebe dir recht, dass es die einfachste Lösung wäre, aber bei ein paar tausend Dateien ??

Felix
 
Hi!

Habe gerade bei ask.com folgendes gefunden:

QUOTE Q: Can I prevent the Ask crawler from indexing all or part of my site/URL?
A: Yes. The Ask crawler will respect and obey commands that direct it not to index all or part of a given URL. To specify that the Ask crawler visit only pages whose paths begin with /public, include the following lines:
# Allow only specific directories
User-agent: Teoma
Disallow: /
Allow: /public

hier

Somit kann ich sagen, dass folgende Sumas "allow" akzetieren:

Google
Yahoo
Ask

Denke ich werde das mit dem "allow" ausprobieren.

Felix
 
QUOTE (Felix Weber @ Di 18.09.2007, 11:18)Somit kann ich sagen, dass folgende Sumas "allow" akzetieren:

Google
Yahoo
Ask

Thanks für das Zusammensuchen.

Damit beschränkt sich das nicht mehr auf google - und MSN hat ohnehin eine gewisse Eigenwilligkeit bezüglich der robots.txt: Da sperre ich


QUOTE Disallow: /confirm/


aus - und MSN holt sich www.server-daten.de/confirm ohne Slash, die leitet per 301 auf /confirm/ weiter - und MSN listet die Version ohne Slash.
 
Zurück
Oben