Robot.txt -> Wie konfiguriern?

sw007
Zitat:
Original von Windapple
Es gibt kein Allow, nur Disallow. Du musst also alle .php Dateien die da so rumliegen per Disallow ausschließen, es führt kein Weg drumrum.

Könntest aber meine robots.txt als Vorlage nehmen, ich hab mir die Arbeit mal gemacht alle Dateien einzeln auszuschließen und das funzt wunderprächtig: http://www.gm-d.de/robots.txt


danke, find' ich cool großes Grinsen

aber eines verwirrt mich schon...

und zwar diese beiden Zeilen

code:
1:
2:
3:
4:
5:
6:
7:
8:
9:
#
#
# real robots.txt for good bots
#
#
User-agent: *
User-Agent: Googlebot
Disallow: /archiv/


was ist der Unterschied zwischen User-agent:* und User-Agent:Googlebot?

ich dachte der Stern heißt alle erlauben?
Windapple
Einige störrische GoogleBot Server brauchen ne Sondereinladung, waren früher so 30% die kurioserweise nicht auf * ansprangen. Wie das heute ist weiß ich nicht, aber lieber Vorsicht als Nachsicht Augenzwinkern
sw007
ah, danke. funktioniert prima großes Grinsen
[kamui]
Ich habe erst neulich einen Tutorial über die robot.txt gelesen, und da wurde auch mit "Allow" gearbeitet! klick
Windapple
Das versteht kaum ein Bot, da es nachträglich hinzugefügt wurde. Der neueste Standard ist das 1994er Robots Exclusion Protocol. Allow steht im Working Draft, d.h. Suchbots können das Unterstützen, ist aber keine Pflicht um Robots Exclusion Standard konform zu sein.
Hier ist noch ne Seite mit den häufigsten Fehlern und Missverständnissen bei der robots.txt.
[kamui]
Achso, wieder was dazu gelernt fröhlich thx
Windapple
Wenn man mal schauen will, ob die robots.txt standardkonform ist, kann man das z.B. hier tun: http://www.searchengineworld.com/cgi-bin/robotcheck.cgi