Robot.txt -> Wie konfiguriern?

C8H20
Howdy,

wie kann ich den Spidern und Robots sagen, dass sie sofort ins Archiv gehen sollen: http://www.donsalva.com/forum/archive/index.html und nicht auf meine Seite?

Danke im Voraus,
C8H20
Bräke
Richtige Schreibweise, falsch ist robot.txt (also ohne »s«) - kommt immer wieder vor (selbst in Büchern - ist aber trotzdem falsch).

Hab mal geschaut, aber wie man die direkt dahinbekommt, hmm???

code:
1:
2:
3:
User-agent: * 
Disallow: /uhu/ 
Allow: /uhu/nest.html 


# (1. Zeile) Alle robots erlaubt; sonst namentlich einschränken, frag mich aber nicht, welche Namen
# (2. Zeile) ausgeschlossene Verzeichnisse vom Spidern; wenn leer - keine Einschränkung
# (3. Zeile) die Datei nest.html darf trotzdem von Robots ausgelesen werden.
C8H20
Werd's mal testen. DAnke!
C8H20
Noch eine Frage hätte ich:
Wenn ich aber nun allen Robots überall den Zutritt gewähren will, was muss ich machen? Gar keine Robots.txt oder doch?

C8H20
Bräke
Die Datei sollte schon vorhanden sein. Wenn der Spider keine findet, bekommt der Server nen 404 gemeldet. Die Datei kann auch Leer sein, für alle dann halt.
C8H20
Zitat:
Original von Bräke
Die Datei sollte schon vorhanden sein. Wenn der Spider keine findet, bekommt der Server nen 404 gemeldet. Die Datei kann auch Leer sein, für alle dann halt.
also einfach eine Datei mit
code:
1:
User-agent: * 

Oder wie?
Bräke
Nö, leer halt. Augenzwinkern
300782191
Ich habe zu dem Thema zwei Fragen:
a) du, Bräke, sagst, dass es robot.txt heißen muss, aber warum heißt die Datei hier: robotS.txt ?
b) was ist / wäre denn ein "perfekter" Inhalt für diese Datei für ein wBB2 um double content zu vermeiden und die Spider nur auf Seiten zu lassen, wo es auch "nötig" ist. Also eine Seite wie register.php braucht kein Bot zu spidern, finde ich.



300782191
Tropical
Zitat:
Original von Bräke
falsch ist robot.txt (also ohne »s«)

Bräke hat ausnahmsweise mal keinen Blödsinn verzapft, sondern du hast dich verlesen Zunge raus

@b Keine Ahnung großes Grinsen
300782191
Zitat:
Original von Tropical
Zitat:
Original von Bräke
falsch ist robot.txt (also ohne »s«)

Bräke hat ausnahmsweise mal keinen Blödsinn verzapft, sondern du hast dich verlesen Zunge raus

Stimmt.
Sry.
Wie peinlich ...
BreiteSeite
Zitat:
Original von 300782191
Zitat:
Original von Tropical
Zitat:
Original von Bräke
falsch ist robot.txt (also ohne »s«)

Bräke hat ausnahmsweise mal keinen Blödsinn verzapft, sondern du hast dich verlesen Zunge raus

Stimmt.
Sry.
Wie peinlich ...


Macht nix, hab mich auch verlesen smile .
300782191
Okay, gut zu wissen, dass ich nicht der einzige bin, but:
vergesst bitte nicht meine Frage Augenzwinkern
Ste
Doppelten Content vermeidest du indem du das Forum für Bots sperrst und sie nur ins Archiv lässt.

also alle thread.php und board.php disallow
300782191
Ja, das war mir schon klar, aber was sollte man vll. noch disallowen ?
Ste
Ich kann leider nicht Hellsehen, darum weiss ich nicht wie deine Seite aufgebaut ist, aber wenn es ein Standard Wbb2 ist, würde ich sagen es gibt noch die druckeransicht (print.php) sperren solltest.

Sperre auch gleich die markread.php und die index.php?hidcat

ciao

Ste
300782191
Okay.
Ja ist ein Standard wBB bzw. noch in der Entwicklung und es wurde nichts groß geändert.

Ist es vorteilhaft die Bots gleich ins Archiv zu leiten ?

Weil ich finde es ja unvorteilhaft, da z. B. in den Kategoriebeschreibungen auch Sachen stehen könnten, die den PR antreiben.

Aber ist das so ?
Ste
Die Kategoriebeschribung hat keinen Enflus auf den Google Page Rank

Das archiv ist halt eine Sitemap, was übersichtliches gibt es nicht. Ob das Archiv von Woltlab funktioniert kann ich nicht sagen
300782191
Okay, danke.
sw007
alter Thread neu aufgewärmt fröhlich fröhlich

würde also dann das funktionieren, wenn der Bot nur das Archiv durchsuchen soll?

code:
1:
2:
3:
User-agent: * 
Disallow: / 
Allow: /archive/
Windapple
Es gibt kein Allow, nur Disallow. Du musst also alle .php Dateien die da so rumliegen per Disallow ausschließen, es führt kein Weg drumrum.

Könntest aber meine robots.txt als Vorlage nehmen, ich hab mir die Arbeit mal gemacht alle Dateien einzeln auszuschließen und das funzt wunderprächtig: http://www.gm-d.de/robots.txt