GoogleSiteMap.xml Creator

pharaoo
lol 15.000 ist immer noch viel stimmt

ich hab ein sehr kleines Forum mit 1100 Themen,

archiv funktioniert bestens,

nur leider hab ich jetzt in google überhaupt keine seiten mehr seit gestern.
Ste
Du musst bedenken das Google dauernd seinen Seitenbestand verändert, so dauert es eine weile bis Seiten fest im Google Index vorhanden sind. Es werden dauernd alte Datenbestände eingespielt, und wieder herrausgenommen. Wenn sich in 2 Monaten nichts geändert hat, solltest du anfangen nach Fehler zu suchen. Ich habe mir deine Seite mal angeschaut, und abgesehen von der Foren software die die unbedingt Updaten solltest, ist mir nichts aufgefallen.

ciao

Ste
pharaoo
danke,

update mache ich morgen war eh überfällig,


aber abwarten bis sich was ändert, das ist ungewohnt für mich, den wenn ich das so lasse findet kein mensch mehr ein Beitrag von mein Forum über google.

trotzdem 1000 grazie
pharaoo
mal ne frage

trotz sitemap ist das normal das in google fast keine seiten von mein Forum enthalten sind ?

in der logdatei sehe ich das googlebot und msnbot oft bei mir vorbeischauen

nur wieso wird nix gespidert ?

link zur hp

link archive

link sitemap
maxxx
Warte einfach mal ab, es dauert manchmal ewig bis man Resultate sieht. Ich hab die Sitemap jetzt 4 bis 5 Wochen drin, erstmal ist die Zahl meiner Seiten bei Google drastisch zurückgegangen aber inzwischen bin ich bei 12700 erfassten Themen (gestern, heute sind es plötzlich etwas weniger aber Google ist grad wieder zurück und hat die Sitemap erneut runtergeladen)
Ste
Du musst auch darauf achten welcher Google bot vorbei kommt nicht jeder Googlebot indixiert auch, manche schauen nur ob die Seite noch aktiv ist, andere sind nur für Adsense zuständig usw.

Die bots haben unterschiedliche kennungen

# Google
# UA "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
# UA "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
# UA "Googlebot/Test"
# UA "Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)"
# UA "Googlebot/Test (+http://www.googlebot.com/bot.html)"
# UA "Mediapartners-Google/2.1"
# UA "Googlebot-Image/1.0"

und dann hängts auch noch von der IP, denn nicht alles ist google wo google draufsteht Augenzwinkern

Abwarten und Tee trinken
pharaoo
hallo,

vielen dank, dachte hätte ein Fehler mit der sitemap gemacht, und deshalb die einzigen 200 archivierten seiten weg sind.


aber wenn die wieder kommen ist auch ok.

hier die ip s von den googles
crawl-66-249-66-104.googlebot.com
msnbot.msn.com
crawl-66-249-65-47.googlebot.com
crawl-66-249-65-107.googlebot.com
crawl-66-249-66-229.googlebot.com
crawl-66-249-66-241.googlebot.com
crawl-66-249-65-165.googlebot.com
crawl-66-249-66-37.googlebot.com


wie finde ich heraus wer was ist ?

thx
maxxx
Was kann man denn da falsch machen?

BTW: Das sind die Hosts und nicht die IPs Augenzwinkern

Schau mal auf http://www.dnsstuff.com/ , da kannst du ein Whois Lookup machen und schauen ob die IPs zu der gewünschten Firma gehören. Diese sollten soweit ich das sehe alle "echt" sein soweit man es prüfen kann.
Ste
oder einfach einen schönen WHOIS service suchen, ich benutze http://www.iks-jena.de/cgi-bin/whois

Die Kennung ist leicht zu manipulieren, gerade Spam Bots, Content Grabber, E-mail Grabber usw, benutzen gefälschte Kennungen.

Ich schweif mal n bissel ab....
Wenn der Googlebot an einem Tag 1 Gb an Traffic generiert, dann kannst du sicher sein das es nicht der Googlebot ist, und das bald der Inhalt deiner Seite auf irgendeinem Server auf einem Inselstaat liegt, und Google dir noch den Gefallen tut, und deine Seite als Kopie einstuft.
Ich habe Fertig.
derchris
Habe mich lange nicht mehr gemeldet - da ich wenig Zeit habe und der SiteMapCreator eigentlich funktioniert (bei mir zumindest).

Gibt es schon "langzeit" Erfahrungen von anderen?

Bei uns ist es eigentlich ganz gut, google ist oft zu Gast und es ist wirklich vieles im Index. Habe keine negativen Auswirkungen feststellen können.

grüße

Chris
300782191
Zitat:
Original von derchrisDie generierte XML ist dann 2,5MB groß. Google kann bis zu 10MB XML verwalten. das wären dann max 80000 Threads.

Bei Google steht, es dürfen max. 50 000 sein.

Was denn nun ?
Doch 80 000, da dass dann noch unter 10 MB fällt, oder wie ?



300782191
xchewbaka
Das kann nicht richtig sein :-)

in diesem codeabschnitt hier :

####################
//do output
header("Content-type: text/xml");
echo "<?xml version=\"1.0\" encoding=\"UTF-8\"?>
<urlset xmlns=\"http://www.google.com/schemas/sitemap/0.84\">
<url>
<loc>$url2board/archive/index.html</loc>
<changefreq>always</changefreq>
<priority>1.0</priority>
</url>$map_item
</urlset>";
####################

verweist du auf ne index.html, die es in /archive/ nicht gibt.

muß es da nicht /archive/index.php heißen ???


und was ist damit :

in dem Ordner /archive ist ja ne .htaccess vorhanden mit folgendem Inhalt :

################
RewriteEngine On
RewriteBase /wbb2/archive
RewriteRule ^index\.html$ index.php [L]
RewriteRule ^([0-9]*)/board\.html$ board.php?boardid=$1 [L]
RewriteRule ^([0-9]*)/([0-9]*)/board\.html$ board.php?boardid=$1&page=$2 [L]
RewriteRule ^([0-9]*)/thread\.html$ thread.php?threadid=$1 [L]
RewriteRule ^([0-9]*)/([0-9]*)/thread\.html$ thread.php?threadid=$1&page=$2 [L]
################

lol , und mein board liegt zb direkt im root , also urlzumeinemforum.de/hier der ganze boardquatsch

das müßte dann doch auch geändert werden or not ??

mfg chewy
Windapple
Durch das Rewrite gibts im archiv Verzeichnis ne index.html.
Und wenn das Board im root liegt muss es so heißen

RewriteBase /archive

Das man das ändern muss steht in der install vom wbb 2.3.x dabei.
xchewbaka
hmmm ind der sitemap auf google zeigt der mir :

Fehler: index.html not found


mod_rewrite ist on
300782191
Du musst den Pfad von der .htaccess im Ordner /archive/ anpassen.

Wenn Dein Board gleich im root Verzeichnis liegt dann z. B.:
code:
1:
2:
3:
4:
5:
6:
7:
8:
RewriteEngine On
RewriteBase /archive
RewriteRule ^index\.html$ index.php [L]
RewriteRule ^([0-9]*)/board\.html$ board.php?boardid=$1 [L]
RewriteRule ^([0-9]*)/([0-9]*)/board\.html$ board.php?boardid=$1&page=$2 [L]
RewriteRule ^([0-9]*)/thread\.html$ thread.php?threadid=$1 [L]
RewriteRule ^([0-9]*)/([0-9]*)/thread\.html$ thread.php?threadid=$1&page=$2 [L]
mhn
yuhu ! Genau sowas hab ich überall gesucht!

Soweit ichs gelesen habt funktioniert das einwandfrei oder?

Also das Archiv habe ich eh schon eingestellt das funktioniert auch 100%ig.

Aber was ist jetzt mit den Unterseiten?

Die Sitemap ist ja grade dafür da, dass google sich nicht selber durch die Seiten gucken muss sondern, dass alle URLs in der sitemap drin stehen.

Deswegen sollte neben

http://domain.tld/archive/1789/thread.html doch auch

http://domain.tld/archive/1789/2/thread.html

und http://domain.tld/archive/1789/3/thread.html

drin stehen. Wobei ich finde dass es eh besser gelöst wäre wenn statt http://domain.tld/archive/1789/3/thread.html - http://domain.tld/archive/1789-3/thread.html angezeigt würde. Dadurch wäre dann die Seite nicht noch eine ebene tiefer.



Noch was:

Ich im archive Ordner schon folgende htaccess:

code:
1:
2:
3:
4:
5:
6:
7:
RewriteEngine On
RewriteBase /archive
RewriteRule ^index(.html?)$ index.php [L]
RewriteRule ^([0-9]*)/board.html$ board.php?boardid=$1 [L]
RewriteRule ^([0-9]*)/([0-9]*)/board.html$ board.php?boardid=$1&page=$2 [L]
RewriteRule ^([0-9]*)/thread.html$ thread.php?threadid=$1 [L]
RewriteRule ^([0-9]*)/([0-9]*)/thread.html$ thread.php?threadid=$1&page=$2 [L]


soll ich da einfach

code:
1:
RewriteRule sitemap.xml   sitemap.php   [L,QSA]   


dadrunter schreiben?
andyleery
Wie oft wird die Sitemap aktualisiert? Pro Aufruf der Index.php oder wie funzt das? Und noch ein Lob an dein Hack, richtig wichtig und gut für jeden!
mhn
die SEO Möglichkeiten des WBB sind immer noch total unterentwickelt, aber dass ist schonmal ein Anfang.

Kann den Hack jmd so umprogrammieren, dass alle Seiten die für Gäste im Archiv sichtbar sind, indexiert werden und nicht nur die erste Seite eines Themas?
andyleery
STIMMT obwohl es ja wohl mit das wichtigste ist böse
mhn
ja da hat woltlab echt was verschlafen


hoffentlich bauen sie was ins wbb3 ein sonst können die einpacken