Hi,
Ik heb een site die absoluut niet door zoekmachines mag worden opgenomen.
Nu heb ik netjes een robots.txt aangemaakt, waarin ik dit aageeft.
/root/robots.txt
/root/dir1/
/root/dir2/
/root/dir3/
In robots.txt staat dat dir1 & dir2 niet gespiderd mag worden.
Dir1 is een bot trap, dir 2 is de daadwerkelijke content die niet mag worden opgenomen.
In alle html bestanden in die directory staat ook noindex, nofollow.
Is dit alles wat ik kan doen.
Op het moment dat ik een ‘stoute’ bot heb, zou hij natuurlijk verder kunnnen zoeken.
Wat is ‘de beste’ oplossing?
sad
(Sad)
9 mei 2005 om 11:28
2
De beste oplossing is de site (deels) beschermen met wachtwoorden (bijvoorbeeld via .htaccess) zodat een bot ook niet "per ongeluk" kan gaan indexeren.
sunneh
(Sunneh)
9 mei 2005 om 13:47
3
.htacces wordt inderdaad veel gebruikt voor dit soort dingen, als ik jou was zou ik dit ook maar gebruiken? WebJ kan je daarbij helpen..
Je kunt ook met PHP op USERAGENT controleren door alles wat waar iets van het volgende in komt te blokkeren "bot", "spider" of "crawl". Maar een robots.txt is meestal wel genoeg "stoute robots" die deze negeren zullen ook wel een fake USERAGENT gebruiken.
Heeft iemand ervaring met het combineren van .htaccess wachtwoord bescherming, en gebruikers uit een database / php sessies?
Ik bedenk me trouwens net:
Ik heb het systeem nu als volgt:
Een .htaccess in /bla/ zegt:
[code:1:a4415c0327]
RewriteEngine on
RewriteRule ^map1/(.) /bla/redirects/image.php?image=map1/$1 [nc]
RewriteRule ^map2/(. ) /bla/redirects/image.php?page=map2/$1 [nc]
RewriteRule ^map3/(.*) /bla/redirects/image.php?page=map3/$1 [nc]
[/code:1:a4415c0327]
image.php checkt vervolgens voor login.
Dan is het probleem toch ook opgelost?