Verwijderd

Verwijderd

In de F.A.Q. gezocht op 'crawler', waardoor ik op deze pagina terechtkwam: http://www.archive.org/about/faqs.php#5

Daar las ik het volgende:

[quote:89af60dd86]Why are some sites harder to archive than others?

If you look at our collection of archived sites, you will find some broken pages, missing graphics, and some sites that aren’t archived at all. Here are some things that make it difficult to archive a web site:
Robots.txt – We respect robot exclusion headers.
… (cut) …
Unknown sites – The archive contains crawls of the Web completed by Alexa Internet. If Alexa doesn’t know about your site, it won’t be archived. Use the Alexa Toolbar (available at www.alexa.com), and it will know about your page. Or you can visit Alexa’s Archive Your Site page at http://pages.alexa.com/help/webmasters/index.html#crawl_site.
…[/quote:89af60dd86]

Die link bleek erg behulpzaam. Blijkbaar gebruiken ze Alexa en is de user-agent: ia_archiver.

Ze veroorzaken trouwens her en der wat wrevel op het net. Dus misschien is dat "af-bitchen" nog niet eens zo gek... ;-)

Verwijderd

Mmm... Zou ook best eens kunnen dat een deel van de wrevel waar ik het over had te maken had met het niet gehoorzamen van de robots.txt of iets dergeljks. Ik weet het niet precies meer... Google anders even, dan komen die discussies vanzelf wel bovendrijven schat ik.