Petite découverte amusante cet après midi au hasard d’une recherche… over-blog a laissé indexer par Google le répertoire où toutes les pièces jointes des blogs (en tout cas pdf et doc) sont stockées. Environ 18.500 documents sont ainsi disponibles en accès direct, et sans possibilité de remonter au blog d’origine (il y a manifestement des règles d’url rewriting quand on appelle le doc à partir du blog, mais quand on passe directement par le répertoire de données, on a une toute autre url.
Ca nous fait un joli paquet de duplicate content.
Ca fait aussi une source assez intéressante de documents. Il y a beaucoup de choses intéressantes chez overblog. Malheureusement, si l’auteur n’a pas pris le soin de signer son document, il est introuvable.
Je reste quand même surprise de cette bourde. Ce répertoire aurait dû être interdit en accès direct.


















On a droit à un lien direct ? :)