Les documents sur over-blog
Petite découverte amusante cet après midi au hasard d’une recherche… over-blog a laissé indexer par Google le répertoire où toutes les pièces jointes des blogs (en tout cas pdf et doc) sont stockées. Environ 18.500 documents sont ainsi disponibles en accès direct, et sans possibilité de remonter au blog d’origine (il y a manifestement des règles d’url rewriting quand on appelle le doc à partir du blog, mais quand on passe directement par le répertoire de données, on a une toute autre url.
Ca nous fait un joli paquet de duplicate content.
Ca fait aussi une source assez intéressante de documents. Il y a beaucoup de choses intéressantes chez overblog. Malheureusement, si l’auteur n’a pas pris le soin de signer son document, il est introuvable.
Je reste quand même surprise de cette bourde. Ce répertoire aurait dû être interdit en accès direct.
On a droit à un lien direct ? :)
Bonjour,
overblog est un outil de publication, il est donc normal que tout ce qui est mis en ligne ait une exposition sur l’ensemble des outils de recherche. En l’occurrence, c’est vrai pour les images, les vidéos, et les documents.
Rien de confidentiel n’est donc dévoilé/indexé :-)
Cela dit vous nous avez raison, nous devrions proposer une redirection vers le blog qui a publié le document lorsqu’il est accédé via google. Merci de nous avoir donner l’idée!!
Bonjour,
en fait ma remarque était à deux niveaux :
– d’un point de vue SEO, il n’est pas “très bon” que ces documents soient indexés, puisqu’il y a au mieux duplicate content, voire triple si ils sont la copie pdf d’un post. Je suis arrivée sur ce répertoire en cherchant des documents, et l’url overblog est sortie avant celle du blog
– d’un point de vue utilisateur, il n’est pas bon que les documents puissent être accédés sans contexte, donc, éventuellement sans mention de droits, ou d’auteurs.
Après je ne connais pas assez le fonctionnement de votre plateforme (et ce n’était pas le but du jeu non plus) pour savoir si on peut y protéger des posts (et dans ce cas si les pièces jointes s’y retrouvent ou pas), si on peut inclure une vérification pour Google Webmaster Tools, et dans ce cas ce qui se passe quand on demande la désindexation du blog, etc… de toute façon je pense que ce sont des cas limites.
Mais en gros, vous laissez ouverte une porte sur un répertoire de gestion :) C’est d’ailleurs pour cela que je n’ai pas mis l’url dans mon post.
Sinon je suis assez impressionnée par votre réactivité :) Mon blog est loin d’être influent, je suis curieuse de savoir comment vous êtes arrivés aussi vite chez moi ?
Ou une veille efficace :)
Un blog discrètement influent ;)