SEO, BASH, PHP et plus si affinités

Freeglobes, NSEO, What else ?

Negative SEO

Afin de coder un script pour mes besoins personnels (ou pas), je me suis dernièrement attaquer à freeglobes. Mais attention, pas freeglobes dans le sens poster sur freeglobes, non, récupérer le source code de freeglobes afin d’étudier son fonctionnement. En regardant d’un peu plus près l’url rewriting, je m’aperçois qu’il est très facile – voir enfantin – de modifier l’url d’une fiche. Il faut juste savoir que par défaut, freeglobes utilise le titre de votre site pour construire son url. Vous souhaitez savoir pourquoi le titre de cet article amènera à une conclusion que vous n’imaginiez même pas ? Alors lisez la suite …

Tout est dans le .htaccess mon cher WatSEOn

Si je vous dis :

RewriteRule   ^(.*)-s-([0-9]*).html$   single.php?id=$2 [L]

Vous me dites : Élémentaire mon cher !

Pour ceux qui ne sont pas familier avec l’url-rewriting, je vais vous expliquer très simplement ce que cela signifie, mais avant cela, petit rappel sur une méthode simple de NSEO.
Une méthode assez connue et facile pour pratiquer de la NSEO, c’est de provoquer du Duplicate Content onsite sur le site d’un concurrent ou sur ses satellites, fiches d’annuaires,…

Comment fait-on ?

Et bien en fait, c’est relativement simple. L’url rewriting, c’est bien, c’est beau, c’est chouette, mais quand c’est gérer avec la b*te, et bien c’est la porte ouverte à toutes les fenetres !!!
Pour étayer ce que je viens de vous dire, lorsque vous apercevez des urls re-écrites avec un ID dedans,il y a de très fortes chances pour que vous puissiez mener une action de Negative SEO.
Je sens que je viens de vous embrouiller avec toutes mes palabres, donc pour que vous compreniez bien ce que je suis en train de vous raconter, place aux exemples.

Cas d’école

Comme je vous l’ai dis dans l’intro, freeglobes utilise par défaut le titre de votre site pour construire son url. Mais en jetant un rapide coup d’oeil au .htaccess, on s’apercoit très rapidement que la premiere partie de l’url (celle qui précède le -s), n’est pas transmise. Alors testons rapidement les effets indesirables de cet oubli.

Freeglobes

Soit la fiche suivante :

http://www.iporte.fr/casino-s-12345.html

Casino, c’est un peu vague, mais si je rajoute « annuaire », « canada », « quebec », ca sera un peu plus parlant. Allons-y !!

http://www.iporte.fr/annuaire-des-casinos-au-canada-et-au-quebec-s-12345.html

Pof, pof, pof, abracadabra => POUM ca fonctionne, bingo.
Inutile de vous dire que

http://www.iporte.fr/charcuterie-saucisson-rillettes-s-12345.html

ou

http://www.iporte.fr/pilule-bleue-et-compagnie-s-12345.html

fonctionnera tout aussi bien.

Prestashop

Oui, je pense que vous n’êtes pas insensible à ce nom. Un e-commerce open-source lancé par des étudiants français et qui surtout possède une communauté active, ça ne pouvait que marcher. Mais je suis désolé de vous apprendre ça de cette manière, mais sur les premières versions, ça se shoot aussi facilement que du Freeglobes, sauf que la généralement, vous tapez directement la cible.

Je suis une fois de plus confus pour les exemples que je vais prendre, qui je le répète sont choisis totalement au hasard (et je suis trop cool je ne fais pas de liens, même en nofollow).

Soit le produit suivant :

http://www.sunrisehossegor.com/619-sunrise-hossegor-guirlande-en-crochet.html

On fait mumuse ?

http://www.sunrisehossegor.com/619-ventilateur-portable-pour-pandaranol.html

Sur ce coup la je n’irai pas plus loin, puisque le cas est relativement similaire à celui des Freeglobes. Et pour les plus malin, ca ne fonctionne plus sur les version récentes de PrestaShop 😉

Ames sensibles, s’abstenir

J’espère que vous avez toujours en tête ce que je vous ai annoncé précédemment (des histoires d’ID dans l’url). Alors la je vais être méchant, bou le vilain, je vais vous montrer comment il serait relativement simple de démonter un annuaire comme … WRI (nan, ne me lancez pas de tomates, je préfère les parpaings). Attention attention, Sylvain Mirouf sors de ce corps :
L’originale :

http://www.webrankinfo.com/annuaire/cat-150-referencement.htm

Ses amies :

http://www.webrankinfo.com/annuaire/cat-150-arnaqueurs.htm
http://www.webrankinfo.com/annuaire/cat-150-entourloupeurs.htm
http://www.webrankinfo.com/annuaire/cat-150-mediums.htm
http://www.webrankinfo.com/annuaire/cat-150-secte.htm

Cet exemple, je ne voulais pas le mettre, mais mon pseudo me colle trop à la peau.

La parade

Dans le cas de PrestaShop (comme dans le cas de n’importe quel script open-source), inutile de vous dire de maintenir vos versions à jour.

Pour des scripts homemade, quand vous effectuez du rewrite sur des urls, vous DEVEZ controller les paramètres passés dans l’url. C’est vraiment primordial pour limiter ces risques.

Pour le reste… et bien amusez vous !!!

Attention quand même

Provoquer du DC sur le site d’un tiers c’est {con|marrant|rigolo|salaud|efficace|facile}.
Ca peut être aussi un moyen efficace de {réduire|killer|anéantir} le poids des fiches de vos concurrents en faisant le nécessaire (bls avec urls et ancres différentes => faites péter le DC quoi ;)).
N’en abusez pas non plus, puisque cela peut par la même occasion mettre une grosse tarte à l’annuaire en question !

Avant de terminer, j’espère que je ne vous apprend rien quand je vous dis que http://www.example.com et http://www.example.com/index.{php|html} est le cas le plus simple pour pourrir un site hein !!
Donc pensez à rediriger vos index.ext vers la racine de votre site.

Comment ça ? Non, le but de cet article n’était pas d’apprendre comment faire de la negative SEO avec des fiches freeglobes 😛

Je vous laisse seul avec vous même, et bon PANDARANOL à tous !!

Lectures connexes :
Comment éviter un SEO négatif et le black hat SEO – SMX Paris 2011
SEO saisonnier, negative SEO et microformats (SMX)
SEO négatif
Donnez du poids à vos fiches d’annuaires
.htaccess hack: remove query strings from URLs Merci à le fada pour sa remarque très pertinente dans les commentaires.

34 Réponses to “Freeglobes, NSEO, What else ?”

  1. lemacbacon dit :

    Je découvre ton blog et je m’en vais l’ajouter dans mon Google Reader… 🙂

    Sauf erreur de ma part, il existe une deuxième parade : la balise

    Mais je suis entièrement d’accord avec toi, il faut le laisser le minimum de liberté aux vilains de l’extérieur et tout ce à quoi ils ont accès (y compris les url)

    Bonne continuation et au plaisir de te lire à nouveau.

    PS : Vive le pandaranol !

  2. Vincent dit :

    Moué, j’ai jamais été très convaincu de ces techniques. Quelqu’un qui surveille bien son site pourra facilement retourner la situation à son avantage en faisant une 301 de la page DC vers sa bonne page.

    Par contre dans tes exemples tu mets des mots un peu chaud pour Google. Ce qui fait peur est de mettre un lien vers un mot porno (laisser vaquer votre imagination) pour que Google pénalise la page.

    As tu vraiment des exemples où ça a détruit un site ?

  3. rivsc dit :

    Oui en même temps il suffit de mettre un pour éviter d’être pénalisé à cause du DC.
    D’ailleur ça m’étonne de WRI !

    Mais bon l’article est juste là pour coller un lien Pandaranol hein ? ^^

  4. Ton article est complémentaire du self NSEO, car encore une fois, c’est une mauvaise configuration du site qui cause problème.
    ps : merci pour le lien. 😉

  5. Zizounnette dit :

    nice tips 😉

    petit fix à mettre en place dans l’idée

    if ( $_SERVER[« REQUEST_URI »] != FONCTION_QUI_PREND_L_ID_ET_TRANSFORME_L_URL($id)) {
    header (‘Location : .’ FONCTION_QUI_PREND_L_ID_ET_TRANSFORME_L_URL($id));
    }

    FONCTION_QUI_PREND_L_ID_ET_TRANSFORME_L_URL // cette fonction existe obligatoirement dans le code 🙂

  6. Le même problème se pose malheureusement pour la plupart des sites dynamiques utilisant un système de réécriture d’url. S’en prémunir n’est en soit pas difficile mais cela prend un peu de temps de développement et c’est donc souvent mis de coté.. jusqu’à ce que le mal ne soit fait !

    @lemacbacon la balise canonical peut en effet limiter les effets du duplicate, par contre si des mots-clefs « censurés » sont utilisés dans les urls je ne suis pas certains de son efficacité.

  7. lemacbacon dit :

    @Zizounnette : ne jamais oublier le die/exit après le location…

  8. rivsc dit :

    Bon rdd a viré ma balise canonical entre « un » et « pour éviter » ! Juste pour qu’on comprenne mon commentaire. Sinon l’idée du 301 c’est même mieux !

  9. RDD dit :

    @lemacbacon
    Merci !

    @Vincent
    En effet, quelqu’un qui vérifie régulièrement son site pourra trouver une parade à ce petit jeu. Mais sincèrement, dans les exemples que je donne – et extrapolons même jusqu’à la majorité des annuaires freeglobes – penses-tu que le webmaster est au taquet derrière son site ? Personnellement je ne pense pas.

    J’ai encore mieux qu’un exemple, ça m’est arrivé en 2009 😉 A proprement parler ça n’a pas « détruit » le site en question, mais ça a engendré une perte de ranking phénoménale.
    Avec un poil d’huile de coude pour rediriger proprement tout ce beau monde tout est – a peu près – rentré dans l’ordre 😉

  10. #-http://www.renardudezert. com/2011/06/10/tirez-parti-des-fiches-freeglobes.html?test=coucou

    Ce cas de duplicate peut s’appliquer à quasiment la majorité des sites dynamiques.

    Dans la méthode de zizounette il ne faut pas oublié le bon code de redirection 😉

  11. RDD dit :

    @Aurélien Delefosse
    Exactly !!
    Pour le lien, j’ai bien aimé vos slides (j’aurai bien sur préféré vous embusquer IRL, mais pour cette fois c’était impossible) et ton article a surgi sur twitter tel une illumination satanique. Il avait donc sa place ici 😉

    @rivsc
    Ha nonon, je n’ai rien viré moi faut que tu t’arranges avec WP pour ca 😉

    @Annuaire Qualitatif et @le fada
    C’est exactement ce que je cherche à montrer en effet. Apres je n’ai pas réaliser de test sur l’impact d’une modif pure de l’url et le passage d’un paramètre dans l’url pour vérifier si l’incidence est la même. C’est une bonne idée que je vais garder au chaud 😉

    @le fada
    Je n’avais même pas vu que WP laissait faire ça, c’est corrigé 😉

  12. Zizounnette dit :

    +301
    +die();

    +1 pour vous 🙂

  13. Le juge dit :

    Efffectivement ta faille s’applique a de tres nombreux CMS – j’ai d’ailleur du batailler avec mon boss pour lui faire comprendre que de nombreux sites faits avec notre cms etait vérolé par ce probleme

  14. Jedfolio dit :

    Je me pose la question, comment tu as fait pour qu’on puisse plus rajouter ?test=coucou à la fin de ton url

    Tu as rajouté quoi dans ton htaccess pour que l’url ne soit pas déformé?

  15. RDD dit :

    @Jedfolio
    Jette un coup d’oeil au dernier lien de l’article, tu trouveras ton bonheur ^^

  16. Pandaranol dit :

    Merci pour le rappel, je confirme que de nombreux systèmes de publication (CMS, mais pas seulement), souvent au nom du sacro-saint URL REWRITING, compromettent la « fiabilité » d’un site : ce qui est (un peu) acquis en SEO peut-être (beaucoup) perdu en NSEO !

  17. cdillat dit :

    Tous les principaux CMS de la fnac, cdiscount … souffrent de ce mal. Je connaissais cette erreur depuis un bail ayant participé à l’élaboration d’un CMS, je trouve ça lamentable de la part des boites.

  18. maximedt dit :

    Super article, ça touche énormément de sites quand même, je sais pas si Google a un filtre ou quelque chose pour y remédier (si la page n’a pas de lien sur le site par exemple et qu’il existe une page identique => on ne l’indexe pas, ou au moins on ne déclasse pas l’originale).
    Je viens de poster un article présentant une autre petite astuce pour tirer parti des fiches Freeglobes :
    http://www.maximedt.com/blog/referencement-freeglobes-black-hat.html

  19. Antoine dit :

    Malheureusement les sites de nombreuses agences web possèdent également cette faille. Et parfois même des e-commerce notoires.
    Je pense que ça peut faire beaucoup de mal à un jeune site. Par contre, un site qui dispose de Ko de BLs et d’une bonne ancienneté ne souffrira pas de cette pratique à mon humble avis.
    Pour quiconque sait détecter ces URLs, un p’tit coup de 301 et ça fait même un joli BL 🙂

  20. myth cloth saint seiya dit :

    C’est vrai qu’à bien y regarder, presque tous les sites dynamiques souffrent de ce problème sur l’une ou l’autre de leurs pages… et ce billet m’a permis de faire quelques corrections sur mes sites persos. Il y a quelques temps, j’avais trouvé des trucs bizarres dans Google Analytics et GWT, maintenant je sais d’où ça vient…

    à noter aussi que pour éviter des ajouts intempestifs à la fin des url en .php ou .html type « monsite.fr/index.php/a-j-o-u-t », vous pouvez ajouter la ligne suivante dans votre .htaccess : « AcceptPathInfo Off »

    Mais j’ai tout de même une question : si on met en place un système pour repérer les URL modifiées, que vaut-il mieux faire ?

    un 404 ou un 301 ?

    Le 301 ne risque t-il pas d’envoyer du mauvais jus ? c’est quand même une façon de dire que l’URL modifiée a une certaine légitimité, non ?

  21. Pandaranol dit :

    Très bon article. De très nombreux sites ont cette faille…

  22. aymerictwit dit :

    Bon article! J’avais déjà remarqué ce problème sur quelques sites. Il me semble aussi que certaines règles dans le htaccess de Phpbb SEO généraient aussi ce genre de problèmes, enfin ça a peut être été corrigé depuis.
    Un seul conseil, lisez bien vos règles de réécriture et apprenez à lire les expressions régulières comme les ingrédients d’une bonne recette de cuisine 🙂

  23. Franck dit :

    Question pour les débutants comme moi : je comprends très bien le principe de la déformation d’URL mais en quoi cela va gêner le site ?? : – les pages vont êtrent crées mais vont-elles êtrent référencées par Google ?? Faut-il ajouter du poids pour que cela soit efficace ? Combien de page xxx-pilulebleue faut-il ajouter pour que cela fonctionne ? En gros, comment utiliser ce procédé pour nuire car la je vois pas très bien … Désolé d’être si mauvais …

  24. RDD dit :

    @myth cloth saint seiya
    Alors la vraiment desole, j’ai zappe de te répondre. 301 sans hésiter.

    @Franck
    Il ne fait jamais s’excuser de ne pas comprendre 😉
    Pour faire simple, je ne parle pas dans l’article de « créer » ces pages, mais bien de faire des backlinks dessus. C’est la grande nuance qui fait tout. Parce qu’un BL bien place (sur un site crawle régulièrement par Google), suffira pour que la page soit référencée dans Google. Ensuite tu n’as plus qu’a envoyer une quantité de liens sur une quantité de pages que tu auras « dupliqué » => le site se prendra un filtre pour duplication de contenu. Je sais pas si j’ai été très clair, mais la puissance réside encore et toujours dans le lien 😉

  25. Franck dit :

    Merci beaucoup, je comprends bien le mécanisme maintenant : le but est de créér du DC et de bien les linker, et pas nécessairement de mettre des mots clés spammy dans les URL, ceci est juste un plus.

  26. Eric dit :

    Je suis pas du tout spécialiste en sécurité web. J’ai vu que certain sites faisaient systématiquement des redir 301 au lieu de 404 pour les pages inexistantes. Genre on tape http://www.monsite/repertoire/uyzeulfdlqf et il nous fait une 301 vers http://www.monsite/repertoire
    Est-ce qu’il y a un risque côté référencement (puisque à priori les 301 sont pas fait pour ça)?
    Sinon est-ce que tu penses que c’est une bonne technique pour éviter les 404 et de perdre des visiteurs qui font une faute de frappe ?

  27. RDD dit :

    @Eric
    Salut,
    Le problème que tu soulèves est intéressant, puisqu’on pourrait avoir 3 solutions :
    – Effectuer une 410 (Gone) pour une page précédemment indexée mais qui n’existe plus et qui n’a aucune correspondance avec une nouvelle page. Personnellement, ce n’est pas du tout ce que je préfère, car si une page est indexée, autant en tirer pleinement profit.
    – Effectuer une soft 404. Qu’est ce qu’une soft 404. Et bien c’est une erreur 404 personnalisée, qui avertit l’utilisateur que ta page n’existe plus, mais qui conserve l’aspect visuel de ton site. C’est beaucoup mieux que la 404 de base, mais le gros inconvénient, c’est que les spiders indexent les 404 !! Donc soit tu t’arranges pour que tes soft 404 aient une balise meta robots noindex (ou equivalent), soit tu optes pour la solution suivante.
    – Effectuer une redirection 301. La redirection 301 permet dans ce cas, de rediriger les urls « foireuses » vers la page de ton choix. L’avantage c’est que ça démotivera un grand nombre de lancer une action de NSEO sur ce type de sites (j’ai bien dis un grand nombre et pas tout le monde). Tu limites très fortement le duplicate content, et comme tu le soulignes, sur une faute de frappe, tu ne perds pas le visiteur.

    Voila mister, j’espère avoir été assez clair dans mon explication.

  28. Eric dit :

    Oui tu as été parfaitement clair puisque même moi j’ai compris 😉
    Je vais donc mettre en place la solution 3.

  29. Julien dit :

    Hello,
    je suis un peu con mais j’ai du mal à comprendre.

    Quel est le souci, par exemple avec cette url :
    http://annuaire-freeglobes/dictionnaire-economique-s-1786.html

    Elle est dupliqué à cette endroit, c’est ça ?
    http://annuaire-freeglobes/-s-1786.html

    La redirection n’étant pas 301, Google y voit du DC ?

    Et concernant l’ID il ne peut y avoir plusieurs ID commun, il est unique non ?

    Merci pour tes lumières.

  30. RDD dit :

    @Julien
    Ton url ne fonctionne pas, mais pour te répondre oui un ID est unique, c’est la définition même de l’ID.
    Je parle plus de NSEO dans cet article, donc regarde bien le premier exemple que je donne avec iporte, cela devrait te permettre de comprendre. Si je crée 200 liens vers UNE fiche d’annnuaire, en changeant uniquement la partie qui précède le s-ID.html, je vais créer 200 pages dupliquées sur le cite cible, puisque comme tu le soulignes, il n’y a pas de redirections => CQFD

  31. Merci pour la réponse renard !

  32. Le petit nouveau dit :

    Bonjour,
    je sais que ce post commence à dater, mais je commence juste avec un annuaire Freeglobes en cours de personnalisation, donc je cherche actuellement divers astuce en tous genre…
    Que me faut-il mettre exactement dans mon .htaccess pour qu’on ne puisse plus modifier les urls ?
    J’ai fait un test en désactivant l’url rewriting est là on ne plus le modifier l’url. Serai ce la solution ?
    Merci d’avance du coup main.

  33. RDD dit :

    Hello le petit nouveau.

    Donc en effet, pour éviter la duplication sur du Freeglobes, il existe 2 solutions :
    – Désactiver le rewriting.
    – Le laisser mais effectuer un contrôle supplémentaire sur les pages fiches et catégories afin de vérifier que la partie qui précède le « s-id » corresponde bien à l’entrée que tu as dans ta BDD.

    La solution 1 restant bien sur la plus simple et la plus rapide à mettre en place 🙂

  34. Je ne suis pas convaincu de l’intérêt de cette méthode, parce que tous les sites avec rewriting sont presque concernés.

Trackbacks/Pingbacks

  1. Donnez du poids à vos fiches d’annuaires chez Maxime DOKI-THONON - [...] Je viens de lire un super article de @Renardudezert qui pointe du doigt un problème présent sur un très…
  2. Veille Web semaine 24 | Didier Sampaolo - [...] du poids à vos fiches d’annuaires, chez @maximedt. A lire aussi, Freeglobes et NSEO par @Renarddudezert. Les deux posts…
  3. Ressources Negative SEO | Negative Seo - [...] Negative SEO à la portée de tous : http://www.renardudezert.com/2011/06/10/tirez-parti-des-fiches-freeglobes.html [...]

Laisser une réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Je suis un gros footer de merde !! - Powered by le Presse mot