Catégories
Referencement

Freinez les traceurs de backlinks

You want to view my backlink ?

Il y a surement plus d’une fois ou lorsque vous trouvez un plan d’enfer pour poser vos jolis backlinks (par milliers, n’oublie pas mon petit …), vous aimeriez bien que les traceurs – entendez par la vos concurrents, ou simplement cette bande de chacals puants (joke pour ceux qui ne comprennent pas l’humour) – n’aient pas accès à votre plan dans 3 jours. Et bien il existe une façon simple à mettre en place afin de leur compliquer sérieusement la tache.

La manière la plus simple d’obtenir vos backlinks

Pour les SEO, rien de nouveau, mais pour les autres, sachez qu’il existe des services en ligne, certains plus aboutis que d’autres, des gratuits et des payants, qui permettent d’obtenir les backlinks d’un site donné. Je ne vais pas vous fournir une liste complète puisque ce n’est pas l’objet de cet article, mais vous présenter les plus « aboutis » à mon sens. Je vous donne également les tarifs de ces outils (les versions gratuites de certains d’entre eux étant très obsolètes, je ne les mettrais pas dans la catégorie des gratuits)

  • L’astuce linkdomain par Seoblackout [gratuit]
  • Seomoz [99$/mois a 499$/mois]
  • Majestic SEO [29.99£/mois a 250£/mois]
  • Blekko, avec son slashtag /inbound ou /seo. Ne l’oubliez pas !! [gratuit, inscription préalable pour la fonction SEO]
  • Ahrefs [49$/mois a 499$/mois]

Comment cacher vos backlinks ?

Pour les lecteurs réguliers et assidus, vous savez qu’il est possible de cacher une partie de vos commentaires sur les blogs cibles grâce aux feuilles de styles (CSS) et à ghostlinker.
Mais cette méthode n’empêchera pas les services cités précédemment de récupérer vos backlinks.
Et bien sachez que ces services utilisent des crawlers pour parcourir le web, et que la plupart peuvent être bloqué par un fichier robots.txt. Vous savez aussi que je ne suis pas fan de cette méthode, et que je lui préfère un blocage via .htaccess.

Voici donc un fichier .htaccess type pour bloquer ces crawlers.

<IfModule mod_rewrite.c>
RewriteEngine On
 
# On block les backlinks crawlers
# Majestic SEO [http://www.majestic12.co.uk/projects/dsearch/mj12bot.php]
RewriteCond %{HTTP_USER_AGENT} MJ12bot				[NC,OR]
# Ahrefs [http://ahrefs.com/robot/]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot	 		[NC,OR]
# Seomoz [http://www.seomoz.org/dp/rogerbot]
RewriteCond %{HTTP_USER_AGENT} rogerbot		 		[NC,OR]
# SeoProfiler [http://www.seoprofiler.com/bot/]
RewriteCond %{HTTP_USER_AGENT} spbot				[NC,OR]
# Backlinktest [http://www.backlinktest.com/]
RewriteCond %{HTTP_USER_AGENT} BacklinkCrawler 		        [NC,OR]
 
# Sosospider [http://help.soso.com/webspider.htm]
RewriteCond %{HTTP_USER_AGENT} Sosospider			[NC,OR]
# Alexa [http://www.alexa.com/help/webmasters]
RewriteCond %{HTTP_USER_AGENT} ia_archiver			[NC,OR]
# Ezooms
RewriteCond %{HTTP_USER_AGENT} Ezooms				[NC,OR]
# Gigablast [http://www.gigablast.com/spider.html]
RewriteCond %{HTTP_USER_AGENT} Gigabot				[NC,OR]
# Findlinks [http://wortschatz.uni-leipzig.de/findlinks/]
RewriteCond %{HTTP_USER_AGENT} findlinks			[NC,OR]
# Sogou [http://www.sogou.com/docs/help/webmasters.htm#07]
RewriteCond %{HTTP_USER_AGENT} Sogou\ web\ spider	        [NC,OR]
 
# Blocage des whois source
RewriteCond %{HTTP_USER_AGENT} 	SurveyBot			[NC,OR]
# SeoEngine [http://www.seoengine.com/seoengbot.htm]
RewriteCond %{HTTP_USER_AGENT} 	SEOENGBot			[NC,OR]
 
# BrandProtect [http://www.brandprotect.com/]
RewriteCond %{HTTP_USER_AGENT} BPImageWalker		        [NC,OR]
RewriteCond %{HTTP_USER_AGENT} bdbrandprotect		        [NC,OR]
RewriteCond %{HTTP_USER_AGENT} LinkWalker			[NC,OR]
 
# Bots de merde
RewriteCond %{HTTP_USER_AGENT} Updownerbot 			[NC,OR]
 
# Les aspirateurs de site
RewriteCond %{HTTP_USER_AGENT} HTTrack 				[NC,OR]
RewriteCond %{HTTP_USER_AGENT} Net\ Vampire 		        [NC,OR]
 
# Notre ami appspot
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google 	        [NC]
 
RewriteRule ^(.*)$ - [F]
</IfModule>

Soyons clair, il ne suffit pas d’appliquer cette astuce pour ne pas se faire tracer, mais vous savez que moins vous donnez d’infos, plus il sera difficile de vous suivre.

Attention quand même

Bien évidemment, si vous utilisez ces services pour suivre vos backlinks, ne mettez pas cette astuce en place !!
Et avant de prendre cet article au pied de la lettre, lisez bien cette petite réflexion. Le crawler par définition inspecte VOTRE site lorsqu’il n’est pas bloqué par un robots.txt, un fichier .htaccess ou un cloaking américain. D’où mon interrogation : est-ce que le fait d’empêcher le crawl de mon site empêchera la prise en compte de ses backlinks ?
En effet, par définition, le backlink ne se trouve pas sur votre site. Donc pour moi, le fait de bloquer le crawl de votre site empêchera uniquement l’analyse et la récupération des backlinks émanants de celui-ci.
Vous devez alors vous dire : « Super, tout ce blabla pour un truc qui ne fonctionne pas !! ». Minute, passons maintenant à la suite.

Et si on cloakait tout ça ?

Allons un peu plus loin dans la filouterie. Vous aurez remarqué que dans mon exemple, le .htaccess bloque les crawlers (403 Forbidden) avec la ligne

RewriteRule ^(.*)$ - [F]

Et si on renvoyait tous ces fouineurs sur Google (ou autre) ? Ou alors encore mieux, pourquoi ne pas les renvoyer sur le site d’un concurrent !! Pas n’importe quel concurrent bien sur, prenez par exemple un site de 1999-2000 avec 3-4 backlinks 😉 Sinon vous risquez de donnez de fortes indications à vos concurrents assoiffés de sang.

RewriteRule ^(.*)$ http://www.google.com [R=301]

Ce qu’il faut retenir de cette méthode :

  1. Vous allez fausser en masse les données des sites du premier paragraphe.
  2. Les sites permettant d’analyser les backlinks doivent IMPERATIVEMENT vérifier le backlink et ne pas se contenter de répertorier les backlinks présents sur une page
  3. Les sites permettant d’analyser les backlinks doivent prendre en compte les redirections, sinon ça ne fonctionnera pas
  4. Si vous faites le coup à un concurrent, qui fait la même chose sur un autre concurrent, c’est balo 🙂

Il n’y a pas de miracle

Je vais surement me répéter, mais cette méthode utilisée seule ne vous rendra pas invisible. Il y a pleins d’autres paramètres qui permettent de remonter des plans : les spins trop basiques, les spins foirés (ceux ou il manque une accolade vous savez), l’absence de spins, poster avec le même « username », tout envoyer le même jour à la même heure …
Portez donc une attention particulière à tous ces facteurs avant de lancer vos blasts 😉
Pour ceux qui n’ont rien compris à cet article, sachez que vous pouvez vous procurer le baume référencement qui fonctionne de la même manière. Selon mes sources, cette fonctionnalité sera prochainement disponible pour la modique somme de 42$.

P.S. : Ce test est en cours sur un site déjà crawlé par ces sangsues. Le prochain test portera sur un site tout frais et cet article sera mis a jour suivant les résultats obtenus.

A lire également :
Duplicate Content Poison chez l’ami 512banque.
Comment cacher vos backlinks aux autres concurrents Pandaranol ? par Jojo.
Comment se protéger du duplicate content liés aux web proxy Appspot ? par Jojo again.

59 réponses sur « Freinez les traceurs de backlinks »

Attention, les expressions rationnelles sont coûteuses, et chaque ligne dans le .htaccess réduit les performances de l’ensemble du site, le .htaccess étant habituellement lu et interprété par le serveur web Apache à chaque requête au serveur et ceci multiplié par le nombre de sous-dossiers dans l’arborescence. Aussi, si l’on peut alléger le .htaccess, il faut privilégier cette possibilité.

Or, ici, le bot MJ12bot est respectueux de robots.txt. Aussi, nul besoin de le bloquer via .htaccess, ce qui est coûteux, alors que le blocage par robots.txt est plus performant, avec le même effet. Mêmes remarques pour ia_archiver, par exemple.

Conclusion: Quand on joue à cache-cache avec un renard rusé, on est sûr de perdre!
Merci pour cet article bien complet, qui au delà des différentes techniques suggérées peut donner bien d’autres idées… On peut vraiment s’amuser avec le mod_rewrite 😉

Pouet !

Juste pour répondre @MARTIN même si ce n’est pas le sujet de l’article, je cite:

[…] chaque ligne dans le .htaccess réduit les performances de l’ensemble du site, le .htaccess étant habituellement lu et interprété par le serveur web Apache à chaque requête au serveur […]

En effet ! Et bien pour palier a ce type de problèmes, je vous encourage a ajouter vos règles au niveau de la conf de votre vhost; lue une seule fois au démarrage ca améliorera les perfs au détriment de la flexibilité mais bon une fois en prod logiquement plus besoin de les modifier 15 fois par jour.

Bisous (:

Pas mal, effectivement à prendre dans certaines thématiques. Maintenant, ce qu’il y a de pratiques quand on suit tes liens, c’est que forcement, les concurrents ont un temps de retard sur toi. 😀

Bon suis pas codeur et donc voila ma question noobesque : Admettons que demain y’a une faucheuse qui code un chromebot pour voir les BL d’un site et que donc son bot a un nom bien a lui qui forcément n’est pas mentionné dans ton htaccess … il trouve tes BL non ?

Pour les backlinks, j’avoue que cacher son plan est souvent judicieux, surtout quand on passe du temps à le trouver. Mais ces services ne permettent ils pas aussi d’avoir nous même des indications sur notre propre site? les bloquer pourrait nous rendre aveugle non?

Pour cacher les backlinks sortant de ton site vers un autre je comprend, mais si tu poses tes backlinks sur un autre site qui n’a pas ce htaccess les bots les prendront en compte non ?

Enfin si ça se trouve j’ai rien compris ^^

Comme le dit très bien Keeg, le fait d’apparaitre dans ces systèmes montrent une longueur d’avance. Par contre si cela est trop visible, ne serait-ce pas là un signal fort donné à Google pour avouer que le site spam à tout va ?

@samuel
J’avais zappe d’inclure cette option dans mes tests. As-tu vérifier que les services cites dans le premier paragraphe ne récupèrent pas le backlink quand même ? Parce qu’il s’agit d’une 301 et que quelques uns arrivent a les suivre.

@martin
Oui, je le sais puisque c’est un peu (je peux dire beaucoup) mon domaine. Apres comme le dis dz, tu peux très bien stocker les règles dans la conf du vhost. Apres je suis complètement d’accord avec toi que le fait d’alléger (ou alourdir) le .htaccess influe directement sur les performances. Mais bon ce n’est pas avec ces pauvres lignes que je vais sentir une différence.

@aymeric
Comme le dis PercevalSEO : « C’est pas faux » 😉 C’est vrai que le mod_rewrite permet d’aller plus loin que ce simple article, mais il y a aussi d’autres modules apache qu’il ne faut pas négliger ^^
P.S. : Sympa ton dernier article sur la feinte du whois.Perso j’avais mis en place il y a 2 ans un test sur le TXT record, et toujours rien ^^

@Keeg
C’est un effet un bon indicateur de se faire tracer. Par contre voir un plan se faire pourrir en moins de 4H, ça fait toujours ch***.

@Emile
Ta question est très pertinente, puisque le mot « bot » est très employé et très vaste. C’est pour cette raison que je préfère appeler les bots des crawlers dans cet article. Pour répondre à ta question, le chromebot ne sera pas un crawler, ça sera effectivement un bot qui se servira des services d’analyse de backlinks (ou autre service existant déjà) afin de te sortir une liste. Puisque je bloque certains de ces services, le chromebot interrogeant ces derniers n’y aura pas accès. Je doute que le chromebot soit un crawler autonome qui parcours le web sans s’arrêter à la recherche de backlinks et autres infos utiles => il faut pour cela une capacité de stockage monstrueuse et un code exemplaire pour traiter et analyser tout ce beau monde 😉

@Panneaux solaires
C’est en effet une remarque que j’évoque dans le 3eme paragraphe. Si tu utilises des softs pour ton référencement, ou si tu le fais a la main, à toi d’effectuer ton propre suivi. Et contrairement aux services cités, tu sauras exactement à l’instant T combien tu auras de backlinks.

@cdillat
Non, non, tu as tout compris. C’est pour cela que j’ai lancé ce test afin de voir quels services respectent les 4 points du paragraphe « Et si on cloakait tout ça ? ».
Il y aura forcement dans le lot des crawlers qui se contenteront de lister les liens sortants d’un site, et d’autres qui feront l’effort de les suivre. Ce sont ces derniers qui m’intéressent 😛

@jambonbuzz
Si je suis seul, ou alors si nous sommes un petit nombre a savoir que l’on a une longueur d’avance, ça me suffit, pas la peine que ces services me le rappellent 😉
En ce qui concerne le signal envoyé à Google, disons que je si j’étais perdu au milieu de l’océan et que je voyais un bateau Google approcher, je réfléchirai à deux fois avant de tirer ma fusée de détresse ^^ Il y a tellement de « signaux » visibles – autres que celui la – qu’il ne voit pas (ou refuse de voir plutôt) !!
Je pense que tu vois ce que je veux dire 🙂

Merci pour la liste.
Il m’en manquait quelques uns et pas des moindres.
Concernant le chois robots.txt ou htaccess, je pense que les deux sont complémentaires.
Par exemple, Ezooms se confiche du robots.txt et l’htaccess est le seul moyen de le bloquer.

Par principe j’aurais un peu peur de cloaker AppEngine-Google, on sait jamais des fois que l’algo prenne ça mal.

ah!! hier je traçais un site américain bien positionné sur une requête pour vendre du .edu.
Je me suis dit, si il est bien positionné, c’est qu’il utilisé une partie des plans qui vends, du coup: on trace ses BL.
Et bien pas de bol il en avait qu’un seul de bl :).
Je comprend mieux comment il à fait cet enf****.
Bref, RDD merci pour cet article!

Personnellement, je redirige les bots sur http://www.robotstxt.org/ quand j’utilise ce mode d’écriture
RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot
RewriteRule ^(.*)$ http://www.robotstxt.org/

Il existe également un autre moyen pour interdire l’accès en utilisant des variables d’environnement dans votre htacces :

# les bad bot que l’on vire
SetEnvIfNoCase User-Agent « ^AhrefsBot » bad_bot
SetEnvIfNoCase User-Agent « ^BacklinkCrawler » bad_bot
SetEnvIfNoCase User-Agent « ^Bandit » bad_bot
SetEnvIfNoCase User-Agent « ^Baiduspider » bad_bot
SetEnvIfNoCase User-Agent « ^HTTrack » bad_bot

# black list
Order Allow,Deny
Allow from All
Deny from env=bad_bot

Très malin !
Parmi les crawlers, tu peux ajouter SEO Spyglass que j’utilise personnellement.
C’est clair que je privilégie le .htacess à la place du robots.txt qui n’est pas respecté par la plupart des bots.
Ensuite, ne pas oublier non plus de sécuriser son .htaccess !

Magnifique !
je vais checker ça de plus près !
par contre il faudrait que j’étudie un peu mieux la solution htacess, car le mien est surchargé, va falloir faire du tri.

Il est en effet intéressant de ne pas dévoiler sa stratégie de netliking à tout le monde.
Cependant je ne pense pas que ces méthodes plaisent (ou plairont) à google.

Petite question au sujet des backlinks: Si on poste, disons, 1000 backlinks en même temps, google ne va t’il pas voir cela comme du spam ou une technique de black hat SEO? En conséquence le résultat sera nul voir négatif sur le référencement?

Bonjour,

Personnellement, dès qu’il est question de toucher au .htaccess, j’ai les genoux qui tremble de peur de faire une bétise,..
Mais bon je vais quand même essayer
Merci

Ben, c’est toujours bien de vouloir se cacher. Mais moi personnellement je pense qu’il faut aider les tous nouveaux à se faire une petite place (rire) . Dans tous les cas merci pour le tuyau.

RDD, quel est l’intérêt de cacher ses backlink ? question d’un débutant lol

J’arrive un peu tard mais je te remercie pour ces astuces.
Si on utilise ces services pour suivre ses backlinks, il est toujours possible de continuer à analyser avec GWT (enfin si le site est assez propre pour une ouverture de compte 🙂

Exactement ce que je recherchais !

Penses-tu mettre à jour l’exemple au fur et à mesure, notamment avec tout ce qui a été spécifié dans les commentaires, ainsi que les nouveaux outils qui sortent ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *