C’est un sujet de rigueur en ce moment, notamment avec la venue de GooglePreview (vous savez l’aperçu de votre site web dans les SERP). Pour les gentils White Hat, cela n’a aucune incidence, par contre pour ceux qui s’adonnent au cloacking, certains ont une preview normal et d’autres une preview qui ne prend pas en compte le cloacking (donc plus embêtant).
Mon avis sur la question est que Google a surement du mettre au point un bête système de screenshot greffé sur chrome (bha ouai, c’est google quand même) qui crawl les pages de son index et qui fait de jolies photos.
Pourquoi ? Disons qu’un simple parser serait incapable de rendre parfaitement une page web (prise en compte de la feuille de style, affichage des images, …). Bref, ne nous étendons pas sur ce sujet puisque cet article a juste la prétention d’extraire les adresses IP de GoogleBot à partir de votre fichier de log d’apache.
Voici donc la super ligne de commande :
(comme je suis sympa je vous colle l’output de la commande)
more access.log | grep "Googlebot" | awk -F "-" '{print $1}' | sort | uniq 66.249.65.188 66.249.65.212 66.249.65.22 66.249.65.34 66.249.65.44 66.249.66.166 66.249.67.6 66.249.71.104 66.249.71.168 66.249.71.175 66.249.71.238 66.249.71.26 66.249.71.91
On peut donc voir qu’il s’agit bien du bot puisque les adresses se situent dans les plages d’adresses de GoogleBot.
Voila, c’était vraiment pas trop dur. Mais si nous décidions de ne pas nous arrêter à Googlebot, comment faire pour récupérer les IPs des autres crawler ?
Pour aller un peu plus loin
Allons un peu plus loin dans le raisonnement, et comme ça a été demandé dans les commentaires de l’article « Robots.txt, ce qu’il faut eviter » essayons d’extraire des informations concernant les « autres » bots.
Pour cela, je ne vais pas me baser sur les User-Agent mais sur les reverse DNS des IP que je vais collecter dans mes logs. Et donc au lieu d’effectuer un check sur les bots, je vais plutot checker dans les reverse ceux qui possède des mots qui sonnent bien robots, du style : « crawl, bot, spider ».
Et comme je suis dans un bon jour, je vous paste un petit résultat de l’output de ce script.
Pour l’exemple en question, mon script se trouve dans un fichier « get_spider.sh ».
Voici le script en question :
#!/bin/sh # On va recuperer toutes les IPs UNIQUES dans notre fichier de log # Verifiez bien le path du fichier de log for i in `more /var/log/apache2/access.log | awk -F "-" '{print $1}' | sort | uniq` do # On va effectuer un nslookup pour chaque IP et on va effectuer un check sur des keyword de bot # Cela devrait limiter la sortie du script aux bots botlookup=`nslookup $i | grep -E '(crawl|spider|bot)' | head -n 5 | tail -1`; if [ -n "$botlookup" ] then echo "Resultat pour l'adresse IP $i" echo $botlookup fi done |
Et voici ce qu’il donne en action :
./get_spider.sh Resultat pour l'adresse IP 119.235.237.12 12.237.235.119.in-addr.arpa name = crawl-119-235-237-12.naver.jp. Resultat pour l'adresse IP 119.235.237.19 19.237.235.119.in-addr.arpa name = crawl-119-235-237-19.naver.jp. Resultat pour l'adresse IP 119.63.198.75 75.198.63.119.in-addr.arpa name = baiduspider-119-63-198-75.crawl.baidu.jp. Resultat pour l'adresse IP 123.125.66.101 66.125.123.in-addr.arpa nameserver = ns2.crawl.baidu.com. Resultat pour l'adresse IP 123.125.66.125 66.125.123.in-addr.arpa nameserver = ns1.crawl.baidu.com. Resultat pour l'adresse IP 123.125.66.126 66.125.123.in-addr.arpa nameserver = ns4.crawl.baidu.com. Resultat pour l'adresse IP 123.125.66.132 66.125.123.in-addr.arpa nameserver = ns3.crawl.baidu.com. Resultat pour l'adresse IP 123.125.66.37 66.125.123.in-addr.arpa nameserver = ns2.crawl.baidu.com. Resultat pour l'adresse IP 123.125.66.52 66.125.123.in-addr.arpa nameserver = ns1.crawl.baidu.com. Resultat pour l'adresse IP 123.125.66.64 66.125.123.in-addr.arpa nameserver = ns4.crawl.baidu.com. Resultat pour l'adresse IP 123.125.66.75 66.125.123.in-addr.arpa nameserver = ns3.crawl.baidu.com. Resultat pour l'adresse IP 123.125.66.79 66.125.123.in-addr.arpa nameserver = ns2.crawl.baidu.com. Resultat pour l'adresse IP 123.125.66.80 66.125.123.in-addr.arpa nameserver = ns1.crawl.baidu.com. Resultat pour l'adresse IP 193.252.118.173 173.118.252.193.in-addr.arpa name = natcrawlbloc02-173.net.b1.fti.net. Resultat pour l'adresse IP 193.252.118.174 174.118.252.193.in-addr.arpa name = natcrawlbloc02-174.net.b1.fti.net. Resultat pour l'adresse IP 193.252.118.175 175.118.252.193.in-addr.arpa name = natcrawlbloc02-175.net.b1.fti.net. Resultat pour l'adresse IP 193.252.118.176 176.118.252.193.in-addr.arpa name = natcrawlbloc02-176.net.b1.fti.net. Resultat pour l'adresse IP 193.252.149.13 13.149.252.193.in-addr.arpa name = natcrawlbloc04-13.net.s1.fti.net. Resultat pour l'adresse IP 193.252.149.14 14.149.252.193.in-addr.arpa name = natcrawlbloc04-14.net.s1.fti.net. Resultat pour l'adresse IP 193.252.149.15 15.149.252.193.in-addr.arpa name = natcrawlbloc04-15.net.s1.fti.net. Resultat pour l'adresse IP 193.252.149.16 16.149.252.193.in-addr.arpa name = natcrawlbloc04-16.net.s1.fti.net. Resultat pour l'adresse IP 193.47.80.51 51.80.47.193.in-addr.arpa name = crawl15.exabot.com. Resultat pour l'adresse IP 193.47.80.82 82.80.47.193.in-addr.arpa name = tc-gw.exabot.com. Resultat pour l'adresse IP 207.46.12.163 163.12.46.207.in-addr.arpa name = msnbot-207-46-12-163.search.msn.com. Resultat pour l'adresse IP 207.46.12.201 201.12.46.207.in-addr.arpa name = msnbot-207-46-12-201.search.msn.com. Resultat pour l'adresse IP 207.46.12.217 217.12.46.207.in-addr.arpa name = msnbot-207-46-12-217.search.msn.com. Resultat pour l'adresse IP 207.46.12.236 236.12.46.207.in-addr.arpa name = msnbot-207-46-12-236.search.msn.com. Resultat pour l'adresse IP 207.46.12.29 29.12.46.207.in-addr.arpa name = msnbot-207-46-12-29.search.msn.com. Resultat pour l'adresse IP 207.46.12.61 61.12.46.207.in-addr.arpa name = msnbot-207-46-12-61.search.msn.com. Resultat pour l'adresse IP 207.46.12.65 65.12.46.207.in-addr.arpa name = msnbot-207-46-12-65.search.msn.com. Resultat pour l'adresse IP 207.46.13.101 101.13.46.207.in-addr.arpa name = msnbot-207-46-13-101.search.msn.com. Resultat pour l'adresse IP 207.46.13.131 131.13.46.207.in-addr.arpa name = msnbot-207-46-13-131.search.msn.com. Resultat pour l'adresse IP 207.46.13.132 132.13.46.207.in-addr.arpa name = msnbot-207-46-13-132.search.msn.com. Resultat pour l'adresse IP 207.46.13.133 133.13.46.207.in-addr.arpa name = msnbot-207-46-13-133.search.msn.com. Resultat pour l'adresse IP 207.46.13.134 134.13.46.207.in-addr.arpa name = msnbot-207-46-13-134.search.msn.com. Resultat pour l'adresse IP 207.46.13.142 142.13.46.207.in-addr.arpa name = msnbot-207-46-13-142.search.msn.com. Resultat pour l'adresse IP 207.46.13.143 143.13.46.207.in-addr.arpa name = msnbot-207-46-13-143.search.msn.com. Resultat pour l'adresse IP 207.46.13.43 43.13.46.207.in-addr.arpa name = msnbot-207-46-13-43.search.msn.com. Resultat pour l'adresse IP 207.46.13.46 46.13.46.207.in-addr.arpa name = msnbot-207-46-13-46.search.msn.com. Resultat pour l'adresse IP 207.46.13.47 47.13.46.207.in-addr.arpa name = msnbot-207-46-13-47.search.msn.com. Resultat pour l'adresse IP 207.46.13.48 48.13.46.207.in-addr.arpa name = msnbot-207-46-13-48.search.msn.com. Resultat pour l'adresse IP 207.46.13.84 84.13.46.207.in-addr.arpa name = msnbot-207-46-13-84.search.msn.com. Resultat pour l'adresse IP 207.46.13.86 86.13.46.207.in-addr.arpa name = msnbot-207-46-13-86.search.msn.com. Resultat pour l'adresse IP 207.46.13.87 87.13.46.207.in-addr.arpa name = msnbot-207-46-13-87.search.msn.com. Resultat pour l'adresse IP 207.46.13.91 91.13.46.207.in-addr.arpa name = msnbot-207-46-13-91.search.msn.com. Resultat pour l'adresse IP 207.46.13.92 92.13.46.207.in-addr.arpa name = msnbot-207-46-13-92.search.msn.com. Resultat pour l'adresse IP 207.46.13.94 94.13.46.207.in-addr.arpa name = msnbot-207-46-13-94.search.msn.com. Resultat pour l'adresse IP 207.46.194.87 87.194.46.207.in-addr.arpa name = msnbot-207-46-194-87.search.msn.com. Resultat pour l'adresse IP 207.46.195.105 105.195.46.207.in-addr.arpa name = msnbot-207-46-195-105.search.msn.com. Resultat pour l'adresse IP 207.46.195.106 106.195.46.207.in-addr.arpa name = msnbot-207-46-195-106.search.msn.com. Resultat pour l'adresse IP 207.46.195.223 223.195.46.207.in-addr.arpa name = msnbot-207-46-195-223.search.msn.com. Resultat pour l'adresse IP 207.46.195.225 225.195.46.207.in-addr.arpa name = msnbot-207-46-195-225.search.msn.com. Resultat pour l'adresse IP 207.46.195.226 226.195.46.207.in-addr.arpa name = msnbot-207-46-195-226.search.msn.com. Resultat pour l'adresse IP 207.46.195.227 227.195.46.207.in-addr.arpa name = msnbot-207-46-195-227.search.msn.com. Resultat pour l'adresse IP 207.46.195.228 228.195.46.207.in-addr.arpa name = msnbot-207-46-195-228.search.msn.com. Resultat pour l'adresse IP 207.46.195.232 232.195.46.207.in-addr.arpa name = msnbot-207-46-195-232.search.msn.com. Resultat pour l'adresse IP 207.46.195.234 234.195.46.207.in-addr.arpa name = msnbot-207-46-195-234.search.msn.com. Resultat pour l'adresse IP 207.46.195.235 235.195.46.207.in-addr.arpa name = msnbot-207-46-195-235.search.msn.com. Resultat pour l'adresse IP 207.46.195.237 237.195.46.207.in-addr.arpa name = msnbot-207-46-195-237.search.msn.com. Resultat pour l'adresse IP 207.46.195.239 239.195.46.207.in-addr.arpa name = msnbot-207-46-195-239.search.msn.com. Resultat pour l'adresse IP 207.46.195.241 241.195.46.207.in-addr.arpa name = msnbot-207-46-195-241.search.msn.com. Resultat pour l'adresse IP 207.46.199.178 178.199.46.207.in-addr.arpa name = msnbot-207-46-199-178.search.msn.com. Resultat pour l'adresse IP 207.46.199.179 179.199.46.207.in-addr.arpa name = msnbot-207-46-199-179.search.msn.com. Resultat pour l'adresse IP 207.46.199.180 180.199.46.207.in-addr.arpa name = msnbot-207-46-199-180.search.msn.com. Resultat pour l'adresse IP 207.46.199.184 184.199.46.207.in-addr.arpa name = msnbot-207-46-199-184.search.msn.com. Resultat pour l'adresse IP 207.46.199.185 185.199.46.207.in-addr.arpa name = msnbot-207-46-199-185.search.msn.com. Resultat pour l'adresse IP 207.46.199.191 191.199.46.207.in-addr.arpa name = msnbot-207-46-199-191.search.msn.com. Resultat pour l'adresse IP 207.46.199.193 193.199.46.207.in-addr.arpa name = msnbot-207-46-199-193.search.msn.com. Resultat pour l'adresse IP 207.46.199.198 198.199.46.207.in-addr.arpa name = msnbot-207-46-199-198.search.msn.com. Resultat pour l'adresse IP 207.46.199.199 199.199.46.207.in-addr.arpa name = msnbot-207-46-199-199.search.msn.com. Resultat pour l'adresse IP 207.46.199.201 201.199.46.207.in-addr.arpa name = msnbot-207-46-199-201.search.msn.com. Resultat pour l'adresse IP 207.46.199.37 37.199.46.207.in-addr.arpa name = msnbot-207-46-199-37.search.msn.com. Resultat pour l'adresse IP 207.46.199.38 38.199.46.207.in-addr.arpa name = msnbot-207-46-199-38.search.msn.com. Resultat pour l'adresse IP 207.46.199.39 39.199.46.207.in-addr.arpa name = msnbot-207-46-199-39.search.msn.com. Resultat pour l'adresse IP 207.46.199.42 42.199.46.207.in-addr.arpa name = msnbot-207-46-199-42.search.msn.com. Resultat pour l'adresse IP 207.46.199.47 47.199.46.207.in-addr.arpa name = msnbot-207-46-199-47.search.msn.com. Resultat pour l'adresse IP 207.46.199.48 48.199.46.207.in-addr.arpa name = msnbot-207-46-199-48.search.msn.com. Resultat pour l'adresse IP 207.46.199.50 50.199.46.207.in-addr.arpa name = msnbot-207-46-199-50.search.msn.com. Resultat pour l'adresse IP 207.46.199.51 51.199.46.207.in-addr.arpa name = msnbot-207-46-199-51.search.msn.com. Resultat pour l'adresse IP 207.46.199.52 52.199.46.207.in-addr.arpa name = msnbot-207-46-199-52.search.msn.com. Resultat pour l'adresse IP 207.46.199.53 53.199.46.207.in-addr.arpa name = msnbot-207-46-199-53.search.msn.com. Resultat pour l'adresse IP 207.46.199.54 54.199.46.207.in-addr.arpa name = msnbot-207-46-199-54.search.msn.com. Resultat pour l'adresse IP 207.46.199.55 55.199.46.207.in-addr.arpa name = msnbot-207-46-199-55.search.msn.com. Resultat pour l'adresse IP 207.46.204.177 177.204.46.207.in-addr.arpa name = msnbot-207-46-204-177.search.msn.com. Resultat pour l'adresse IP 207.46.204.178 178.204.46.207.in-addr.arpa name = msnbot-207-46-204-178.search.msn.com. Resultat pour l'adresse IP 207.46.204.182 182.204.46.207.in-addr.arpa name = msnbot-207-46-204-182.search.msn.com. Resultat pour l'adresse IP 207.46.204.188 188.204.46.207.in-addr.arpa name = msnbot-207-46-204-188.search.msn.com. Resultat pour l'adresse IP 207.46.204.194 194.204.46.207.in-addr.arpa name = msnbot-207-46-204-194.search.msn.com. Resultat pour l'adresse IP 207.46.204.209 209.204.46.207.in-addr.arpa name = msnbot-207-46-204-209.search.msn.com. Resultat pour l'adresse IP 207.46.204.227 227.204.46.207.in-addr.arpa name = msnbot-207-46-204-227.search.msn.com. Resultat pour l'adresse IP 207.46.204.232 232.204.46.207.in-addr.arpa name = msnbot-207-46-204-232.search.msn.com. Resultat pour l'adresse IP 207.46.204.238 238.204.46.207.in-addr.arpa name = msnbot-207-46-204-238.search.msn.com. Resultat pour l'adresse IP 207.46.204.241 241.204.46.207.in-addr.arpa name = msnbot-207-46-204-241.search.msn.com. Resultat pour l'adresse IP 208.115.111.245 245.111.115.208.in-addr.arpa name = crawl4.dotnetdotcom.org. Resultat pour l'adresse IP 220.181.7.126 126.7.181.220.in-addr.arpa name = baiduspider-220-181-7-126.crawl.baidu.com. Resultat pour l'adresse IP 220.181.7.55 55.7.181.220.in-addr.arpa name = baiduspider-220-181-7-55.crawl.baidu.com. Resultat pour l'adresse IP 220.181.7.65 65.7.181.220.in-addr.arpa name = baiduspider-220-181-7-65.crawl.baidu.com. Resultat pour l'adresse IP 220.181.7.81 81.7.181.220.in-addr.arpa name = baiduspider-220-181-7-81.crawl.baidu.com. Resultat pour l'adresse IP 220.181.7.88 88.7.181.220.in-addr.arpa name = baiduspider-220-181-7-88.crawl.baidu.com. Resultat pour l'adresse IP 220.181.7.90 90.7.181.220.in-addr.arpa name = baiduspider-220-181-7-90.crawl.baidu.com. Resultat pour l'adresse IP 220.181.7.95 95.7.181.220.in-addr.arpa name = baiduspider-220-181-7-95.crawl.baidu.com. Resultat pour l'adresse IP 61.135.186.23 23.186.135.61.in-addr.arpa name = baiduspider-ad-61-135-186-23.crawl.baidu.com. Resultat pour l'adresse IP 65.52.108.58 58.108.52.65.in-addr.arpa name = msnbot-65-52-108-58.search.msn.com. Resultat pour l'adresse IP 66.235.124.54 54.124.235.66.in-addr.arpa name = crawler5103.ask.com. Resultat pour l'adresse IP 66.235.124.55 55.124.235.66.in-addr.arpa name = crawler5104.ask.com. Resultat pour l'adresse IP 66.235.124.56 56.124.235.66.in-addr.arpa name = crawler5105.ask.com. Resultat pour l'adresse IP 66.235.124.57 57.124.235.66.in-addr.arpa name = crawler5106.ask.com. Resultat pour l'adresse IP 66.235.124.58 58.124.235.66.in-addr.arpa name = crawler5107.ask.com. Resultat pour l'adresse IP 66.235.124.59 59.124.235.66.in-addr.arpa name = crawler5108.ask.com. Resultat pour l'adresse IP 66.249.65.188 188.65.249.66.in-addr.arpa name = crawl-66-249-65-188.googlebot.com. Resultat pour l'adresse IP 66.249.65.212 212.65.249.66.in-addr.arpa name = crawl-66-249-65-212.googlebot.com. Resultat pour l'adresse IP 66.249.65.22 22.65.249.66.in-addr.arpa name = crawl-66-249-65-22.googlebot.com. Resultat pour l'adresse IP 66.249.65.34 34.65.249.66.in-addr.arpa name = crawl-66-249-65-34.googlebot.com. Resultat pour l'adresse IP 66.249.65.44 44.65.249.66.in-addr.arpa name = crawl-66-249-65-44.googlebot.com. Resultat pour l'adresse IP 66.249.66.166 166.66.249.66.in-addr.arpa name = crawl-66-249-66-166.googlebot.com. Resultat pour l'adresse IP 66.249.67.6 6.67.249.66.in-addr.arpa name = crawl-66-249-67-6.googlebot.com. Resultat pour l'adresse IP 66.249.71.104 104.71.249.66.in-addr.arpa name = crawl-66-249-71-104.googlebot.com. Resultat pour l'adresse IP 66.249.71.168 168.71.249.66.in-addr.arpa name = crawl-66-249-71-168.googlebot.com. Resultat pour l'adresse IP 66.249.71.175 175.71.249.66.in-addr.arpa name = crawl-66-249-71-175.googlebot.com. Resultat pour l'adresse IP 66.249.71.238 238.71.249.66.in-addr.arpa name = crawl-66-249-71-238.googlebot.com. Resultat pour l'adresse IP 66.249.71.26 26.71.249.66.in-addr.arpa name = crawl-66-249-71-26.googlebot.com. Resultat pour l'adresse IP 66.249.71.91 91.71.249.66.in-addr.arpa name = crawl-66-249-71-91.googlebot.com. Resultat pour l'adresse IP 67.195.111.41 41.111.195.67.in-addr.arpa name = b3091219.crawl.yahoo.net. Resultat pour l'adresse IP 81.52.143.15 15.143.52.81.in-addr.arpa name = natcrawlbloc01.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.16 16.143.52.81.in-addr.arpa name = natcrawlbloc03.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.18 18.143.52.81.in-addr.arpa name = natcrawlpreprod.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.25 25.143.52.81.in-addr.arpa name = natcrawlmsbm.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.26 26.143.52.81.in-addr.arpa name = natcrawlbloc05.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.29 29.143.52.81.in-addr.arpa name = natcrawlbloc01-29.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.30 30.143.52.81.in-addr.arpa name = natcrawlbloc01-30.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.31 31.143.52.81.in-addr.arpa name = natcrawlbloc01-31.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.32 32.143.52.81.in-addr.arpa name = natcrawlbloc03-32.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.33 33.143.52.81.in-addr.arpa name = natcrawlbloc03-33.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.34 34.143.52.81.in-addr.arpa name = natcrawlbloc03-34.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.35 35.143.52.81.in-addr.arpa name = natcrawlbloc05-35.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.36 36.143.52.81.in-addr.arpa name = natcrawlbloc05-36.net.m1.fti.net. Resultat pour l'adresse IP 81.52.143.37 37.143.52.81.in-addr.arpa name = natcrawlbloc05-37.net.m1.fti.net. Resultat pour l'adresse IP 93.158.149.31 31.149.158.93.in-addr.arpa name = spider12.yandex.ru.
Comme vous pouvez le constater, MSN a mis le paquet niveau allocation d’adresses pour son bot.
Et Google Page Preview la dedans ?
Je ne voulais finalement pas m’étendre sur la nouvelle fonctionnalité de Google avec ses magnifiques Previews, mais je vais quand même le faire.
En effet, si il s’avère que récupérer l’IP et le UA de ce fameux bot qui prend les screenshot est possible, la négative SEO sur les marques des concurrents va pouvoir prendre de l’ampleur. Imaginez une seconde que vous arriviez à dépasser un concurrent sur son nom, et que vous arriviez à cloaker SON screenshot dans les previews de Google ? Ça serait vraiment méchant et pas bien hein 😉
Pour ceux qui veulent en savoir plus sur la fonction Preview de Google :
– Discret comme la violette avec les snapshots Google (et ça c’est du titre qui claque)
Credit image : evisibility.com
5 réponses sur « Extraire IP de Googlebot et autres bots »
« Pourquoi ? Disons qu’un simple parser serait incapable de rendre parfaitement une page web (prise en compte de la feuille de style, affichage des images, …). »
Je ne suis pas de ton avis.
Je pense que Google dispose d’une techno qui donne le rendu de la page comme un navigateur et non pas comme un parser. C’est ce qui lui permettrait de définir les zones telles que les éléments de navigation, header, footer, zone de contenu,…et ceux quelque soit la façon d’avoir coder la chose.
Salut Olivier,
Désolé de te décevoir, mais si, tu es de mon avis, puisque tu dis exactement ce que j’ai écris dans l’article !!!
Un parser ne permet pas de réaliser un screenshot, si quelqu’un m’affirme le contraire qu’il m’envoie le code source !!
Ce que je dis dans l’article, c’est qu’ils (Google) doivent disposer d’un browser muni d’un plugin de screenshots afin de réaliser les previews. Apres en ce qui concerne les zones, un parser très évolué suffit (Googlebot en l’occurence).
N’oublions pas que HTML est un langage de balisage, donc les imbrications et dépendances sont relativement simples à mettre en évidence (la feuille de style n’étant la que pour « habiller » la page).
Salut,
trés bon article, mais il souleve une question dans ma tête.
tu met : »Comme vous pouvez le constater, MSN a mis le paquet niveau allocation d’adresses pour son bot. »
Ok. mais celà veut il donc dire que le cloacking avec msn est « presque » impossible ( car nous n’avons surement pas une liste complete) et donc le cloaking démascable par msn (pour un petit moment) ?
Ou es ce que bientôt on pourra de nouveau se procurer facilement une belle liste d’ip avec tous les crawl d’msn ?
(ok c’est qu’une question de temps , mais savoir si ils vont continuer a faire tourner les ips , ou pas …. )
@Blackat
En fait il y a 2 options pour remédier a cela.
La première, la plus simple, est de faire le cloacking non pas sur une IP en particulier mais en utilisant une regexp (en l’occurence ici 207.46.* pour msn). Le souci avec cette méthode c’est que tu risques de cloacker sur des non-bots. Le mieux reste de checker sur le lien que j’ai fourni dans l’article (celui sur les plages d’adresses).
Et la deuxième, obtenir une liste complète des IPs de msnbot (mais ça risque d’être long et tu peux passer au travers de quelques unes si tu n’utilises pas la methode No1).
Comme tu l’auras compris, je suis plutôt pour l’utilisation des regexp.
Oui.
enfin , c’est surtout que j’avais vue une façon simple de pouvoir détecter le cloacking chez les concurrents 😉
si on fait du cloacking « propre » on a rien a craindre … ^^