Catégories
BASH

Extraire IP de Googlebot et autres bots

C’est un sujet de rigueur en ce moment, notamment avec la venue de GooglePreview (vous savez l’aperçu de votre site web dans les SERP). Pour les gentils White Hat, cela n’a aucune incidence, par contre pour ceux qui s’adonnent au cloacking, certains ont une preview normal et d’autres une preview qui ne prend pas en compte le cloacking (donc plus embêtant).
Mon avis sur la question est que Google a surement du mettre au point un bête système de screenshot greffé sur chrome (bha ouai, c’est google quand même) qui crawl les pages de son index et qui fait de jolies photos.

Pourquoi ? Disons qu’un simple parser serait incapable de rendre parfaitement une page web (prise en compte de la feuille de style, affichage des images, …). Bref, ne nous étendons pas sur ce sujet puisque cet article a juste la prétention d’extraire les adresses IP de GoogleBot à partir de votre fichier de log d’apache.
Voici donc la super ligne de commande :

(comme je suis sympa je vous colle l’output de la commande)

more access.log | grep "Googlebot" | awk -F "-" '{print $1}' | sort | uniq 

66.249.65.188 
66.249.65.212 
66.249.65.22 
66.249.65.34 
66.249.65.44 
66.249.66.166 
66.249.67.6 
66.249.71.104 
66.249.71.168 
66.249.71.175 
66.249.71.238 
66.249.71.26 
66.249.71.91

On peut donc voir qu’il s’agit bien du bot puisque les adresses se situent dans les plages d’adresses de GoogleBot.

Voila, c’était vraiment pas trop dur. Mais si nous décidions de ne pas nous arrêter à Googlebot, comment faire pour récupérer les IPs des autres crawler ?

Pour aller un peu plus loin

Allons un peu plus loin dans le raisonnement, et comme ça a été demandé dans les commentaires de l’article « Robots.txt, ce qu’il faut eviter » essayons d’extraire des informations concernant les « autres » bots.

Pour cela, je ne vais pas me baser sur les User-Agent mais sur les reverse DNS des IP que je vais collecter dans mes logs. Et donc au lieu d’effectuer un check sur les bots, je vais plutot checker dans les reverse ceux qui possède des mots qui sonnent bien robots, du style : « crawl, bot, spider ».
Et comme je suis dans un bon jour, je vous paste un petit résultat de l’output de ce script.
Pour l’exemple en question, mon script se trouve dans un fichier « get_spider.sh ».
Voici le script en question :

#!/bin/sh
 
# On va recuperer toutes les IPs UNIQUES dans notre fichier de log
# Verifiez bien le path du fichier de log
for i in `more /var/log/apache2/access.log | awk -F "-" '{print $1}' | sort | uniq`
do
  # On va effectuer un nslookup pour chaque IP et on va	effectuer un check sur	des keyword de bot
  # Cela devrait limiter la sortie du script aux bots
  botlookup=`nslookup $i | grep -E '(crawl|spider|bot)' | head -n 5 | tail -1`;
  if [ -n "$botlookup" ]
      then
      echo "Resultat pour l'adresse IP $i"
  echo $botlookup
  fi
done

Et voici ce qu’il donne en action :

./get_spider.sh
Resultat pour l'adresse IP 119.235.237.12
12.237.235.119.in-addr.arpa name = crawl-119-235-237-12.naver.jp.
Resultat pour l'adresse IP 119.235.237.19
19.237.235.119.in-addr.arpa name = crawl-119-235-237-19.naver.jp.
Resultat pour l'adresse IP 119.63.198.75
75.198.63.119.in-addr.arpa name = baiduspider-119-63-198-75.crawl.baidu.jp.
Resultat pour l'adresse IP 123.125.66.101
66.125.123.in-addr.arpa nameserver = ns2.crawl.baidu.com.
Resultat pour l'adresse IP 123.125.66.125
66.125.123.in-addr.arpa nameserver = ns1.crawl.baidu.com.
Resultat pour l'adresse IP 123.125.66.126
66.125.123.in-addr.arpa nameserver = ns4.crawl.baidu.com.
Resultat pour l'adresse IP 123.125.66.132
66.125.123.in-addr.arpa nameserver = ns3.crawl.baidu.com.
Resultat pour l'adresse IP 123.125.66.37
66.125.123.in-addr.arpa nameserver = ns2.crawl.baidu.com.
Resultat pour l'adresse IP 123.125.66.52
66.125.123.in-addr.arpa nameserver = ns1.crawl.baidu.com.
Resultat pour l'adresse IP 123.125.66.64
66.125.123.in-addr.arpa nameserver = ns4.crawl.baidu.com.
Resultat pour l'adresse IP 123.125.66.75
66.125.123.in-addr.arpa nameserver = ns3.crawl.baidu.com.
Resultat pour l'adresse IP 123.125.66.79
66.125.123.in-addr.arpa nameserver = ns2.crawl.baidu.com.
Resultat pour l'adresse IP 123.125.66.80
66.125.123.in-addr.arpa nameserver = ns1.crawl.baidu.com.
Resultat pour l'adresse IP 193.252.118.173
173.118.252.193.in-addr.arpa name = natcrawlbloc02-173.net.b1.fti.net.
Resultat pour l'adresse IP 193.252.118.174
174.118.252.193.in-addr.arpa name = natcrawlbloc02-174.net.b1.fti.net.
Resultat pour l'adresse IP 193.252.118.175
175.118.252.193.in-addr.arpa name = natcrawlbloc02-175.net.b1.fti.net.
Resultat pour l'adresse IP 193.252.118.176
176.118.252.193.in-addr.arpa name = natcrawlbloc02-176.net.b1.fti.net.
Resultat pour l'adresse IP 193.252.149.13
13.149.252.193.in-addr.arpa name = natcrawlbloc04-13.net.s1.fti.net.
Resultat pour l'adresse IP 193.252.149.14
14.149.252.193.in-addr.arpa name = natcrawlbloc04-14.net.s1.fti.net.
Resultat pour l'adresse IP 193.252.149.15
15.149.252.193.in-addr.arpa name = natcrawlbloc04-15.net.s1.fti.net.
Resultat pour l'adresse IP 193.252.149.16
16.149.252.193.in-addr.arpa name = natcrawlbloc04-16.net.s1.fti.net.
Resultat pour l'adresse IP 193.47.80.51
51.80.47.193.in-addr.arpa name = crawl15.exabot.com.
Resultat pour l'adresse IP 193.47.80.82
82.80.47.193.in-addr.arpa name = tc-gw.exabot.com.
Resultat pour l'adresse IP 207.46.12.163
163.12.46.207.in-addr.arpa name = msnbot-207-46-12-163.search.msn.com.
Resultat pour l'adresse IP 207.46.12.201
201.12.46.207.in-addr.arpa name = msnbot-207-46-12-201.search.msn.com.
Resultat pour l'adresse IP 207.46.12.217
217.12.46.207.in-addr.arpa name = msnbot-207-46-12-217.search.msn.com.
Resultat pour l'adresse IP 207.46.12.236
236.12.46.207.in-addr.arpa name = msnbot-207-46-12-236.search.msn.com.
Resultat pour l'adresse IP 207.46.12.29
29.12.46.207.in-addr.arpa name = msnbot-207-46-12-29.search.msn.com.
Resultat pour l'adresse IP 207.46.12.61
61.12.46.207.in-addr.arpa name = msnbot-207-46-12-61.search.msn.com.
Resultat pour l'adresse IP 207.46.12.65
65.12.46.207.in-addr.arpa name = msnbot-207-46-12-65.search.msn.com.
Resultat pour l'adresse IP 207.46.13.101
101.13.46.207.in-addr.arpa name = msnbot-207-46-13-101.search.msn.com.
Resultat pour l'adresse IP 207.46.13.131
131.13.46.207.in-addr.arpa name = msnbot-207-46-13-131.search.msn.com.
Resultat pour l'adresse IP 207.46.13.132
132.13.46.207.in-addr.arpa name = msnbot-207-46-13-132.search.msn.com.
Resultat pour l'adresse IP 207.46.13.133
133.13.46.207.in-addr.arpa name = msnbot-207-46-13-133.search.msn.com.
Resultat pour l'adresse IP 207.46.13.134
134.13.46.207.in-addr.arpa name = msnbot-207-46-13-134.search.msn.com.
Resultat pour l'adresse IP 207.46.13.142
142.13.46.207.in-addr.arpa name = msnbot-207-46-13-142.search.msn.com.
Resultat pour l'adresse IP 207.46.13.143
143.13.46.207.in-addr.arpa name = msnbot-207-46-13-143.search.msn.com.
Resultat pour l'adresse IP 207.46.13.43
43.13.46.207.in-addr.arpa name = msnbot-207-46-13-43.search.msn.com.
Resultat pour l'adresse IP 207.46.13.46
46.13.46.207.in-addr.arpa name = msnbot-207-46-13-46.search.msn.com.
Resultat pour l'adresse IP 207.46.13.47
47.13.46.207.in-addr.arpa name = msnbot-207-46-13-47.search.msn.com.
Resultat pour l'adresse IP 207.46.13.48
48.13.46.207.in-addr.arpa name = msnbot-207-46-13-48.search.msn.com.
Resultat pour l'adresse IP 207.46.13.84
84.13.46.207.in-addr.arpa name = msnbot-207-46-13-84.search.msn.com.
Resultat pour l'adresse IP 207.46.13.86
86.13.46.207.in-addr.arpa name = msnbot-207-46-13-86.search.msn.com.
Resultat pour l'adresse IP 207.46.13.87
87.13.46.207.in-addr.arpa name = msnbot-207-46-13-87.search.msn.com.
Resultat pour l'adresse IP 207.46.13.91
91.13.46.207.in-addr.arpa name = msnbot-207-46-13-91.search.msn.com.
Resultat pour l'adresse IP 207.46.13.92
92.13.46.207.in-addr.arpa name = msnbot-207-46-13-92.search.msn.com.
Resultat pour l'adresse IP 207.46.13.94
94.13.46.207.in-addr.arpa name = msnbot-207-46-13-94.search.msn.com.
Resultat pour l'adresse IP 207.46.194.87
87.194.46.207.in-addr.arpa name = msnbot-207-46-194-87.search.msn.com.
Resultat pour l'adresse IP 207.46.195.105
105.195.46.207.in-addr.arpa name = msnbot-207-46-195-105.search.msn.com.
Resultat pour l'adresse IP 207.46.195.106
106.195.46.207.in-addr.arpa name = msnbot-207-46-195-106.search.msn.com.
Resultat pour l'adresse IP 207.46.195.223
223.195.46.207.in-addr.arpa name = msnbot-207-46-195-223.search.msn.com.
Resultat pour l'adresse IP 207.46.195.225
225.195.46.207.in-addr.arpa name = msnbot-207-46-195-225.search.msn.com.
Resultat pour l'adresse IP 207.46.195.226
226.195.46.207.in-addr.arpa name = msnbot-207-46-195-226.search.msn.com.
Resultat pour l'adresse IP 207.46.195.227
227.195.46.207.in-addr.arpa name = msnbot-207-46-195-227.search.msn.com.
Resultat pour l'adresse IP 207.46.195.228
228.195.46.207.in-addr.arpa name = msnbot-207-46-195-228.search.msn.com.
Resultat pour l'adresse IP 207.46.195.232
232.195.46.207.in-addr.arpa name = msnbot-207-46-195-232.search.msn.com.
Resultat pour l'adresse IP 207.46.195.234
234.195.46.207.in-addr.arpa name = msnbot-207-46-195-234.search.msn.com.
Resultat pour l'adresse IP 207.46.195.235
235.195.46.207.in-addr.arpa name = msnbot-207-46-195-235.search.msn.com.
Resultat pour l'adresse IP 207.46.195.237
237.195.46.207.in-addr.arpa name = msnbot-207-46-195-237.search.msn.com.
Resultat pour l'adresse IP 207.46.195.239
239.195.46.207.in-addr.arpa name = msnbot-207-46-195-239.search.msn.com.
Resultat pour l'adresse IP 207.46.195.241
241.195.46.207.in-addr.arpa name = msnbot-207-46-195-241.search.msn.com.
Resultat pour l'adresse IP 207.46.199.178
178.199.46.207.in-addr.arpa name = msnbot-207-46-199-178.search.msn.com.
Resultat pour l'adresse IP 207.46.199.179
179.199.46.207.in-addr.arpa name = msnbot-207-46-199-179.search.msn.com.
Resultat pour l'adresse IP 207.46.199.180
180.199.46.207.in-addr.arpa name = msnbot-207-46-199-180.search.msn.com.
Resultat pour l'adresse IP 207.46.199.184
184.199.46.207.in-addr.arpa name = msnbot-207-46-199-184.search.msn.com.
Resultat pour l'adresse IP 207.46.199.185
185.199.46.207.in-addr.arpa name = msnbot-207-46-199-185.search.msn.com.
Resultat pour l'adresse IP 207.46.199.191
191.199.46.207.in-addr.arpa name = msnbot-207-46-199-191.search.msn.com.
Resultat pour l'adresse IP 207.46.199.193
193.199.46.207.in-addr.arpa name = msnbot-207-46-199-193.search.msn.com.
Resultat pour l'adresse IP 207.46.199.198
198.199.46.207.in-addr.arpa name = msnbot-207-46-199-198.search.msn.com.
Resultat pour l'adresse IP 207.46.199.199
199.199.46.207.in-addr.arpa name = msnbot-207-46-199-199.search.msn.com.
Resultat pour l'adresse IP 207.46.199.201
201.199.46.207.in-addr.arpa name = msnbot-207-46-199-201.search.msn.com.
Resultat pour l'adresse IP 207.46.199.37
37.199.46.207.in-addr.arpa name = msnbot-207-46-199-37.search.msn.com.
Resultat pour l'adresse IP 207.46.199.38
38.199.46.207.in-addr.arpa name = msnbot-207-46-199-38.search.msn.com.
Resultat pour l'adresse IP 207.46.199.39
39.199.46.207.in-addr.arpa name = msnbot-207-46-199-39.search.msn.com.
Resultat pour l'adresse IP 207.46.199.42
42.199.46.207.in-addr.arpa name = msnbot-207-46-199-42.search.msn.com.
Resultat pour l'adresse IP 207.46.199.47
47.199.46.207.in-addr.arpa name = msnbot-207-46-199-47.search.msn.com.
Resultat pour l'adresse IP 207.46.199.48
48.199.46.207.in-addr.arpa name = msnbot-207-46-199-48.search.msn.com.
Resultat pour l'adresse IP 207.46.199.50
50.199.46.207.in-addr.arpa name = msnbot-207-46-199-50.search.msn.com.
Resultat pour l'adresse IP 207.46.199.51
51.199.46.207.in-addr.arpa name = msnbot-207-46-199-51.search.msn.com.
Resultat pour l'adresse IP 207.46.199.52
52.199.46.207.in-addr.arpa name = msnbot-207-46-199-52.search.msn.com.
Resultat pour l'adresse IP 207.46.199.53
53.199.46.207.in-addr.arpa name = msnbot-207-46-199-53.search.msn.com.
Resultat pour l'adresse IP 207.46.199.54
54.199.46.207.in-addr.arpa name = msnbot-207-46-199-54.search.msn.com.
Resultat pour l'adresse IP 207.46.199.55
55.199.46.207.in-addr.arpa name = msnbot-207-46-199-55.search.msn.com.
Resultat pour l'adresse IP 207.46.204.177
177.204.46.207.in-addr.arpa name = msnbot-207-46-204-177.search.msn.com.
Resultat pour l'adresse IP 207.46.204.178
178.204.46.207.in-addr.arpa name = msnbot-207-46-204-178.search.msn.com.
Resultat pour l'adresse IP 207.46.204.182
182.204.46.207.in-addr.arpa name = msnbot-207-46-204-182.search.msn.com.
Resultat pour l'adresse IP 207.46.204.188
188.204.46.207.in-addr.arpa name = msnbot-207-46-204-188.search.msn.com.
Resultat pour l'adresse IP 207.46.204.194
194.204.46.207.in-addr.arpa name = msnbot-207-46-204-194.search.msn.com.
Resultat pour l'adresse IP 207.46.204.209
209.204.46.207.in-addr.arpa name = msnbot-207-46-204-209.search.msn.com.
Resultat pour l'adresse IP 207.46.204.227
227.204.46.207.in-addr.arpa name = msnbot-207-46-204-227.search.msn.com.
Resultat pour l'adresse IP 207.46.204.232
232.204.46.207.in-addr.arpa name = msnbot-207-46-204-232.search.msn.com.
Resultat pour l'adresse IP 207.46.204.238
238.204.46.207.in-addr.arpa name = msnbot-207-46-204-238.search.msn.com.
Resultat pour l'adresse IP 207.46.204.241
241.204.46.207.in-addr.arpa name = msnbot-207-46-204-241.search.msn.com.
Resultat pour l'adresse IP 208.115.111.245
245.111.115.208.in-addr.arpa name = crawl4.dotnetdotcom.org.
Resultat pour l'adresse IP 220.181.7.126
126.7.181.220.in-addr.arpa name = baiduspider-220-181-7-126.crawl.baidu.com.
Resultat pour l'adresse IP 220.181.7.55
55.7.181.220.in-addr.arpa name = baiduspider-220-181-7-55.crawl.baidu.com.
Resultat pour l'adresse IP 220.181.7.65
65.7.181.220.in-addr.arpa name = baiduspider-220-181-7-65.crawl.baidu.com.
Resultat pour l'adresse IP 220.181.7.81
81.7.181.220.in-addr.arpa name = baiduspider-220-181-7-81.crawl.baidu.com.
Resultat pour l'adresse IP 220.181.7.88
88.7.181.220.in-addr.arpa name = baiduspider-220-181-7-88.crawl.baidu.com.
Resultat pour l'adresse IP 220.181.7.90
90.7.181.220.in-addr.arpa name = baiduspider-220-181-7-90.crawl.baidu.com.
Resultat pour l'adresse IP 220.181.7.95
95.7.181.220.in-addr.arpa name = baiduspider-220-181-7-95.crawl.baidu.com.
Resultat pour l'adresse IP 61.135.186.23
23.186.135.61.in-addr.arpa name = baiduspider-ad-61-135-186-23.crawl.baidu.com.
Resultat pour l'adresse IP 65.52.108.58
58.108.52.65.in-addr.arpa name = msnbot-65-52-108-58.search.msn.com.
Resultat pour l'adresse IP 66.235.124.54
54.124.235.66.in-addr.arpa name = crawler5103.ask.com.
Resultat pour l'adresse IP 66.235.124.55
55.124.235.66.in-addr.arpa name = crawler5104.ask.com.
Resultat pour l'adresse IP 66.235.124.56
56.124.235.66.in-addr.arpa name = crawler5105.ask.com.
Resultat pour l'adresse IP 66.235.124.57
57.124.235.66.in-addr.arpa name = crawler5106.ask.com.
Resultat pour l'adresse IP 66.235.124.58
58.124.235.66.in-addr.arpa name = crawler5107.ask.com.
Resultat pour l'adresse IP 66.235.124.59
59.124.235.66.in-addr.arpa name = crawler5108.ask.com.
Resultat pour l'adresse IP 66.249.65.188
188.65.249.66.in-addr.arpa name = crawl-66-249-65-188.googlebot.com.
Resultat pour l'adresse IP 66.249.65.212
212.65.249.66.in-addr.arpa name = crawl-66-249-65-212.googlebot.com.
Resultat pour l'adresse IP 66.249.65.22
22.65.249.66.in-addr.arpa name = crawl-66-249-65-22.googlebot.com.
Resultat pour l'adresse IP 66.249.65.34
34.65.249.66.in-addr.arpa name = crawl-66-249-65-34.googlebot.com.
Resultat pour l'adresse IP 66.249.65.44
44.65.249.66.in-addr.arpa name = crawl-66-249-65-44.googlebot.com.
Resultat pour l'adresse IP 66.249.66.166
166.66.249.66.in-addr.arpa name = crawl-66-249-66-166.googlebot.com.
Resultat pour l'adresse IP 66.249.67.6
6.67.249.66.in-addr.arpa name = crawl-66-249-67-6.googlebot.com.
Resultat pour l'adresse IP 66.249.71.104
104.71.249.66.in-addr.arpa name = crawl-66-249-71-104.googlebot.com.
Resultat pour l'adresse IP 66.249.71.168
168.71.249.66.in-addr.arpa name = crawl-66-249-71-168.googlebot.com.
Resultat pour l'adresse IP 66.249.71.175
175.71.249.66.in-addr.arpa name = crawl-66-249-71-175.googlebot.com.
Resultat pour l'adresse IP 66.249.71.238
238.71.249.66.in-addr.arpa name = crawl-66-249-71-238.googlebot.com.
Resultat pour l'adresse IP 66.249.71.26
26.71.249.66.in-addr.arpa name = crawl-66-249-71-26.googlebot.com.
Resultat pour l'adresse IP 66.249.71.91
91.71.249.66.in-addr.arpa name = crawl-66-249-71-91.googlebot.com.
Resultat pour l'adresse IP 67.195.111.41
41.111.195.67.in-addr.arpa name = b3091219.crawl.yahoo.net.
Resultat pour l'adresse IP 81.52.143.15
15.143.52.81.in-addr.arpa name = natcrawlbloc01.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.16
16.143.52.81.in-addr.arpa name = natcrawlbloc03.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.18
18.143.52.81.in-addr.arpa name = natcrawlpreprod.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.25
25.143.52.81.in-addr.arpa name = natcrawlmsbm.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.26
26.143.52.81.in-addr.arpa name = natcrawlbloc05.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.29
29.143.52.81.in-addr.arpa name = natcrawlbloc01-29.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.30
30.143.52.81.in-addr.arpa name = natcrawlbloc01-30.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.31
31.143.52.81.in-addr.arpa name = natcrawlbloc01-31.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.32
32.143.52.81.in-addr.arpa name = natcrawlbloc03-32.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.33
33.143.52.81.in-addr.arpa name = natcrawlbloc03-33.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.34
34.143.52.81.in-addr.arpa name = natcrawlbloc03-34.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.35
35.143.52.81.in-addr.arpa name = natcrawlbloc05-35.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.36
36.143.52.81.in-addr.arpa name = natcrawlbloc05-36.net.m1.fti.net.
Resultat pour l'adresse IP 81.52.143.37
37.143.52.81.in-addr.arpa name = natcrawlbloc05-37.net.m1.fti.net.
Resultat pour l'adresse IP 93.158.149.31
31.149.158.93.in-addr.arpa name = spider12.yandex.ru.

Comme vous pouvez le constater, MSN a mis le paquet niveau allocation d’adresses pour son bot.

Et Google Page Preview la dedans ?

Je ne voulais finalement pas m’étendre sur la nouvelle fonctionnalité de Google avec ses magnifiques Previews, mais je vais quand même le faire.
En effet, si il s’avère que récupérer l’IP et le UA de ce fameux bot qui prend les screenshot est possible, la négative SEO sur les marques des concurrents va pouvoir prendre de l’ampleur. Imaginez une seconde que vous arriviez à dépasser un concurrent sur son nom, et que vous arriviez à cloaker SON screenshot dans les previews de Google ? Ça serait vraiment méchant et pas bien hein 😉

Pour ceux qui veulent en savoir plus sur la fonction Preview de Google :
Discret comme la violette avec les snapshots Google (et ça c’est du titre qui claque)

Credit image : evisibility.com

5 réponses sur « Extraire IP de Googlebot et autres bots »

« Pourquoi ? Disons qu’un simple parser serait incapable de rendre parfaitement une page web (prise en compte de la feuille de style, affichage des images, …).  »

Je ne suis pas de ton avis.
Je pense que Google dispose d’une techno qui donne le rendu de la page comme un navigateur et non pas comme un parser. C’est ce qui lui permettrait de définir les zones telles que les éléments de navigation, header, footer, zone de contenu,…et ceux quelque soit la façon d’avoir coder la chose.

Salut Olivier,

Désolé de te décevoir, mais si, tu es de mon avis, puisque tu dis exactement ce que j’ai écris dans l’article !!!

Un parser ne permet pas de réaliser un screenshot, si quelqu’un m’affirme le contraire qu’il m’envoie le code source !!

Ce que je dis dans l’article, c’est qu’ils (Google) doivent disposer d’un browser muni d’un plugin de screenshots afin de réaliser les previews. Apres en ce qui concerne les zones, un parser très évolué suffit (Googlebot en l’occurence).
N’oublions pas que HTML est un langage de balisage, donc les imbrications et dépendances sont relativement simples à mettre en évidence (la feuille de style n’étant la que pour « habiller » la page).

Salut,

trés bon article, mais il souleve une question dans ma tête.
tu met : »Comme vous pouvez le constater, MSN a mis le paquet niveau allocation d’adresses pour son bot. »

Ok. mais celà veut il donc dire que le cloacking avec msn est « presque » impossible ( car nous n’avons surement pas une liste complete) et donc le cloaking démascable par msn (pour un petit moment) ?
Ou es ce que bientôt on pourra de nouveau se procurer facilement une belle liste d’ip avec tous les crawl d’msn ?
(ok c’est qu’une question de temps , mais savoir si ils vont continuer a faire tourner les ips , ou pas …. )

@Blackat

En fait il y a 2 options pour remédier a cela.
La première, la plus simple, est de faire le cloacking non pas sur une IP en particulier mais en utilisant une regexp (en l’occurence ici 207.46.* pour msn). Le souci avec cette méthode c’est que tu risques de cloacker sur des non-bots. Le mieux reste de checker sur le lien que j’ai fourni dans l’article (celui sur les plages d’adresses).

Et la deuxième, obtenir une liste complète des IPs de msnbot (mais ça risque d’être long et tu peux passer au travers de quelques unes si tu n’utilises pas la methode No1).

Comme tu l’auras compris, je suis plutôt pour l’utilisation des regexp.

Oui.
enfin , c’est surtout que j’avais vue une façon simple de pouvoir détecter le cloacking chez les concurrents 😉

si on fait du cloacking « propre » on a rien a craindre … ^^

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *