SEO, BASH, PHP et plus si affinités

RDDZ Scraper

Cette page est dédiée au scraper, ou plutôt aux scripts permettant de scraper différentes sources. Ce scraper utilise l’extension chickenfoot pour Firefox et proxytool pour la gestion des proxies. Les scripts présents sur cette page ont été mis au point et testés par @Susmab aka DZ et @Renardudezert aka RDD, d’ou son nom.

Installation

Afin d’utiliser notre scraper, il vous faudra une version de Firefox à jour. J’utilise la dernière version stable (10.0.2).
Ce n’est pas une condition obligatoire, puisque vous pouvez compiler l’extension chickenfoot à partir des sources github. La version que je vous propose en téléchargement a été compilée par mes soins et a été testée sur Firefox 3.6.25 et Firefox à partir de sa version 9.
L’avantage de cette extension, c’est que vous pouvez la coupler à proxytool afin de scraper avec vos proxies.

Si vous utilisez proxytool, assurez vous de l’avoir activé et configuré de cette manière Parametres de proxy-tool pour firefox.

Note pour les utilisateurs d’Imacros : le raccourci de chickenfoot est le même que celui d’Imacros (F8), donc soit vous installez 2 versions différentes de Firefox avec 2 profils différents, soit vous désactivez/faites sauter Imacros 😉

Utilisation

Nous essayons de commenter un minimum nos scripts en français (même si nous préférerions le faire en anglais).
Tous les scripts que nous vous proposons sont multi-plateformes. La configuration se situe toujours au début du script dans la section :

////////////////////
// Configuration
////////////////////
...
////////////////////
// Endconfiguration
////////////////////

Il vous suffit donc pour utiliser nos scripts, d’activer ChickenFoot (F8) et d’ouvrir le script que vous désirez lancer.

Scripts

Google SERP Scraper Je ne vous le présente pas, il est né suite à l’article sur Scrapebox. Pour ceux ne connaissant pas l’astuce des tld dans Scrapebox, la fonction est native dans ce script. Vous devez spécifier dans la partie configuration, le chemin vers votre fichier contenant les tld. Un exemple de ce fichier est disponible ici. Le script ouvrira 2 popup. La première concerne le keyword ou footprint. Tapez le exactement comme vous le taperiez dans le champ de recherche Google. La seconde concerne le fichier de sauvegarde du résultat. Si vous cliquez sur annuler, les résultats s’afficheront dans le navigateur, sinon ils seront sauvegardés dans le fichier que vous aurez spécifié dans cette boite de dialogue. L’extension est automatique (.txt). Le dossier de sauvegarde est celui spécifié dans la partie configuration.

Télécharger Google SERP Scraper


Google Insight Scraper Ce script permet de scraper Google Insight pour un mot clé donne. Le résultat est affiché dans l’output.

Télécharger Google Insight Scraper


Google Maps Scraper Ce script fait suite à une demande de Didier @dsampaolo, puisqu’il a été développé je le met ici. Il va vous permettre de scraper GoogleMap afin de récupérer toutes les infos des enseignes que vous recherchez. Génère un fichier au format csv, avec le séparateur « ; ». Les champs dans l’ordre sont : Raison sociale, adresse, numéro de téléphone, URL Gmap.

Télécharger Google Map Scraper

Pourquoi pas Imacros ?

Je sais que vous vous posez la question, ou que vous allez me la poser. Tout d’abord ChickenFoot est Open-Source et ca c’est un tres bon point. J’aime la maniere de coder sous ChickenFoot qui rappelle les fonctions de bases de Sick Submitter, la gestion de XPath, des regex, du javascript, le file i/o, etc …
Le fait qu’il soit Open-Source permet d’implementer des fonctions au core sans avoir a le demander. Et pour faire bref, je vous repondrai que c’est un choix et que c’est comme ca 😛

Si vous le souhaitez, vous pouvez aussi aller tester le ScrapeBox Like de Jeremy qui tourne sur chrome.

Remerciements

Je tenais également a remercier DZ, pour l’elaboration de certains scripts que vous trouverez ici.
Si vous avez des besoins particulier de scrap (ou autre), n’hésitez pas a nous en faire part via la page de contact ou sur twitter.

Je suis un gros footer de merde !! - Powered by le Presse mot