RDDZ Scraper – Scrap the web !!

Auteur de l’article Par RDD
Date de l’article 8 octobre 2012
44 commentaires sur RDDZ Scraper – Scrap the web !!

Une fois n’est pas coutume, ce post sera destiné à la présentation d’un nouveau soft SEO. Et pour tout vous dire, il ne s’agit pas de n’importe quel soft, puisque c’est un scraper que nous avons développé avec dz. Certains vont alors se demander : Pourquoi re-inventer la roue puisque Scrapebox existe déjà ? Je vais donc leur répondre : lisez l’article 🙂

Naissance de RDDZ Scraper

En tant qu’utilisateur régulier de Scrapebox, il y avait certaines choses qui m’irritaient énormement sur ce soft. Sans tout citer, voici les principaux défauts que je trouve à Scrapebox :

Ne fonctionne QUE sur Windows
Interface surchargée et austère
Limitation à 3 moteurs de recherche
Trop de fonctionnalités
Les fonctionnalités importantes ne sont pas dans la MainWindow, mais dans des Modal Window ou dans les addons
Traduction de scrapebox : boite à scrap => Je n’ai pas besoin de spammer avec ce soft
A moins d’avoir 100 proxies, il se font vite crames si vous utilisez le multi-threading
La prise en main pour quelqu’un qui n’a jamais scrapé est juste … un peu longue
Il y a des features évidentes que veut un spammeur, que ne fait pas Scrapebox

Après il est vrai que pour le prix, certains pourraient dire : « Comment tu chipotes pour 47$ toi ». Oui, mais non.

Avant d’être SEO, je suis développeur, et plus spécifiquement développeur système (C) ayant basculé du côté PHP pour se mettre au web (c’était « in » à l’époque et y avait plein de taff en plus :)). C’est pour cela que je me suis dit : « Si ça ne te convient pas, fais le toi même ». Et c’est comme ça qu’est né ce projet.

Je ne voulais pas créer un webservice, afin de tirer pleinement profit du multi-threading sans avoir à acheter 200 serveurs boostés aux hormones. Mais si je renonce à cette solution, il faut alors que mon soft tourne sur les principales plateformes, à savoir Windows, Mac et Linux. C’est pour cela que je me suis tourné vers le Framework Qt et que j’ai embarqué dz dans l’aventure. Pour info, c’était mon binome de dev durant mes années d’études en école d’ingé, donc on s’est retrouvé pour coder à l’ancienne (hard session coding) !!

Fonctionnalités de RDDZ Scraper

Avant de continuer, le but n’était pas de refaire Scrapebox pour le faire fonctionner sur les 3 principaux OS, sinon le soft n’aurait aucun intérêt. Il fallait que ca réponde réellement au besoin d’un web scraper, sans qu’il soit spécifique à une utilisation Black/Grey/White Hat. Il est bien entendu tout public.
Sachez juste qu’il ne permet pas de spammer, et qu’il ne le permettra pas, ce n’est pas le but de ce soft.

Je voulais donc pouvoir scraper n’importe quelle source sur le web, et bien sur, pratiquant le SEO du côté obscure, automatiser au maximum les fonctionnalités afin de cliquer sur « Scrap » et obtenir une liste d’urls fonctionnelles (sans liens morts et avec les redirections résolues).

Voici donc les fonctionnalités de RDDZ Scraper, que vous pourrez également découvrir sur le site :

Multilingue

Anglais
Francais

D’autres traductions seront disponibles dans les versions futures.

Web Scrap

Scrap basique (récupération d’une liste d’url en interrogeant un Search Engine)
Récuperation des backlinks pour un domaine donné
Scrap en mode expert (détails dans la section Mode Expert)

Scrap tools

Chose importante ici. Contrairement à Scrapebox, il n’y a pas de remove duplicate url, puisque c’est OBLIGATOIRE (même si Scrapebox propose de supprimer les duplicate domain dans ses options). Je trouvais ça abusé de devoir cliquer sur un bouton pour supprimer les urls en double.

Dans RDDZ Scraper, les urls doublonnées sont automatiquement supprimées à la fin du scrap. En ce qui concerne les domaines, c’est automatique lorsque vous effectuez un « trim to root », sinon un bouton est prévu pour cela.

Trim to root (Garder la racine)
Trim to last folder (Garder l’url jusqu’au dernier dossier)
Récuperation du Pagerank
Récuperation des HTTP Status Code
Résolution des redirections
Récuperation du % de liens en dofollow
Transférer les résultats dans le champ custom 1

Delete tools

Ce panel vous permet également d’agir sur la liste de scrap afin de supprimer des URL.

Supprimer les URL contenant une chaîne définie
Supprimer les URL ne contenant pas une chaîne définie
Supprimer les URL ne contenant pas un masque (expression régulière) défini
Supprimer les sous-domaines d’une liste
Supprimer les mauvaises URL (avec un code d’erreur HTTP)
Supprimer les URL sélectionnées
Supprimer les URL ayant un pourcentage de liens en dofollow inférieur à celui spécifié

Proxies

Import d’un fichier de proxies
Test des proxies : mode normal et sur Google
Ajout d’un ou plusieurs proxies

Mode Expert

Possibilité d’utiliser 2 loops (un seul pour scrapebox)
Possibilité d’utiliser un intloop (un entier qui s’incrémente)
Ajouter/Modifier/supprimer votre propre moteur de recherche
Possibilité de scraper autre chose que la valeur des hrefs (avec XPath)
Possibilité d’ajouter des préfixes et/ou suffixes aux résultats

Automatisation

L’automatisation est native, vous pouvez l’activer ou la désactiver à votre convenance.

Chacun des points suivants peut-être activé/désactivé individuellement.

Récupération automatique du Pagerank
Récupération automatique du HTTP status code des urls
Résolution automatique des redirections
Récupération automatique du % de liens en dofollow
Suppression automatique des URL en erreur

Un détail non négligeable : vous pouvez importez vos listes de scrap provenant de Scrapebox dans RDDZ Scraper et inversement.

Voila, si vous hésitiez à franchir le pas avec Scrapebox, ou si comme moi vous souhaitez posséder un VRAI web scraper, c’est par ici :

Forum RDDZ Scraper
Compte twitter RDDZ Tools

Remerciements

Parce qu’ils le méritent amplement :
– Tous ceux qui ont bossé avec moi sur le projet (vous êtes 2, vous vous reconnaîtrez :)).
– Les beta testeurs. Un grand merci à vous, en particulier Beunwa : tu déchires mec.
– Raph pour nous avoir permis d’intervenir au vlc 2012.
– Seoblackout, pour m’avoir fait découvrir Scrapebox en 2009.
– Zizounnette, pour m’avoir guidé sur les obfuscateurs de code.
– Tous les utilisateurs pour leur retours.

44 réponses sur « RDDZ Scraper – Scrap the web !! »

[…] vous invite fortement à lire l’article officiel de présentation de cet outil qui va faire des ravages dans la communauté SEO var dd_offset_from_content = 40; var dd_top_offset_from_content = 0;Article sur le même sujetNo […]

Il a l’air pas mal du tout cet outil, enfin dans les bacs ! 😉

J’espère le gagner chez Raph sinon je l’achèterais sans aucun doute. 🙂

Félicitation, tu dois être fier de ton petit bébé ^^

Bon ça a l’air super tout ça. Pour nuancer un peu, Scrapebox on le fait tourner facilement sur Mac. Mais ton outil a l’air bien quoi que je n’ai pas tout lu…

Prévois tu une version lite ou free bridée pour qu’on voit à l’usage ce que ça donne ? Y’a pas grand monde prêt à lacher 150 euros sans avoir pu tester.

7 days money back garanteed comme les softs SEO US ?

Pour l’avoir testé (et même relevé quelques bugs que j’ai ajouté sur le forum), il est vraiment puissant.

Le check de PR est super rapide.

Il y a juste certaines subtilités à savoir pour faire marcher les fonctions les plus avancés xpath, moteur custom…

C’est acheté, j’ai hâte de tester 🙂

Bravo pour ce travail! Un client de plus…

@Keeg
Oui enfin dans les bacs !!

@lereferenceur
Le tirage au sort en décidera 🙂 Et oui on est assez fier de de notre bébé

@Francois-Olivier
En ce qui concerne Scrapebox sur Mac, ce n’est pas natif, donc forcement moins performant.
Pas de version lite ou free de prévue. Cependant, les tutoriels vidéo vont arriver sur le site cette semaine, ce qui donnera un aperçu du potentiel de RDDZ scraper avant de l’acheter.

@Aurelien
On attend ton retour avec impatience. N’hésites pas à poster sur le forum.

bravo pour l’initiative. J’ai hâte de pouvoir tester une version de démo.

Franchement dès que j’ai les sous je vais le prendre. En tout cas la pres des invités mystères du vlc m’a bien donnée envie !
Félictation.

J’attends le tuto vidéo pour voir à quoi ca ressemble et j’achète. Ca fait plaisir car je tourne sur mac et n’avais pas envie d’acheter scrapebox du coup.

Franchement, ça a l’air d’être un soft au top… Je suis assez d’accord sur la plupart des défauts de scrapebox, et j’ajouterai qu’il a en plus l’inconvénient de se comporter de façon étrange sur le fr.

Un tool à tester.. Idem, il me tarde une version de démo avant de craquer la CB… C’est au programme, hein ?

Cet outil a tout simplement l’air génial ! Franchement beau travail 🙂

Je vais regarder de ce pas les tutos vidéo que tu nous proposes 😉

Arfff finalement y en a pas encore, ce sera donc pour plus tard ^^

j’ai hate de tester ca, notamment le xpath sur des gros volumes.

Bravo

Outil qui a l’air sympa.
Pressé de pouvoir le tester 🙂

Du lourd. J’avoue que scrapbox est tout de même légèrement une usine à Gaz. Donc très bonne initiative. Je vais me le procurer rapidement !

Vraiment top les tutos. Y a t-il moyen d’avoir une liste de proxies qui marche avec l’achat du soft ?

Un grand bravo pour ce soft, je pense que le travail a du être énorme ! Les fonctionnalités sont riches, peut-être que je vais me laisser tenter !

[…] du volume de pages indexées, il est possible d’extraire l’ensemble des URL via Scrapebox RDDZ Scraper et la commande site: de Google en effectuant du scraping de manière récursive dans les […]

Logiciel très sympa selon la description !

Si mon budget SEO tools n’avait pas explosé ce mois ci, je l’aurais acheté sans aucun doute ! Sans doute le mois prochain du coup;

Sinon, j’ai un profil sur BHW avec beaucoup de « rep », si tu comptes étendre la vente de ce logiciel sur ce forum, tu peux me contacter sur l’email que j’ai renseigné dans le champ des comms.

Maintenant que j’ai le soft me reste plus qu’a bien le prendre en main et suivre les tuto a suivre donc…

Les possibilités de cet outil ont vraiment l’air intéressante, moi qui ai abandonné scrapebox depuis quelques temps déjà, je crois que j’ai enfin trouvé un remplaçant digne de ce nom 🙂

Un grand bravo pour ce soft. Vous aurez pas une version d’essai car je doute fort que le patron me le payera. Surtout que le budget SEO est mon salaire mensuel sinon il y a pas de d’autres dépenses lol. J’essaye d’imaginer la tête qu’il fera si je lui demande de m’offrir cet outil de SEO.

Encore un gros bravo et bonne chance pour vous et hard luck pour moi.

Peut-on scraper dans n’importe quelle langue y compris le russe, chinois etc…?

@tous
Merci.
En ce qui concerne la version d’essai, ce n’est pas au programme car c’est un investissement en temps qui n’est pas négligeable.
Cependant, comme vous pouvez le constater sur le site officiel, nous vous proposons un remboursement intégral sous 7 jours si vous n’êtes pas satisfaits de RDDZ Scraper.

@Solaris
Oui sans aucun souci. Je vais d’ailleurs faire un screencast afin de montrer cette fonctionnalité.

Bon, ben y’a plus qu’à se lancer! Félicitations pour le travail, vous nous facilitez bien la vie 🙂

Je l’ai acheté et je suis vraiment ravi, autant du logiciel que du support vraiment réactif 🙂

Je suis sous Mac et je suis heureux de passer par un logiciel natif et frenchie qui plus est.

J’ai maintenant hâte de voir des nouveaux moteurs pour les premiums ^^ Cela arrivera bientôt.

Scrapper dans toutes les langues…très intéressant!En plus, le scrapebox a besoin d’une révolution, il est un peu vétuste!

est ce qui’il y a un vidéo tutoriel….??

J’hésite à me lancer : acheter scrapebox ou un autre.
Je ne suis pas expert en la matière mais je ne trouve pas beaucoup d’indications sur les fonctionnalités de soumission d’articles, d’enregistrement comme le propose scrapebox sur les plateformes WordPress,B2Evolution, BlogEngine…
Du coup le visuel, en français c’est chouette mais pas forcément suffisant pour moi.

La possibilité du remboursement intégral en cas de non satisfaction me pousse à le prendre.

J’ai quand même quelques autres questions avant de passer à l’achat. En effet, dans mon cas je ne cherche pas forcement beaucoup plus de fonctionnalités mais plus de rapidité.

Combien de threads possible?

Combien de mots clés possible avant que le logiciel plante? ^^

Scrapebox est limité a 1 million d’url cependant il continue a scraper et les fichier sont sauvegarder par tranche de 1 million (il n’est donc pas limité).
Est-ce pareil pour RDDZ Scrapper.

Le taux moyen d’url’s/sec avec beaucoup de proxies (dont le temps de réponse est pas trop mal).

Y a t’il la fonctionnalité pour mettre des source de proxies que le logiciel va scraper lui même aux sources indiqué?

Pour finir, le coup de casser les captcha Google est vraiment une bonne fonctionnalité mais en auto ça fonctionne comment? decaptcher?

Enfin un outil très pratique et surtout bien suivi avec forum et des vidéos de présentation, merci.

Ca a l’air vraiment bien… et je suis plus que tenté. Mais ça ne résout pas (évidemment) le problème crucial des footprints.
Les fonctions les plus avancées comme xpath m’intriguent bcp. J’aimerais bcp en savoir plus

Voila un nouveau outils SEO à tester. Y a-t-il une version gratuite?
Merci le Renard du Desert .

Je connaissais pas du tout le scrap et je le découvre directement avec cette nouvelle application. Il est doué le Renar ! J ‘ai vu ta vidéo sur le site de Laurent qui m’a porté jusqu’à ton blog 🙂 Allez je continue ma lecture.

Bonjour, quelques petites questions :
– Est ce qu’il détecte le type de plateforme / blog pour chaque URL? (équivalent du module blog analyzer sur scrapebox)
– Comment se fait la sélection des moteurs? Est ce que c’est le même principe que sur scrapebox (case à cocher) ?
– Est ce qu’il poste aussi ou c’est uniquement du scrape?

Merci d’avance

@Jeromeweb
– Non il ne détecte pas le type de plateforme.
– La sélection des moteurs se fait par liste déroulante. L’avantage par rapport à Scrapebox est que tu peux ajouter ou éditer le moindre paramètre des moteurs. Tu peux également ajouter tes propres moteurs ou utiliser ceux que nous mettons à disposition sur le forum.
– Non il ne poste pas, c’est uniquement un outil de scrap.

Bonjour,

J’ai acheté une licence de rddz hier. Très franchement félicitations aux codeurs (comme quoi une bonne formation ingé en C cela sert toujours…). Très ergonomique, dopé aux proxy payant l’outil est juste parfait pour notre usage.

Cdt
Marc

Une version améliorée de scrapebox, en français en plus, je crois que je vais adopté, moi qui ait galéré pendant des mois pour utiliser scrapebox à peu près correctement, je conseille à tous les débutants de commencer avec cet outil.

Hier encore, je ne savais pas ce qu’était le scrap … J’ai vu les videos et je pense que … je vais l’acheter ! J’espère que ce sera un bon investissement.

Bonjour,
J’y réfléchi depuis un moment… mais l’utilisation d’un proxy payant est indispensable non ?

@Formation Joomla
Merci pour ton retour !!

@Trampoline pas cher
Bonne option 🙂 Et merci.

@Stone Island
Si les vidéos t’ont convaincu alors je pense que l’investissement vaut le coup 😉

@fabien
Bon je vais jouer sur les mots. Indispensable non, très fortement conseillé oui.
Il existe des services de proxies privé pour 20$/mois les 10 proxies.

Il est vrai que j’ai déjà un peu essayé d’utiliser scrapebox et ce n’est pas facile du tout, donc j’ai laissé tomber. Là je viens de voir l’interface de RDDZ scraper et franchement c’est tout plaisant les fonctionnalités sont claires.
Si j’achète le soft est-ce que j’aurais droit à une petite formation même par vidéo conférence ?