@@Joycode_ Alors justement non j'ai un bon niveau avec ce langage, c'est pour ça que je suis tombé sur cette vidéo. Tu devrais reconduire ce format "projet tutoriel" avec d'autres librairies
C'est noté ! Maintenant que j'ai fini la série pour débutants je travaille sur des concepts plus avancés qui demandent un peu plus de préparation comme les bonnes pratiques de l'orienté objet et les techniques pour contourner les blocages lors du scraping. Ça arrive bientôt !
@@Joycode_ Excellent. J'attends avec impatience ces vidéos alors ! Je vais tester de mon côté de mettre en place un script de webscrapping. Les possibilités sont endless ! Si jamais j'ai des questions tu as un twitter sur lequel je peux te contacter ?
Honnêtement il vaut mieux réessayer avec une IP différente (en utilisant un proxy) que de tenter de résoudre le capcha. La prochaine vidéo parle justement de ça (comment éviter la détection).
Salut merci beaucoup pour ton tuto, j'essaye de le faire sur Google colab pour un projet d'école, en revanche ça me retourne la page du captcha quand je connecte le driver à la page, tu as une idée de comment je pourrais le bypass avec Colab? :)
Avec Colab c'est compliqué parce que tu ne peux pas ouvrir une fenêtre. Il y a des outils qui peuvent résoudre automatiquement certains anciens capchas, mais pas forcément les nouveaux. Mon conseil est de faire le scraping en local (tu peux mettre le code dans Colab pour l'expliquer ensuite) et de tout enregistrer dans un fichier CSV, puis de faire toute la partie retraitement, graphes, etc. dans Colab.
Tu peux soit utiliser l'option "headless" (mais ça peut être détecté par certains sites) soit déplacer la fenêtre à un endroit où elle n'est pas visible. Exemple : stackoverflow.com/questions/42829480/how-to-hide-firefox-window-selenium-webdriver-in-python-test
On peut remplacer quasiment toutes les boucles de append par des list comprenhension. En revanche mon conseil est de ne le faire que lorsque l'opération est très simple et claire, sinon ça rend le code illisible. Dans certains cas également, utiliser numpy ou pandas directement sera plus efficace.
Bonjour, je vous félicite pour votre vidéo par contre j'emploie chrome et pas firefox et j'aurais aimé récupérer le squelette du code , j'utilise pycharm et j'aurais aimé scraper deux sites et ensuite créer un petit logiciel de statistiques encore bravo
Merci beaucoup ! Vous pouvez télécharger le driver de chrome au lien suivant, qui contient également les informations nécessaires pour adapter le code. www.selenium.dev/documentation/webdriver/getting_started/install_drivers/
Bonjour, nous sommes à la recherche d'un freelance qui puisse nous aider dans notre projet d'extraction de données immobilières à partir de certains sites web immobiliers. Êtes-vous intéressé à travailler avec nous ?
Salut ! Merci beaucoup pour tes vidéos ! je débute l'apprentissage de python et c'est vraiment top :) J'ai cependant un petit problème avec ce tutoriel scraping, j'ai scrupuleusement recopier les lignes et étapes, mais lorsque tu tapes dans ton terminal : cd 'etc puis python .\etc je n'ai plus la même chose... en effet, tout d'abord sur visual studio code, dans le terminal, je n'ai pas les flèches de couleurs (gris,bleu,vert,violet) puis il m'est ecrit : python .\scraper.py C:\Users\Julien Pierrel\AppData\Local\Programs\Python\Python311\python.exe: can't open file 'C:\\Users\\Julien Pierrel\\Desktop\\Immobilier\\scraper.py': [Errno 2] No such file or directory je n'ai hélas pas la connaissance pour débloquer le problème... si tu pouvais m'aiguiller ! d'avance merci !
Dans VSCode, pour savoir dans quel dossier tu es regarde le début de la ligne (invite de commande) là où tu tapes "python scraper.py". Tu peux aussi taper "pwd" puis entrée ça t'affichera le chemin. Ensuite utilise cd "dossier" ou cd .. (revient en arrière) pour te déplacer de dossier en dossier. Tu peux aussi fermer et réouvrir VSCode directement dans le bon dossier. Dernier truc : vérifie que ton fichier est bien sauvé (Ctrl+S).
Grand fan de ton travail, vraiment très inspirant. Ça donne envie de regarder les autres vidéos que tu as réalisé
Merci beaucoup !
N'hésite pas, si tu débutes la série python pour débutant devrait t'intéresser :)
@@Joycode_ Alors justement non j'ai un bon niveau avec ce langage, c'est pour ça que je suis tombé sur cette vidéo. Tu devrais reconduire ce format "projet tutoriel" avec d'autres librairies
C'est noté !
Maintenant que j'ai fini la série pour débutants je travaille sur des concepts plus avancés qui demandent un peu plus de préparation comme les bonnes pratiques de l'orienté objet et les techniques pour contourner les blocages lors du scraping.
Ça arrive bientôt !
@@Joycode_ Excellent. J'attends avec impatience ces vidéos alors ! Je vais tester de mon côté de mettre en place un script de webscrapping. Les possibilités sont endless ! Si jamais j'ai des questions tu as un twitter sur lequel je peux te contacter ?
Twitter non pour l'instant mais n'hésite pas à m'envoyer un email : amaury.joycode@gmail.com
esr ce que tu utilises des extentions ou app comme parshub?
et/ou des logiciels no code genre uipath?
svp comment faire pour avoir les numéros de téléphone des propriétaire ?
Super ta vidéo. Ce serai cool une vidéo sur la manière à déjouer le Geetest.
J'ai un script mais il fonctionne une fois sur 3
Honnêtement il vaut mieux réessayer avec une IP différente (en utilisant un proxy) que de tenter de résoudre le capcha.
La prochaine vidéo parle justement de ça (comment éviter la détection).
Superbe vidéo, très intéressant et bien expliqué. Serait il possible d'avoir la vidéo pour le contournement des blocages ?
Merci et bonne continuation
Merci beaucoup !
Bien sûr, je travaille dessus en ce moment même !
J'ai pris un peu de retard en septembre avec mes congés ^^
@@Joycode_ c'est génial, je te remercie et hâte de voir ta vidéo ! 👌🏻
super cool merci
Merci à toi
Salut merci beaucoup pour ton tuto, j'essaye de le faire sur Google colab pour un projet d'école, en revanche ça me retourne la page du captcha quand je connecte le driver à la page, tu as une idée de comment je pourrais le bypass avec Colab? :)
Avec Colab c'est compliqué parce que tu ne peux pas ouvrir une fenêtre. Il y a des outils qui peuvent résoudre automatiquement certains anciens capchas, mais pas forcément les nouveaux. Mon conseil est de faire le scraping en local (tu peux mettre le code dans Colab pour l'expliquer ensuite) et de tout enregistrer dans un fichier CSV, puis de faire toute la partie retraitement, graphes, etc. dans Colab.
très bonne vidéo comment on fait pour cacher le navigateur quand il s'ouvre
Tu peux soit utiliser l'option "headless" (mais ça peut être détecté par certains sites) soit déplacer la fenêtre à un endroit où elle n'est pas visible.
Exemple :
stackoverflow.com/questions/42829480/how-to-hide-firefox-window-selenium-webdriver-in-python-test
est ce que tu peux écrire ton code avec une liste compréhension?
On peut remplacer quasiment toutes les boucles de append par des list comprenhension.
En revanche mon conseil est de ne le faire que lorsque l'opération est très simple et claire, sinon ça rend le code illisible.
Dans certains cas également, utiliser numpy ou pandas directement sera plus efficace.
super merci à toi
Merci pour ton commentaire !
Bonjour, je vous félicite pour votre vidéo par contre j'emploie chrome et pas firefox et j'aurais aimé récupérer le squelette du code , j'utilise pycharm et j'aurais aimé scraper deux sites et ensuite créer un petit logiciel de statistiques encore bravo
Merci beaucoup !
Vous pouvez télécharger le driver de chrome au lien suivant, qui contient également les informations nécessaires pour adapter le code.
www.selenium.dev/documentation/webdriver/getting_started/install_drivers/
@@Joycode_ merçi beaucoup
Bonjour, nous sommes à la recherche d'un freelance qui puisse nous aider dans notre projet d'extraction de données immobilières à partir de certains sites web immobiliers. Êtes-vous intéressé à travailler avec nous ?
J'ai un travail à plein temps et cette chaîne est un hobby, donc malheureusement je n'ai pas le temps pour des missions en freelance.
4:30 ça m'interesse
C'est en cours 😉
c'est très bien expliqué. moi, je suis bloquée, pourtant j'applique votre méthode. Pouvez-vous m'aider?
Bien sûr !
À quelle étape est-tu bloquée ?
Sur quel site ?
Salut ! Merci beaucoup pour tes vidéos ! je débute l'apprentissage de python et c'est vraiment top :)
J'ai cependant un petit problème avec ce tutoriel scraping, j'ai scrupuleusement recopier les lignes et étapes, mais lorsque tu tapes dans ton terminal : cd 'etc puis python .\etc je n'ai plus la même chose...
en effet, tout d'abord sur visual studio code, dans le terminal, je n'ai pas les flèches de couleurs (gris,bleu,vert,violet) puis il m'est ecrit : python .\scraper.py
C:\Users\Julien Pierrel\AppData\Local\Programs\Python\Python311\python.exe: can't open file 'C:\\Users\\Julien Pierrel\\Desktop\\Immobilier\\scraper.py': [Errno 2] No such file or directory
je n'ai hélas pas la connaissance pour débloquer le problème...
si tu pouvais m'aiguiller ! d'avance merci !
Dans VSCode, pour savoir dans quel dossier tu es regarde le début de la ligne (invite de commande) là où tu tapes "python scraper.py". Tu peux aussi taper "pwd" puis entrée ça t'affichera le chemin. Ensuite utilise cd "dossier" ou cd .. (revient en arrière) pour te déplacer de dossier en dossier. Tu peux aussi fermer et réouvrir VSCode directement dans le bon dossier. Dernier truc : vérifie que ton fichier est bien sauvé (Ctrl+S).
Si tu débutes commence peut-être par le cours pour débutants :)
@@Joycode_ Super merci beaucoup pour ta réponse !