Парсинг сайтов Scrapy Python. (CrawlSpider) + Xpath + Сохранение в CSV. За 40 минут

แชร์
ฝัง
  • เผยแพร่เมื่อ 20 ต.ค. 2024

ความคิดเห็น • 49

  • @SergeiBondarev7-seo
    @SergeiBondarev7-seo  3 ปีที่แล้ว +10

    Я довольно долго пропадал, 1.4 недели меня не было. Зависал с изучением pandas и scrapy. Сейчас делаю парсинг для большого сайта. Решил записать туториал, т.к. внятной и быстрой инфы при обучении не нашел в должном объёме.

    • @MrGor9
      @MrGor9 2 ปีที่แล้ว +1

      однозначно надо ссылку на git

    • @ukratitelkisok9726
      @ukratitelkisok9726 2 ปีที่แล้ว

      спасибо что ты есть)

  • @pitbullteam5318
    @pitbullteam5318 3 ปีที่แล้ว +6

    Шикарный английский !!

  • @chess_hero
    @chess_hero ปีที่แล้ว +1

    Мое уважение, Сергей, очень помогли!

  • @spyphyfarnsworth6050
    @spyphyfarnsworth6050 2 ปีที่แล้ว +3

    "цд команда для перехода" сразу виден уровень)

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว

      Главное, чтобы доступно было. А все что не понятно всегда можно почитать. Подсмотреть или спросить.

  • @ТаалайбекУтуров
    @ТаалайбекУтуров 2 ปีที่แล้ว

    У Вас тоже как и у меня сложности с придумыванием названии😁. Отличное видео, спасибо!

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว +2

      конечно! я еще когда ник персонажу придумываю пол часа сижу... про внешность вообще молчу))

  • @Yuri-wk8rk
    @Yuri-wk8rk 3 ปีที่แล้ว +1

    Отличное видео, спасибо!

  • @vitalij09
    @vitalij09 3 ปีที่แล้ว +3

    return не старая команда, она просто по другому применяется. yield просто возвращает генератор.

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว

      Одни говорят, что она старая. Другие, что не старая. Вот и кому верить? В целом наверное главное чтобы работало...

  • @niks1302
    @niks1302 2 ปีที่แล้ว +1

    Не понял почему домен пишется в таком виде xn-----mlcmbbnctfc9anx4ak5ald.xn--plai. Разве нельзя в обычном виде написать? Как найти этот сайт?

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว

      кирилицу не воспринимают браузере. по этому он конвертирует это в хрен пойми какой транслит под кодировку и работает как зеркальное обозначение букв кирилицы

  • @emindergazz3003
    @emindergazz3003 3 ปีที่แล้ว +2

    Добрый день! Спасибо, отличное видео! Все очень подробно и доступно. Если есть у Вас такой опыт, подскажите как подвязать Splash (что прописать?) для данного метода если сайт с javascript. P.S. Scrapy-Splash уже подключен

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  3 ปีที่แล้ว +2

      Лучшим выбором будет использовать скаппи как сборщик урлов, затем передать все в хром через селениум и парсить контент. Запишу как время будет

    • @emindergazz3003
      @emindergazz3003 3 ปีที่แล้ว +1

      @@SergeiBondarev7-seo Спасибо большое! Будем ждать. Отличный видос будет, редкий в русскоязычном сегменте.

    • @daddy_eddy
      @daddy_eddy 2 ปีที่แล้ว

      Делаешь from scrapy_splash import SplashRequest
      пишешь скрипт и передаешь его в функцию. И не нужен никакой Selenium

  • @garrig1925
    @garrig1925 2 ปีที่แล้ว

    С момента опубликования видео прошло 11 месяцев. Естественно повторить, проверить на практике парсинг не удалось (сайт изменился или ошибки). Есть ли рабочие примеры?

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว

      Наверное стоит взять за основу и сделать свое под нужный сайт?! Пока нет особого желания записывать новые видео.

    • @garrig1925
      @garrig1925 2 ปีที่แล้ว

      @@SergeiBondarev7-seo Что бы взять за основу нужно разобраться,поэтому и прошу выложить оригинальный текст программы

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว

      @@garrig1925 не знаю когда у меня будет время… вы не посмотрели видео внимательно, все работает в том числе на примере… если сложно, стоит посмотреть видео с более простым парсингом

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว

      @@garrig1925 все до ссылок повторяется везде, далее уже теги сами выдираете, через любой удобный метод

  • @coolbrain
    @coolbrain 3 ปีที่แล้ว

    Не понятно про RULES. /profnastil, 'index.php и прочее - это что? куски URL на которые паук не будет заходить? Или тэги в документе?

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  3 ปีที่แล้ว +1

      да, это куски урл нужных страниц

  • @vladimir7759
    @vladimir7759 2 ปีที่แล้ว

    привет , какой курс может посоветовать по scrapy? и курсы английского?)

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว

      По скрапи, никакой, в целом мое видео на 80% вопросов отвечает, чтобы начать. По английскому сам ищу достойный курс. Но вроде как есть канал english with james - огонь

    • @vladimir7759
      @vladimir7759 2 ปีที่แล้ว +1

      @@SergeiBondarev7-seo спасибо, я по скрапи тоже искал и ничего толкового не нашел, на русском книг вообще нет... но на сколько я понял скрапи на много эффективней супа если профессионально уходить в парсинг..

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว +1

      @@vladimir7759 где-то проще ковырять супом, где-то скрапи, с опытом сам решишь.

    • @TemurmalikZhuravlev
      @TemurmalikZhuravlev ปีที่แล้ว +1

      Похоже на стёб..)

  • @coolbrain
    @coolbrain 3 ปีที่แล้ว

    Есть мы alloy пустым оставим, он везде будет ходить или нигде ?

  • @Yuri-wk8rk
    @Yuri-wk8rk 3 ปีที่แล้ว +1

    Сергей, может выложить полный код парсинга ?

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  3 ปีที่แล้ว

      Смысл, если на видео все есть, и все равно придется его переписывать, т.к другая область будет

  • @kseniador_art
    @kseniador_art 10 หลายเดือนก่อน

    Ругается на строчку from newparce_project.items import Product. Все изменила везде, но пишет Unresolved reference 'newpace_project' и Unresolved reference 'Product'

  • @dmmeteo
    @dmmeteo 2 ปีที่แล้ว

    Scrapy не основан на Django. Вообще даже и близко. Scrapy работает на базе twisted.

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  2 ปีที่แล้ว

      Разные источники по разному пишут. Добавите что-то еще?

  • @АннаСкрипник-ь5з
    @АннаСкрипник-ь5з 3 ปีที่แล้ว

    Добрый день. Выдает ошибку: ModuleNotFoundError: No module named 'parsing.settings'
    И не могу понять, что не так с items и Product в импорте, их подчеркивает как ошибку..( Может кто-то подскажет в чем проблем?!

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  3 ปีที่แล้ว

      Установите библиотеку scrapy items
      Проверьте путь в парсере при импорте корневая папка должна быть указана
      Или забейте и просто все переменные скрапи задайте в файле парсера
      Приложите код items и парсера

    • @АннаСкрипник-ь5з
      @АннаСкрипник-ь5з 3 ปีที่แล้ว

      @@SergeiBondarev7-seo код items:
      import scrapy
      class Krepezh(scrapy.Item):
      krepezh_url = scrapy.Field()

    • @АннаСкрипник-ь5з
      @АннаСкрипник-ь5з 3 ปีที่แล้ว

      @@SergeiBondarev7-seo библиотека scrapy items - установлена.
      корневая папка в парсере при импорте у меня "parsing"

  • @OleksiiHotven
    @OleksiiHotven ปีที่แล้ว

    Как сохранить полученные данные в базу данных? Как разместить Scrapy на хостинге? Как интегрировать Scrapy + Django?

    • @SergeiBondarev7-seo
      @SergeiBondarev7-seo  ปีที่แล้ว +2

      😁 поочереди в гугл вбить вопросы и получить ответы? вроде так работает...

  • @nikitaku43r99
    @nikitaku43r99 ปีที่แล้ว

    gen spidr я с этого момента чуть не умер

  • @user-fq4tq2rb4g
    @user-fq4tq2rb4g 4 หลายเดือนก่อน

    ты б хоть сайт показывал где что берешь и как

  • @TheJonvish
    @TheJonvish ปีที่แล้ว +1

    У меня кровь с ушей капает когда я слышу что то вроде итаймс или рулес))