ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ

แชร์
ฝัง
  • เผยแพร่เมื่อ 14 ต.ค. 2024
  • На вебинаре хочу рассказать про появление Apache Spark, его применение в современном стеке дата-инструментов, а также на практике показать как запустить Spark на своём компьютере и написать первый ETL пайплайн!
    🔔 План:
    📌 Как и почему появился Apache Spark
    📌 Какие задачи решает
    📌 Основные концепции
    📌 Практика 1 - установка и запуск PySpark локально
    📌 SparkSQL API
    📌 Практика 2 - делаем ETL в PySpark
    📌 Q&A
    🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить новые видео и ставьте лайки!
    📕 Записывайтесь и проходите курс Инженера Данных.
    ⚠️ КУРС БЕСПЛАТНЫЙ!
    🔗 Записаться вы можете на нашем портале datalearn.ru/
    👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.

ความคิดเห็น • 54

  • @illiakaltovich
    @illiakaltovich 2 ปีที่แล้ว +24

    Отличная вводная лекция по Spark 🙂
    Таймкоды:
    1:38 - План вебинара
    3:05 - Для кого этот вебинар
    3:48 - О спикере
    5:00 - Начало. Пример задачи, под которую заточен Spark
    11:59 - Что такое Spark?
    17:36 - Модель распределенных вычислений в Spark
    22:40 - Нужен ли Spark’y Hadoop?
    22:25 - Практика. Установка Spark локально
    27:04 - Установка Pyspark из pip
    35:15 - Запуск Spark из Docker
    38:26 - Запуск Spark в Google Colab
    45:35 - Обзор собранной статистики о слушателях
    46:00 - Q&A сессия
    51:08 - Про режимы работы Spark
    54:02 - Что можно делать в PySpark?
    56:24 - Компоненты PySpark приложения
    1:05:54 - Подробнее о DataFrame
    1:08:41 - Читаем данные в DataFrame
    1:15:08 - О трансформации данных
    1:17:26 - О записи данных
    1:18:54 - SQL в Spark
    1:23:26 - Практика. DataFrame API
    2:24:39 - DataFrame API: основные методы в использовании
    2:25:36 - SQL functions: основные методы в использовании
    2:27:40 - Общие принципы Spark приложения
    2:34:08 - Q&A сессия

    • @annicioua
      @annicioua ปีที่แล้ว +2

      Спасибо тебе добрый человек =)

  • @ManticoreRoko
    @ManticoreRoko ปีที่แล้ว +6

    Великолепный материал для тех кто только начинает погружаться в PySpark. Благодарности ведущему и основателям канала

  • @olegzaba4756
    @olegzaba4756 2 ปีที่แล้ว +7

    вообще классно всё объяснил - 3 часа как одно мгновение ... очень жду продолжение!

  • @АлександрДергилёв-п8х
    @АлександрДергилёв-п8х 2 ปีที่แล้ว +7

    Сильный спикер, спасибо!

  • @Юрий-б2ф4з
    @Юрий-б2ф4з 2 ปีที่แล้ว +2

    Лучшая вводная лекция, которую я видел. Но, ребята, что за звук? 2021й год и треск микрофона?! Вы серьезно?)

  • @АндрейКадетов-н3р
    @АндрейКадетов-н3р หลายเดือนก่อน

    Прекрасная лекция, спасибо огромное!

    • @datalearn4398
      @datalearn4398  5 วันที่ผ่านมา

      Переношу все видео в Rutube, тоже канал Data Learn.

  • @bbbkkk930
    @bbbkkk930 ปีที่แล้ว

    хороший эфир ...
    авторам спасибо

  • @sergeystrikanov2302
    @sergeystrikanov2302 2 ปีที่แล้ว +2

    Большое спасибо! Очень круто для понимания и знакомства с PySpark.

  • @gpankov
    @gpankov 9 หลายเดือนก่อน

    лучшее объяснение!

  • @254598
    @254598 2 ปีที่แล้ว +1

    Ребята вы лучшие! Купила курс на gb, в итоге модуль про спарк изучаю по вашему видео)

  • @ДмитрийВолишевский
    @ДмитрийВолишевский ปีที่แล้ว

    Кайфовый вэбик. Вы как всегда на уровне бог. Спасибо Олегу!

  • @НикитаКульков-м5ф
    @НикитаКульков-м5ф 3 ปีที่แล้ว +1

    Спасибо, долго искал что-то подобное на ру-ресусрах)

  • @lex83641
    @lex83641 2 ปีที่แล้ว

    Отличный доклад! Гораздо лучше всяких индусов

  • @lerosh7894
    @lerosh7894 ปีที่แล้ว

    вебинар огонь

  • @anastasiyaivanova6992
    @anastasiyaivanova6992 3 ปีที่แล้ว +1

    Спасибо, очень полезная информация для ознакомления с PySpark. Как раз то что было нужно.

  • @Vanzer77
    @Vanzer77 2 ปีที่แล้ว +8

    Отличное видео для начала работы с PySpark!
    Есть вопрос по части, где нужно посчитать статистики по полю manufacturer_name.
    Из моего опыта с СУБД и Pandas, очень плохой тон делать группировки по текстовым полям - они работают значительно медленнее чем по целочисленным полям / датам. Понимаю, что в видео поле manufacturer_name было выбрано для примера, но как в целом у спарка обстоят дела с группировкой по тестовым колонкам?

  • @vandriichuk
    @vandriichuk 3 ปีที่แล้ว +1

    Спасибо. Для меня очень полезный материал. Особенно ценно, что на русском.

  • @denisbaranoff
    @denisbaranoff 2 ปีที่แล้ว

    Прекрасно, это прям ну очень просится па мастеркласс по пайспар в какой- нибудб юдеми👍👍👍

  • @petrodyak
    @petrodyak 2 ปีที่แล้ว

    Thanks for the introduction to the PySpark! It was very useful.

  • @aliaksandrsiamenau9922
    @aliaksandrsiamenau9922 2 ปีที่แล้ว

    Замечательный стрим, спасибо

  • @igorbulenko6335
    @igorbulenko6335 2 ปีที่แล้ว

    Спасибо, очень круто, хотелось бы продолжения ))

  • @faizalimuhammadzoda4731
    @faizalimuhammadzoda4731 2 ปีที่แล้ว

    Спасибо за хороший контент.

  • @itrunner
    @itrunner 2 ปีที่แล้ว

    Очень крутой доклад!

  • @nikitakrutikov9697
    @nikitakrutikov9697 2 ปีที่แล้ว

    Респектище, помогло очень

  • @salivona
    @salivona 2 ปีที่แล้ว

    Очень здорово, спасибо!

  • @maksimkuznetsov2132
    @maksimkuznetsov2132 ปีที่แล้ว

    Интересно было бы ещё узнать, где чаще всего бывают затыки по производительнсти.

  • @Asylum_M
    @Asylum_M 2 ปีที่แล้ว +2

    Спасибо, а когда продолжение? На ютубе одни вводные лекции для pyspark, а хотелось бы более глубокого погружения.

    • @maksimkuznetsov2132
      @maksimkuznetsov2132 9 หลายเดือนก่อน

      Привет. Кстати, как успехи с пайспарком?
      Вообще мне показалось, что всего, что тут есть хватит для старта карьеры в этом стэке.
      Сейчас пытаюсь стартовать в этом имея за плечами большой опыт на SQL и материал этого видео. ))

  • @maksimkuznetsov2132
    @maksimkuznetsov2132 ปีที่แล้ว +1

    Спасибо большое! По ETL вообще мало чего есть в русскоязычном сегменте ютуба. На мой взгляд лучший способ передачи опыта - видео.
    Питон немного изучал. Сейчас я PL/SQL разработчик, но думаю смещаться в ETL.
    Дико привык к SQL. И все эти методы кажатся извращением. Вообще БД-шные спецы плюются на спарк и ORM

    • @529aff
      @529aff 8 หลายเดือนก่อน

      в spark можно писать и на sql

  • @ДмитрийАверьянов-щ4г
    @ДмитрийАверьянов-щ4г 2 ปีที่แล้ว

    Шикарно

  • @dmitryanoshin8004
    @dmitryanoshin8004 3 ปีที่แล้ว +3

    Очень круто! Добавим к модулю 7 DE-101!

    • @anton108
      @anton108 2 ปีที่แล้ว +2

      ты забыл вставить ссылку в GIT

  • @annicioua
    @annicioua ปีที่แล้ว +4

    Как жаль, что ведущий вебинара не рассказал, что просто так ты не заинсталлишь Spark через pip install , если не создашь специальные системные переменные среды, а у лектора всё уже готовенько, а у него pyspark к моменту записи вебинара уже давно установлен был..

  • @maksimsvirskiy6828
    @maksimsvirskiy6828 2 ปีที่แล้ว +1

    Огромное спасибо - было очень понятно! а где посмотреть презентацию и ссылки все на гит и т.д.?!

    • @Frezer911
      @Frezer911 ปีที่แล้ว

      В чатике трансляции

  • @antonboiko788
    @antonboiko788 ปีที่แล้ว

    Драйвер не распределяет данные между экзекьюторами, это делает Cluster manager

  • @volodink
    @volodink 7 หลายเดือนก่อน

    А ссылку на гитхаб в коменты скиньте пожалуйста😅

  • @qweras79
    @qweras79 ปีที่แล้ว

    Привет. Спасибо большое за видео. Можно вопрос, будь ласка? я попробовала работать в сессии Спарка прямо из Визуал Студио Код - єто очень неудобно по ряду причин. Установила взяла отдельно Юпитер. но сессия Спарка в Юпитера не запускается. Єто невозможно или я что-то делаю не так?

  • @Egor-sm4bl
    @Egor-sm4bl 2 ปีที่แล้ว +1

    Хм, а у меня сразу сохранило в одном файле json.... Что-то не так сделал?

  • @imoldpirate
    @imoldpirate ปีที่แล้ว

    норм

  • @cozyfootball
    @cozyfootball 11 หลายเดือนก่อน

    Очень много водяных рассуждений ни о чем. Очень много бэ, мэ, эээ.
    "Я рассказываю так быстро" - ты серьзно?

    • @529aff
      @529aff 8 หลายเดือนก่อน

      запишешь лучше?