ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ
ฝัง
- เผยแพร่เมื่อ 14 ต.ค. 2024
- На вебинаре хочу рассказать про появление Apache Spark, его применение в современном стеке дата-инструментов, а также на практике показать как запустить Spark на своём компьютере и написать первый ETL пайплайн!
🔔 План:
📌 Как и почему появился Apache Spark
📌 Какие задачи решает
📌 Основные концепции
📌 Практика 1 - установка и запуск PySpark локально
📌 SparkSQL API
📌 Практика 2 - делаем ETL в PySpark
📌 Q&A
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить новые видео и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале datalearn.ru/
👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.
Отличная вводная лекция по Spark 🙂
Таймкоды:
1:38 - План вебинара
3:05 - Для кого этот вебинар
3:48 - О спикере
5:00 - Начало. Пример задачи, под которую заточен Spark
11:59 - Что такое Spark?
17:36 - Модель распределенных вычислений в Spark
22:40 - Нужен ли Spark’y Hadoop?
22:25 - Практика. Установка Spark локально
27:04 - Установка Pyspark из pip
35:15 - Запуск Spark из Docker
38:26 - Запуск Spark в Google Colab
45:35 - Обзор собранной статистики о слушателях
46:00 - Q&A сессия
51:08 - Про режимы работы Spark
54:02 - Что можно делать в PySpark?
56:24 - Компоненты PySpark приложения
1:05:54 - Подробнее о DataFrame
1:08:41 - Читаем данные в DataFrame
1:15:08 - О трансформации данных
1:17:26 - О записи данных
1:18:54 - SQL в Spark
1:23:26 - Практика. DataFrame API
2:24:39 - DataFrame API: основные методы в использовании
2:25:36 - SQL functions: основные методы в использовании
2:27:40 - Общие принципы Spark приложения
2:34:08 - Q&A сессия
Спасибо тебе добрый человек =)
Великолепный материал для тех кто только начинает погружаться в PySpark. Благодарности ведущему и основателям канала
вообще классно всё объяснил - 3 часа как одно мгновение ... очень жду продолжение!
Сильный спикер, спасибо!
Лучшая вводная лекция, которую я видел. Но, ребята, что за звук? 2021й год и треск микрофона?! Вы серьезно?)
Прекрасная лекция, спасибо огромное!
Переношу все видео в Rutube, тоже канал Data Learn.
хороший эфир ...
авторам спасибо
Большое спасибо! Очень круто для понимания и знакомства с PySpark.
лучшее объяснение!
Ребята вы лучшие! Купила курс на gb, в итоге модуль про спарк изучаю по вашему видео)
Кайфовый вэбик. Вы как всегда на уровне бог. Спасибо Олегу!
Спасибо, долго искал что-то подобное на ру-ресусрах)
Отличный доклад! Гораздо лучше всяких индусов
вебинар огонь
Спасибо, очень полезная информация для ознакомления с PySpark. Как раз то что было нужно.
Отличное видео для начала работы с PySpark!
Есть вопрос по части, где нужно посчитать статистики по полю manufacturer_name.
Из моего опыта с СУБД и Pandas, очень плохой тон делать группировки по текстовым полям - они работают значительно медленнее чем по целочисленным полям / датам. Понимаю, что в видео поле manufacturer_name было выбрано для примера, но как в целом у спарка обстоят дела с группировкой по тестовым колонкам?
Спасибо. Для меня очень полезный материал. Особенно ценно, что на русском.
Прекрасно, это прям ну очень просится па мастеркласс по пайспар в какой- нибудб юдеми👍👍👍
Thanks for the introduction to the PySpark! It was very useful.
Замечательный стрим, спасибо
Спасибо, очень круто, хотелось бы продолжения ))
Спасибо за хороший контент.
Очень крутой доклад!
Респектище, помогло очень
Очень здорово, спасибо!
Интересно было бы ещё узнать, где чаще всего бывают затыки по производительнсти.
Спасибо, а когда продолжение? На ютубе одни вводные лекции для pyspark, а хотелось бы более глубокого погружения.
Привет. Кстати, как успехи с пайспарком?
Вообще мне показалось, что всего, что тут есть хватит для старта карьеры в этом стэке.
Сейчас пытаюсь стартовать в этом имея за плечами большой опыт на SQL и материал этого видео. ))
Спасибо большое! По ETL вообще мало чего есть в русскоязычном сегменте ютуба. На мой взгляд лучший способ передачи опыта - видео.
Питон немного изучал. Сейчас я PL/SQL разработчик, но думаю смещаться в ETL.
Дико привык к SQL. И все эти методы кажатся извращением. Вообще БД-шные спецы плюются на спарк и ORM
в spark можно писать и на sql
Шикарно
Очень круто! Добавим к модулю 7 DE-101!
ты забыл вставить ссылку в GIT
Как жаль, что ведущий вебинара не рассказал, что просто так ты не заинсталлишь Spark через pip install , если не создашь специальные системные переменные среды, а у лектора всё уже готовенько, а у него pyspark к моменту записи вебинара уже давно установлен был..
Огромное спасибо - было очень понятно! а где посмотреть презентацию и ссылки все на гит и т.д.?!
В чатике трансляции
Драйвер не распределяет данные между экзекьюторами, это делает Cluster manager
А ссылку на гитхаб в коменты скиньте пожалуйста😅
Привет. Спасибо большое за видео. Можно вопрос, будь ласка? я попробовала работать в сессии Спарка прямо из Визуал Студио Код - єто очень неудобно по ряду причин. Установила взяла отдельно Юпитер. но сессия Спарка в Юпитера не запускается. Єто невозможно или я что-то делаю не так?
Хм, а у меня сразу сохранило в одном файле json.... Что-то не так сделал?
норм
Очень много водяных рассуждений ни о чем. Очень много бэ, мэ, эээ.
"Я рассказываю так быстро" - ты серьзно?
запишешь лучше?