Максим Зиналь, Дмитрий Рыбалко - Как обрабатывать данные с помощью Spark в облаке

แชร์
ฝัง
  • เผยแพร่เมื่อ 5 ก.ย. 2024
  • Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
    Подробности и билеты: jrg.su/KFFBS7
    - -
    Скачать презентацию с сайта SmartData - jrg.su/BVC3Cu
    Многие компании предпочитают выстраивать работу с большими данными на базе Spark, однако в последнее время выбор end-to-end решений, предоставляющих возможность работы на масштабируемых Spark-кластерах в России, оказался ограниченным. Yandex Cloud предоставляет стек технологий, которые закрывают большую часть необходимой функциональности и позволяют параллельно обрабатывать данные с помощью Spark.
    Из доклада вы узнаете:
    - Как можно выстроить пайплайн обработки данных с помощью сервисов облака (DataProc и DataSphere), настроить взаимодействие со Spark-кластером через Jupyter-ноутбуки и почему удобно делать это в managed-сервисах.
    - Как можно научить систему поднимать кластер под вас - именно тогда, когда он нужен, и экономить на этом.
    - С какими сложностями сталкиваются компании при миграции, и какие пути решений они находят.
    - Какие особенности есть у облачных сервисов.
    - К чему надо быть готовым и какие могут понадобиться доработки.
    Отдельный акцент сделан на взаимодействии инструментов для ML-разработки и кластера Spark.
    Целевая аудитория: дата-инженеры, дата-сайентисты, аналитики.

ความคิดเห็น •