![SmartData](/img/default-banner.jpg)
- 155
- 137 409
SmartData
เข้าร่วมเมื่อ 31 ก.ค. 2017
SmartData - конференция по инженерии данных (Conference on Data Engineering).
Конференция для дата-инженеров и тех, кто работает с большими данными. Эксперты из различных компаний обсуждают техническую конкретику по всем темам - от отказоустойчивости до MLOps.
Ближайшая конференция - SmartData 2024
4 сентября · online
8-9 сентября · Москва + трансляция
Подробнее о конференции - jrg.su/TIQNFm
Основные темы:
- MMP СУБД и хранилища данных
- SMP и специализированные СУБД
- Архетектура дата-платформ
- Data Processing
- DataOps
- Database Internals
- Data Management
- Cloud Solutions
- Миграция с одних инструментов и хранилищ в другие
- Дата-инженерия не для дата-инженеров
Конференция для дата-инженеров и тех, кто работает с большими данными. Эксперты из различных компаний обсуждают техническую конкретику по всем темам - от отказоустойчивости до MLOps.
Ближайшая конференция - SmartData 2024
4 сентября · online
8-9 сентября · Москва + трансляция
Подробнее о конференции - jrg.su/TIQNFm
Основные темы:
- MMP СУБД и хранилища данных
- SMP и специализированные СУБД
- Архетектура дата-платформ
- Data Processing
- DataOps
- Database Internals
- Data Management
- Cloud Solutions
- Миграция с одних инструментов и хранилищ в другие
- Дата-инженерия не для дата-инженеров
Павел Сивохин, Никита Зеленский, Константин Малыхин — Переезд с PostgreSQL на Data Lake в AWS
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва + трансляция).
Подробности и билеты: jrg.su/KFFBS7
- -
Скачать презентацию с сайта SmartData - jrg.su/wfeYIY
В Whoosh работают на стеке AWS - PostgreSQL, S3, Redshift, а все модели данных строят в dbt и немного Python. Этот год для команды инженеров данных можно назвать годом переезда. У них была глобальная идея переехать с одного хранилища (PostgreSQL) - а это включает в себя всю отчетность для бизнеса и модели dbt - на рельсы Data Lake. Цель - оптимизация расходов, потому что Аврора (PostgreSQL) записывает в расход каждый запрос, тогда как Redshift - это MPP колоночная БД, расходы которой постоянны - n$/час (и работает она быстрее, да). Однако вследствие переезда выяснилось, что для геозадач это решение не совсем подходит: Redshift строится на базе 8-й версии Postgres (внезапно!), которая недостаточно хорошо поддерживает работу с геометрией, обрезает значения в ячейке больше определенной длины и совсем не дружит с JSON-ключами.
В процессе дополнительно вы услышите про то, как они настроили свою работу и как планируют развиваться дальше.
Подробности и билеты: jrg.su/KFFBS7
- -
Скачать презентацию с сайта SmartData - jrg.su/wfeYIY
В Whoosh работают на стеке AWS - PostgreSQL, S3, Redshift, а все модели данных строят в dbt и немного Python. Этот год для команды инженеров данных можно назвать годом переезда. У них была глобальная идея переехать с одного хранилища (PostgreSQL) - а это включает в себя всю отчетность для бизнеса и модели dbt - на рельсы Data Lake. Цель - оптимизация расходов, потому что Аврора (PostgreSQL) записывает в расход каждый запрос, тогда как Redshift - это MPP колоночная БД, расходы которой постоянны - n$/час (и работает она быстрее, да). Однако вследствие переезда выяснилось, что для геозадач это решение не совсем подходит: Redshift строится на базе 8-й версии Postgres (внезапно!), которая недостаточно хорошо поддерживает работу с геометрией, обрезает значения в ячейке больше определенной длины и совсем не дружит с JSON-ключами.
В процессе дополнительно вы услышите про то, как они настроили свою работу и как планируют развиваться дальше.
มุมมอง: 212
วีดีโอ
Алина Кочева - Путь Model Serving: от Flask к своей платформе
มุมมอง 1564 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Доклад про путь, который проходит инженер, чтобы выбрать свое решение для Model Serving. Об облачных инструментах, готовых Inference Servers, их возможностях и критериях выбора.
Дана Злочевская, Михаил Нестеров - От сырого кликстрима к чистым датасетам. Feature Storage в Lamoda
มุมมอง 1154 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/tM9LU4 Доклад посвящен истории развития Feature Storage в Lamoda: инструменту для дата-аналитиков по работе с данными. Спикеры рассказывают, с какими проблемами столкнулись и как пришли к архитектуре, которая позво...
Максим Зиналь, Дмитрий Рыбалко - Как обрабатывать данные с помощью Spark в облаке
มุมมอง 2014 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/BVC3Cu Многие компании предпочитают выстраивать работу с большими данными на базе Spark, однако в последнее время выбор end-to-end решений, предоставляющих возможность работы на масштабируемых Spark-кластерах в Рос...
Михаил Марюфич - Hadoop в Облаке - это ОК
มุมมอง 1454 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Для OK Hadoop - это ключевой компонент инфраструктуры данных: он активно используется как для реализации продуктовой аналитики, так и для продакшена рекомендательных систем. С точки зрения объемов это более 200 PB в HDFS, 70k vcores, 200 TB RAM. Вся инфраструкт...
Павел Шестаков - Развитие инструмента BI-аналитики, DataOps.BI, на основе Apache Superset
มุมมอง 3894 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Спикер рассказывает об идее использования open source BI, про пилотирование различных решений, сбор команды BI-инструмента и развитие с учетом требований новых пользователей и команд, мигрирующих из проприетарного ПО (Tableau, Power BI). Отдельно рассматриваютс...
Что не так с NoSQL?
มุมมอง 58711 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Стоит ли использовать термин NoSQL? Насколько корректно его использовать и есть ли моменты, когда он действительно нужен? Что скрывается за этим термином и почему им пользуются до сих пор? Пробуем ответить на эти вопросы - и не только в рамках обсуждения. Спике...
Data Maturity: 18+
มุมมอง 25611 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Насколько зрелая ваша компания с точки зрения работы с данными? Насколько прозрачны ваши процессы и взаимодействие с дата-командой? Знакомимся с методологией определения Data Maturity компаний, говорим о состоятельности данной методики и обсуждаем, позволяет ли...
Ну как там с рынком труда? Взгляд изнутри
มุมมอง 80011 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Как устроиться работать дата-инженером? Как нанимать дата-инженеров? Существует ли дефицит кадров? Что в целом происходит на рынке труда сейчас и чего ждать в будущем? Нанимающие менеджеры, потенциальные кандидаты и HR-директор пробуют ответить на эти вопросы -...
Тренды Data Engineering от DEorDIE
มุมมอง 54611 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Тренды - это, может, и баззворд, но обсуждать их все равно важно, потому что они помогают сузить скоуп и быстрее ориентироваться в бескрайнем мире Data Engineering. Участники подкаста DEorDIE собрали тренды, которые кажутся им важными и на которые они бы хотели...
Николай Голов - Моделирование потоков событий в эволюционирующем окружении
มุมมอง 89718 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/KLHQok Представьте, что вы должны работать с потоком событий из внешних систем (кликстрим, веб-хуки и т. п.). Событий сотни и тысячи, формат каждого события отличается и со временем эволюционирует. Как организовать...
Михаил Благов - Эволюция схемы данных. Носим данные из реляционной СУБД в Hadoop
มุมมอง 49725 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/FD7Epx Знакома ли вам такая ситуация: построили замечательный ETL, витрины и красивые дашборды. На очередной отчетной встрече о работе вашей компании докладчик открывает дашборд, а там вместо графиков красные буквы...
Олег Кочергин - Пара слов о том, как мы Data Observability готовим
มุมมอง 41925 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Спикер рассказывает о вечной проблеме с качеством данных и о том, почему и каким образом их команда построила платформу качества данных в СберЗдоровье. Он раскрывает работу с great expectations, интеграцию с каталогом данных (DataHub) и рассказывает, что происх...
Александр Крашенинников - Обеспечение качественных ETL на Vertica
มุมมอง 57625 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/RdJwSa Стандартная практика при работе с аналитическими данными - это предоставление пользователям возможности создавать собственные ETL и ставить их на регулярное выполнение. Если этот процесс не контролировать, т...
Алексей Балехов - Как навести порядок в логировании продуктовых событий
มุมมอง 21925 วันที่ผ่านมา
Ближайшая конференция - SmartData 2024, 4 сентября (online), 8-9 сентября, (Москва трансляция). Подробности и билеты: jrg.su/KFFBS7 - - Скачать презентацию с сайта SmartData - jrg.su/KZSTIw В Окко 4 фронтенда, разрабатываемых независимыми командами. Каждый отправляет 20 типов событий. Ни один не делает это так, как хотели аналитики. Где-то поле не заполнили, где-то не так обозвали, где-то число...
А embedded остается такой же? У суперсет насколько я понимаю embeded достаточно ограничен
Уже вторая половина 2024, где open source))
а какие методы анализа данных вы используете в DataOpsBI? я сам недавно выбирал курсы по IT для улучшения своих навыков,рассматривал разные компании,но остановился на Skypro и не пожалел))
Rip bozo
Суперсет - огонь!
послушал, сложилось впечатление, что все по сути озвучили, что проблемой найма является дефицит высококвалифицированных низкооплачиваемых специалистов. Но выходы почему то все пытаются найти где-то в нематериальной стороне
что за журнал ВАК в части DE ?
Катя молодчина, в цель с правдой в резюме. Реально нет гиперсложных технологий, но поняв как хорошо кандидат знает то, что он написал в резюме, получается полный портрет. Кажется, что только с помощью резюме можно максимально быстро понять когнитивный потенциал и мотивацию.
HR неприятное впечатление оставляет, понты понтами с "международной компанией" и из релокантов-соевиков в Грузии и Армении
так а многие так выглядят "международные компании"
Если кто то, видя слова "международная компания", сам для себя читает это как "транснациональная корпорация", то что ж тут скажешь, кроме как читать внимательнее и не домысливать
Ниочем
Отличный доклад! Ну, первая половина, за что спасибо Александру! Ну а вторая - ммм, больше про хохотнуть с метафор) ну и самый первый довод, где с гордостью было заявлено про то, что человек мыслит бинарно... Ох, спасибо, но нет 😅
2023?
Презентация отдает 404. Поправьте, пожалуйста
Здравствуйте, спасибо, что сообщили! Поправили ссылку на презентацию 🙃
Все четко !
elt on spark ? did you hear about informatica or similar products?
It's stupid to write etl with select * from table and then with a wise face prove different life hacks of consequences resolution 😂
Спасибо! Классный доклад
Крутейший проект, странно что так мало интереса
Интересно почему всё не на YTsaurus сделали вместо ГП? И можно ли сейчас делать детальный слой на YTsaurus
Я предпочитаю spark+trino+iceberg для data lakehouse
спасибо за доклад, а чем библиотека astronomer cosmos для связки Airflow + dbt не подошла?)
ты про то что они использовали BashOperator вместо DbtOperator из либы cosmos?
Господи, какая ужасная не поставленная речь. Друзья вы хоть консультантов нанимайте, филологов.
Метрики не усложнились, они всегда были сложными. Как ты оценишь эффективность наружной рекламы, которая существует уже очень давно? Люди будут ходить мимо нее и сегодня, завтра, и через год. И бизнес понимает это и допускает в подобного рода данных какой-то уровень неопределенности. Но он точно не будет сидеть 50 лет и ждать, когда к нему дойдут все события, он подпишется на какой-то контракт, как ты и сам сказал. Поэтому график с завершением джобы все еще нагляднее, чем график прихода событий, поскольку он дает тебе понять, что в рамках твоего контракта он до тебя данные довел.
крч данные могут меняться, а в особенности продуктовые метрики, которые меняются долго. Поэтому нужно вводить на данные контракты. Нужно для того чтобы не вызывать иллюзии полноты данных у аналитиков и топ менеджмента
Как вы заебали со своей метафизикой. Полчаса искал что-то что перевернет мой взгляд, нашел только трепло которое наплело контекстов и выступило на сцене. Хочешь преподавать - преподавай лично. Хочешь заработать - выходи на сцену.
Максим - прекрасный рассказчик, спасибо за доклад. Первые 10 минут не перематывайте - весьма занимательно и позволяет целиком окунуться в проблематику
Первые 10 минут ни о чем... Перематываем
точно, собрал какую-то солянку из посторонних тем
шикааарно! спасибо ^__^
фирменное "ихние"😄
я не понял причину следственную связь: нет транзакций == теряются данные я представляю что транзакции нужны если ты записываешь несколько связанных сущностей одной операцией. Я так понимаю это не тот случай тогда остается вариант что может репликация там несинхронная Поясните пожалуйста что имело ввиду.
Классный доклад, с множеством технических деталей и честностью/откровенностью!
а перенос данных из вашего postgres в greenplum делаете через airbyte?
Интересно!
Легасов на конференции МАГАТЭ
28:25 Не понял, зачем перед бродкастом делать cache?
Хоть я большой фанат prefect все равно считаю что это отличный обзор.
Спасибо! А подскажите как реплицировать данные очереди на случай сбоя ноды? Ведь если одна нода отвалится, то все что на ней есть тоже пропадёт до ее восстановления?
Ольга: #вакансия #Аналитик #DWH #удаленно Москва Компания: РБ Текнолоджис Обязанности: изучение уже загруженных в хранилище данных; определение достаточности и поиск недостающих данных в источниках; наполнение модели ядра хранилища и проектирование витрин; составление ТЗ на разработку по формату команды + S2T мэппинг; создание прототипа в виде витрины на ограниченном объеме данных; Работа с Jira и Confluence. Организация работы на проекте: Agile: 3-х недельные спринты; участие в оценке задач и ретроспективах; ежедневный утренний митинг всей команды по текущим задачам + митинг по проекту. Требования: Высшее образование Опыт работы аналитиком данных/системным аналитиком на проектах DWH Желателен проектный опыт в финансовой сфере (банки, страховые компании) Опыт моделирования данных, знание типовых подходов моделирования DWH Знание SQL на продвинутом уровне Опыт работы с PostgreSQL Опыт работы с ETL инструментами на уровне аналитика (анализ трансформаций в джобах) Опыт разработки технических дизайнов (модель данных, бизнес-объекты, интеграции) Контроль соблюдения требований к архитектуре, техническим решениям, совместимости и других технических требований Способность обрабатывать и структурировать большой объем сложной информации, а также доступно и наглядно её презентовать Развитые коммуникативные навыки Желательные, но необязательные навыки: Опыт работы с SAS DI, SAS Enterprise Guide является преимуществом Опыт работы с Green Plum или другой MPP-платформой является преимуществом. Условия: Официальное оформление в аккредитованной IT-компании (отсрочка от мобилизации) Оплата ДМС Работа в команде с уникальной экспертизой Масштабные проекты, возможность профессионального и карьерного роста Рабочий день - пятидневка (гибрид или удалённо на Ваш выбор). Возможность работать с 10:00 - 19:00 по московскому времени. Офис 5 минут пешком от метро Павелецкая Зп до 280 000 gross . Контакт @OlichShi
Ольга: #вакансия #Аналитик #DWH #удаленно Москва Компания: РБ Текнолоджис Обязанности: изучение уже загруженных в хранилище данных; определение достаточности и поиск недостающих данных в источниках; наполнение модели ядра хранилища и проектирование витрин; составление ТЗ на разработку по формату команды + S2T мэппинг; создание прототипа в виде витрины на ограниченном объеме данных; Работа с Jira и Confluence. Организация работы на проекте: Agile: 3-х недельные спринты; участие в оценке задач и ретроспективах; ежедневный утренний митинг всей команды по текущим задачам + митинг по проекту. Требования: Высшее образование Опыт работы аналитиком данных/системным аналитиком на проектах DWH Желателен проектный опыт в финансовой сфере (банки, страховые компании) Опыт моделирования данных, знание типовых подходов моделирования DWH Знание SQL на продвинутом уровне Опыт работы с PostgreSQL Опыт работы с ETL инструментами на уровне аналитика (анализ трансформаций в джобах) Опыт разработки технических дизайнов (модель данных, бизнес-объекты, интеграции) Контроль соблюдения требований к архитектуре, техническим решениям, совместимости и других технических требований Способность обрабатывать и структурировать большой объем сложной информации, а также доступно и наглядно её презентовать Развитые коммуникативные навыки Желательные, но необязательные навыки: Опыт работы с SAS DI, SAS Enterprise Guide является преимуществом Опыт работы с Green Plum или другой MPP-платформой является преимуществом. Условия: Официальное оформление в аккредитованной IT-компании (отсрочка от мобилизации) Оплата ДМС Работа в команде с уникальной экспертизой Масштабные проекты, возможность профессионального и карьерного роста Рабочий день - пятидневка (гибрид или удалённо на Ваш выбор). Возможность работать с 10:00 - 19:00 по московскому времени. Офис 5 минут пешком от метро Павелецкая Зп до 280 000 gross . Контакт @OlichShi
"Если я это буду говорить без скриншотов, будет казаться, что я просто издеваюсь." - блин это очень смешно
Что-то мало лайков, нужно больше. Поражаюсь энтузиазму Ивана. Пользоваться открытыми данными мы все любим, а вот работают над тем, чтобы сделать их полезными и доступными, единицы.
Половина доклада это рассказ о буднях хромых разрабов с костылями
Очень информативно, спасибо! Есть возможность почитать ex-post обсуждения после?
Научите пацаненка говорить по-русски! ШедЮлер, Экзекютор, сущность, таска, экзэкьютинг- ужОс говорить на таком суржике
@@DAJakaRedAries после видимо стоит ставить запятую.
Очень интересный доклад
Спасибо!
какой же классный спикер
Интересно, а работает ли Exasol сейчас в России? Как я понимаю, как минимум, платить за Exasol из России весьма не просто. Если свой бизнес строить на платных зарубежных решениях, это в любой момент может сильно ударить по бизнесу. Западные компании на поверку оказались сильно политизированными и совсем не надежными.
Опен сорс рулит. Iceberg+Spark+Trino, нафиг все эти гринпламы и прочее г*вно.
Прикольно, не только у нас в банке пентаху ещё не выпилили. ЗЫ Спасибо за доклад, что-то интересное увидел. ЗЗЫ Олала, и репо на гитхабе есть, качнул, спасибо. Хотя, конечно, можо было бы ссылку в явном виде выложить.
Крутой доклад!
Отличный доклад, спасибо!