Лекция: Распределённые системы и observability I SRE Week I ШАД
ฝัง
- เผยแพร่เมื่อ 19 มิ.ย. 2024
- SRE Week 2024 l Лекция 4: Распределённые системы и observability. Инфраструктурные компоненты и средства диагностики распределённых систем
Спикер: Руслан Савченко, руководитель службы разработки динамических таблиц YTsaurus.
На лекции вы узнаете об инфраструктурных компонентах и средствах диагностики распределённых систем.
Скачать презентацию по лекции: disk.yandex.ru/d/xEVqraTDN7mJxg
Дополнительные материалы (статьи), о которых говорилось в лекции:
1. Alex Xu. System Design Interview - An insider's guide. Independently published, 2020. www.ozon.ru/product/system-de...
2. J. Moore. Stop Rate Limiting! Capacity Management Done Right. • "Stop Rate Limiting! C...
3. J. Petoff, N. Murphy, B. Beyer, C. Jones. Site Reliability Engineering: How Google Runs Production Systems. O'Relly Media Inc. 2016. www.oreilly.com/library/view/...
4. B. Beyer, N. R. Murphy, D.K. Rensin, K. Kawahara, S. Thorne. The Site Reliability Workbook. O'Relly Media Inc. 2018. www.oreilly.com/library/view/...
5. H. Zhou et. 2018. Overload Control for Scaling WeChat Microservices. SoCC '18. doi.org/10.1145/3267809.3267823
6. D. Rensin and A. Hilton. Using load shedding to survive a success disaster-CRE life lessons. Google Cloud Blog. 2016. cloud.google.com/blog/product...
7. Google Cloud’s Operations. Google Cloud Error Reporting. cloud.google.com/error-reporting
8. B.H. Sigelman et al. Dapper, a Large-Scale Distributed Systems Tracing Infrastructure. Google, Inc. 2010. research.google/pubs/dapper-a...
9. P. Vijayanathan. How Netflix Builds High Performance Applications at Global Scale. P99 Conf. 2023. www.p99conf.io/session/how-ne...
Другие лекции интенсива SRE Week:
Лекция 1: Введение. Как ломаются большие системы. Разбираем статистику поломок сервисов: th-cam.com/users/liveTBr01y66bvo?...
Лекция 2: Характеристики аппаратного обеспечения: CPU, память, диски и сеть: th-cam.com/users/liveKHnsyuEqERY?...
Лекция 3: Обзор утилит диагностики в командной строке Linux: th-cam.com/users/liveAqDnLf6xf0c?...
Лекция 5: Практика работы SRE. Чем приходится заниматься руками: SLO, capacity planning, алерты, дежурства, incident management, postmortem actions: th-cam.com/users/live758wXAx-bv8?...
Семинар 6.1: Настройка параметров ядра Linux: th-cam.com/users/liveI_mVU41I-YE?...
Семинар 6.2: Performance troubleshooting на практике: th-cam.com/users/lived0SZtSF5m4U?...
Узнать больше о Школе анализа данных можно на сайте: shad.yandex.ru/