Лекция: Распределённые системы и observability I SRE Week I ШАД

แชร์
ฝัง
  • เผยแพร่เมื่อ 19 มิ.ย. 2024
  • SRE Week 2024 l Лекция 4: Распределённые системы и observability. Инфраструктурные компоненты и средства диагностики распределённых систем
    Спикер: Руслан Савченко, руководитель службы разработки динамических таблиц YTsaurus.
    На лекции вы узнаете об инфраструктурных компонентах и средствах диагностики распределённых систем.
    Скачать презентацию по лекции: disk.yandex.ru/d/xEVqraTDN7mJxg
    Дополнительные материалы (статьи), о которых говорилось в лекции:
    1. Alex Xu. System Design Interview - An insider's guide. Independently published, 2020. www.ozon.ru/product/system-de...
    2. J. Moore. Stop Rate Limiting! Capacity Management Done Right. • "Stop Rate Limiting! C...
    3. J. Petoff, N. Murphy, B. Beyer, C. Jones. Site Reliability Engineering: How Google Runs Production Systems. O'Relly Media Inc. 2016. www.oreilly.com/library/view/...
    4. B. Beyer, N. R. Murphy, D.K. Rensin, K. Kawahara, S. Thorne. The Site Reliability Workbook. O'Relly Media Inc. 2018. www.oreilly.com/library/view/...
    5. H. Zhou et. 2018. Overload Control for Scaling WeChat Microservices. SoCC '18. doi.org/10.1145/3267809.3267823
    6. D. Rensin and A. Hilton. Using load shedding to survive a success disaster-CRE life lessons. Google Cloud Blog. 2016. cloud.google.com/blog/product...
    7. Google Cloud’s Operations. Google Cloud Error Reporting. cloud.google.com/error-reporting
    8. B.H. Sigelman et al. Dapper, a Large-Scale Distributed Systems Tracing Infrastructure. Google, Inc. 2010. research.google/pubs/dapper-a...
    9. P. Vijayanathan. How Netflix Builds High Performance Applications at Global Scale. P99 Conf. 2023. www.p99conf.io/session/how-ne...
    Другие лекции интенсива SRE Week:
    Лекция 1: Введение. Как ломаются большие системы. Разбираем статистику поломок сервисов: th-cam.com/users/liveTBr01y66bvo?...
    Лекция 2: Характеристики аппаратного обеспечения: CPU, память, диски и сеть: th-cam.com/users/liveKHnsyuEqERY?...
    Лекция 3: Обзор утилит диагностики в командной строке Linux: th-cam.com/users/liveAqDnLf6xf0c?...
    Лекция 5: Практика работы SRE. Чем приходится заниматься руками: SLO, capacity planning, алерты, дежурства, incident management, postmortem actions: th-cam.com/users/live758wXAx-bv8?...
    Семинар 6.1: Настройка параметров ядра Linux: th-cam.com/users/liveI_mVU41I-YE?...
    Семинар 6.2: Performance troubleshooting на практике: th-cam.com/users/lived0SZtSF5m4U?...
    Узнать больше о Школе анализа данных можно на сайте: shad.yandex.ru/

ความคิดเห็น •