Guía para GUARDIAS e INCIDENTES en INGENIERÍA

แชร์
ฝัง
  • เผยแพร่เมื่อ 28 พ.ย. 2024

ความคิดเห็น • 50

  • @jlopezariza
    @jlopezariza 8 หลายเดือนก่อน +1

    he estado de guardia en diferentes servicios y creo que es el mejor resumen que se puede hacer.... por otra parte me gustaría añadir que es IMPORTANTE: hacer seguimiento de los postmortems ya que aunque tú lo hagas a conciencia, si no lo resuelves.... es como si no hubieras hecho nada!!Ç
    gracias pelado!

  • @HardyBeltran
    @HardyBeltran 5 หลายเดือนก่อน

    Gracias Pelado, excelente información basada en la experiencia. Y me gustó el cierre, lo más importante es el cliente.

  • @alerey4363
    @alerey4363 8 หลายเดือนก่อน

    555 eso depende exclusivamente de si es un equipo de stage o prod y sobre todo del impacto que genere un reboot; el tipo de alertas viene configurado en el runbook cuando se hace el build o cuando hay un uplift de un equipo; es ahi donde se especifica la criticidad de las alertas y el tiempo de respuesta.
    Porque tambien tienes un error en eso de que es importante atender la alerta para no despertar a juan; aca la prioridad es el SLA y si el contrato de mantenimiento/soporte implica un delay de 5 min en responder antes un reboot inesperado entonces la prioridad es restablecer todos los servicios/aplicaciones involucradas; los reboots en mi empresa siempre generan incidente y son los que tienen el tiempo mas corto de respuesta (por supuesto hablo de un reboot no programado; ha pasado que un weiver no se configuro y un server genero incidente por reboot luego de un patching).

  • @RicharMunicoSamaniego
    @RicharMunicoSamaniego 7 หลายเดือนก่อน

    PagerDuty es de los mejores, recuerdos ... lo integramos (para la resolución) con StackStorm/AWS System Manager (descartamos Rundeck)

  • @xan646
    @xan646 5 หลายเดือนก่อน

    Excelente video! Me hiciste acordar viejas épocas de guardias... Abrazo!

  • @fidelpalma5164
    @fidelpalma5164 8 หลายเดือนก่อน

    Super interesante! Teníamos un script en asterisk que chequeaba los sistemas y si había alguno caído, nos llamaba. No había presupuesto para uno de esos sistemas jajajaaj.

    • @fidelpalma5164
      @fidelpalma5164 8 หลายเดือนก่อน

      Y la rotación la hacíamos por semana, si la semana de la fecha era par, le caía a uno y si era impar, le caía a otro jaajaj

  • @skuldd
    @skuldd 7 หลายเดือนก่อน

    ¿Tienes algún listado de puntos negativos y destacables de PagerDuty, Opsgenie y VictorOps? Actualmente estoy creando una alternativa nueva a estas soluciones y no estaría mal oír cuál exactamente es tu inconformidad con estos productos. De antemano, ¡muchas gracias @PeladoNerd, es muy genial el contenido que haces! :)

  • @satoshinakamoto968
    @satoshinakamoto968 8 หลายเดือนก่อน +1

    La conclusion es que hay que evitar a toda costa un laburo con guardias on-duty. Me hace gracia que se traten las horas de descanso internamente, cuando te puedes pasar toda la semana sin dormir por la noche. Habría que invertir la carga de la prueba, si algun dia duermes, laburas.

  • @PaulWhiskey
    @PaulWhiskey 8 หลายเดือนก่อน

    Estuvo bueno el video, igual me toca hacer guardias, pero implementaron algo en teams en la parte de equipos para tomar las incidencias, saludos desde México.

  • @nyk077
    @nyk077 8 หลายเดือนก่อน +5

    Que tema para los que tenemos el sueño pesado, yo tenía que dormir con un reloj para que también me vibre porque no había manera de que escuche la alarma 😂

    • @PeladoNerd
      @PeladoNerd  8 หลายเดือนก่อน +2

      Me pasó con un compañero que conectaba unos parlantes para que le suene fuerte la llamada a la noche jaja

  • @jhonnathanaraujo7146
    @jhonnathanaraujo7146 8 หลายเดือนก่อน

    Muy buen video. ¿Tienes algún video sobre Grafana OnCall? También sería bueno que hablaras sobre el escalamiento.

  • @luiseduardoaraujobohorquez801
    @luiseduardoaraujobohorquez801 8 หลายเดือนก่อน +3

    Como se maneja los horarios de descanso luego de tener un incidente? Por que si me debo levantar a las 2 am y quedarme despierto hasta las 5 am (repreocupado de paso), y luego debo hacer horario laboral comun y corriente, es una tortura...

    • @PeladoNerd
      @PeladoNerd  8 หลายเดือนก่อน

      Se maneja internamente, en el vídeo comenté que eso lo podes charlar con tu mánager para tomarte la mañana o el día siguiente

    • @luiseduardoaraujobohorquez801
      @luiseduardoaraujobohorquez801 8 หลายเดือนก่อน

      @@PeladoNerd en mí caso soy mí propio mánager y mí propio jefe y a la vez mí propio explotador laboral jaja Tendré que flexibilizarme y tomarme la mañana entonces jaja

  • @luks1003
    @luks1003 8 หลายเดือนก่อน

    Hola pelado. Consulta estás enterado del incendio de un data Center del registro del automotor. Que nos podes explicar del tema. Para mí pasaron muchos día con incovenientes. Y supuestamente hoy tendría que estar todo funcionando. Alguna enseñanza con esta caso? Desde ya gracias!!

  • @Imnotacryptobro
    @Imnotacryptobro 8 หลายเดือนก่อน +3

    Jamás volvería a tener un laburo con guardias

  • @dos2ratosmas
    @dos2ratosmas 8 หลายเดือนก่อน

    Nunca estuve de guardia, pregunta, la semana que estas de guardia tambien trabajas en la tarde? es un desquicio.

  • @Desafecto
    @Desafecto 5 หลายเดือนก่อน

    Lo ideal es pagar bien las guardias y pagar por servicio atendido.
    Verás como el pobre Pedro llega a la oficina con una sonrisa en lugar de enfadado.

  • @sniperdaoud
    @sniperdaoud 8 หลายเดือนก่อน

    y si cae el sistema de alertas que haces ?

  • @luiseduardoaraujobohorquez801
    @luiseduardoaraujobohorquez801 8 หลายเดือนก่อน

    Che... QUE BUEN VÍDEO, aporta un MONTON

  • @Tony-so3xn
    @Tony-so3xn 8 หลายเดือนก่อน

    ¿Qué se sentirá trabajar en una empresa donde hay muchas responsabilidades y no solo un puñado de valientes que deben arreglarlo todo? Yo soy desarrollador y me han hablado por la madrugada para reparar el clúster de Kubernetes. Pero en fin, no siempre fue así. Después de la pandemia, es la realidad de muchos que trabajamos en negocios que reportan pérdidas.

    • @Tony-so3xn
      @Tony-so3xn 8 หลายเดือนก่อน

      ¡Nooo! Soy Pedro pero no quiero dar dislike

  • @PabloAnglat
    @PabloAnglat 8 หลายเดือนก่อน

    Me encantó este video Pablo!

  • @SantiagoMartinez-vb9hr
    @SantiagoMartinez-vb9hr 8 หลายเดือนก่อน

    Hola pelado, estudie para sysadmin y actualmente estoy trabajando como soporte técnico en una empresa de internet, como tendria que ser mi guía de aprendizaje para llegar a ser sysadmin?

    • @PeladoNerd
      @PeladoNerd  8 หลายเดือนก่อน +3

      roadmap.sh/devops

  • @eliaspizarro0015
    @eliaspizarro0015 8 หลายเดือนก่อน

    La idea del video se puede aplicar para otras plataformas de monitoreo como zabbix

  • @raulmunoz3878
    @raulmunoz3878 8 หลายเดือนก่อน

    nosotros tenemos un recurso en india, asiq no hacemos 24/7, el hindu nos cubre en la noche🎉

  • @rclaros
    @rclaros 8 หลายเดือนก่อน

    Excelente aporte

  • @agcb8969
    @agcb8969 8 หลายเดือนก่อน

    Gracias!

  • @curiosocodigo3480
    @curiosocodigo3480 8 หลายเดือนก่อน

    y en fin de año como se hace

  • @Juan-ey4np
    @Juan-ey4np 8 หลายเดือนก่อน +4

    Jajajaja me parto con tus vídeos, la verdad que en un mundo ideal sería como tú dices pero en mi mundo aunque esa semana no este de guardia como sea un problema un poco jodido terminan llamándome a mi😂

  • @martinburgos6404
    @martinburgos6404 8 หลายเดือนก่อน

    Pela consulta.
    Justo ahora estoy haciendo un sistema interno de comunicación con clientes e interna (account teams) cuando tenemos un incidente. Y la idea era crear un pequeño servicio de Python que escuche las alertas y en base a ciertos parámetros declarar automáticamente los incidentes.
    Mi idea es hacerlo con los logs, métricas y el sistema de alertas. Se te ocurre alguna sugerencia de usar alguna otra cosa?

    • @martinburgos6404
      @martinburgos6404 8 หลายเดือนก่อน

      La idea es automatizar la creación de incidentes. No se si te parece una buena idea?

    • @BrandalisseGabi
      @BrandalisseGabi 8 หลายเดือนก่อน

      Podés usar DataDog

  • @adremides
    @adremides 8 หลายเดือนก่อน

    ¡Con razón! Me tenía que llamar Juan para que me tengan algo de piedad

  • @JaminFernandez
    @JaminFernandez 8 หลายเดือนก่อน

    Excelente

  • @Kikindb
    @Kikindb 8 หลายเดือนก่อน

    Un tema muy importante muy poco hablado por la comunidad en español

  • @fpjorge87
    @fpjorge87 8 หลายเดือนก่อน

    Pelaooo. Trabajo en el noc de una empresa americana. Tambien hacemos algo de incident management. Yo soy el que te despierta a las 3 de la mañana. Jjaajajja

  • @b14ckh4wk3
    @b14ckh4wk3 8 หลายเดือนก่อน

    el 90% de incidentes se evitan no usando k8s

  • @CarlosGuillenHernandez12378
    @CarlosGuillenHernandez12378 8 หลายเดือนก่อน

    Todos somos Juan

  • @cristiangiambruni4210
    @cristiangiambruni4210 8 หลายเดือนก่อน +1

    Soy SRE (Simply Restart Everything 😅)

  • @gianibal
    @gianibal 8 หลายเดือนก่อน

    Yo uso nagios

  • @xmagcx1
    @xmagcx1 8 หลายเดือนก่อน +2

    pruebe apagar y prender, fin 😂

  • @carloscordobaruiz806
    @carloscordobaruiz806 8 หลายเดือนก่อน

    Faltó grafana on-call

  • @mayikx
    @mayikx 8 หลายเดือนก่อน

    Esa gente de desarrollo siempre tumba las aplicaciones. Son terribles.

  • @arturocardenas7095
    @arturocardenas7095 8 หลายเดือนก่อน

    Y ni se diga cuando trabajas con gente de India