he estado de guardia en diferentes servicios y creo que es el mejor resumen que se puede hacer.... por otra parte me gustaría añadir que es IMPORTANTE: hacer seguimiento de los postmortems ya que aunque tú lo hagas a conciencia, si no lo resuelves.... es como si no hubieras hecho nada!!Ç gracias pelado!
555 eso depende exclusivamente de si es un equipo de stage o prod y sobre todo del impacto que genere un reboot; el tipo de alertas viene configurado en el runbook cuando se hace el build o cuando hay un uplift de un equipo; es ahi donde se especifica la criticidad de las alertas y el tiempo de respuesta. Porque tambien tienes un error en eso de que es importante atender la alerta para no despertar a juan; aca la prioridad es el SLA y si el contrato de mantenimiento/soporte implica un delay de 5 min en responder antes un reboot inesperado entonces la prioridad es restablecer todos los servicios/aplicaciones involucradas; los reboots en mi empresa siempre generan incidente y son los que tienen el tiempo mas corto de respuesta (por supuesto hablo de un reboot no programado; ha pasado que un weiver no se configuro y un server genero incidente por reboot luego de un patching).
Super interesante! Teníamos un script en asterisk que chequeaba los sistemas y si había alguno caído, nos llamaba. No había presupuesto para uno de esos sistemas jajajaaj.
¿Tienes algún listado de puntos negativos y destacables de PagerDuty, Opsgenie y VictorOps? Actualmente estoy creando una alternativa nueva a estas soluciones y no estaría mal oír cuál exactamente es tu inconformidad con estos productos. De antemano, ¡muchas gracias @PeladoNerd, es muy genial el contenido que haces! :)
La conclusion es que hay que evitar a toda costa un laburo con guardias on-duty. Me hace gracia que se traten las horas de descanso internamente, cuando te puedes pasar toda la semana sin dormir por la noche. Habría que invertir la carga de la prueba, si algun dia duermes, laburas.
Estuvo bueno el video, igual me toca hacer guardias, pero implementaron algo en teams en la parte de equipos para tomar las incidencias, saludos desde México.
Que tema para los que tenemos el sueño pesado, yo tenía que dormir con un reloj para que también me vibre porque no había manera de que escuche la alarma 😂
Como se maneja los horarios de descanso luego de tener un incidente? Por que si me debo levantar a las 2 am y quedarme despierto hasta las 5 am (repreocupado de paso), y luego debo hacer horario laboral comun y corriente, es una tortura...
@@PeladoNerd en mí caso soy mí propio mánager y mí propio jefe y a la vez mí propio explotador laboral jaja Tendré que flexibilizarme y tomarme la mañana entonces jaja
Hola pelado. Consulta estás enterado del incendio de un data Center del registro del automotor. Que nos podes explicar del tema. Para mí pasaron muchos día con incovenientes. Y supuestamente hoy tendría que estar todo funcionando. Alguna enseñanza con esta caso? Desde ya gracias!!
¿Qué se sentirá trabajar en una empresa donde hay muchas responsabilidades y no solo un puñado de valientes que deben arreglarlo todo? Yo soy desarrollador y me han hablado por la madrugada para reparar el clúster de Kubernetes. Pero en fin, no siempre fue así. Después de la pandemia, es la realidad de muchos que trabajamos en negocios que reportan pérdidas.
Hola pelado, estudie para sysadmin y actualmente estoy trabajando como soporte técnico en una empresa de internet, como tendria que ser mi guía de aprendizaje para llegar a ser sysadmin?
Jajajaja me parto con tus vídeos, la verdad que en un mundo ideal sería como tú dices pero en mi mundo aunque esa semana no este de guardia como sea un problema un poco jodido terminan llamándome a mi😂
Pela consulta. Justo ahora estoy haciendo un sistema interno de comunicación con clientes e interna (account teams) cuando tenemos un incidente. Y la idea era crear un pequeño servicio de Python que escuche las alertas y en base a ciertos parámetros declarar automáticamente los incidentes. Mi idea es hacerlo con los logs, métricas y el sistema de alertas. Se te ocurre alguna sugerencia de usar alguna otra cosa?
Pelaooo. Trabajo en el noc de una empresa americana. Tambien hacemos algo de incident management. Yo soy el que te despierta a las 3 de la mañana. Jjaajajja
he estado de guardia en diferentes servicios y creo que es el mejor resumen que se puede hacer.... por otra parte me gustaría añadir que es IMPORTANTE: hacer seguimiento de los postmortems ya que aunque tú lo hagas a conciencia, si no lo resuelves.... es como si no hubieras hecho nada!!Ç
gracias pelado!
Gracias Pelado, excelente información basada en la experiencia. Y me gustó el cierre, lo más importante es el cliente.
555 eso depende exclusivamente de si es un equipo de stage o prod y sobre todo del impacto que genere un reboot; el tipo de alertas viene configurado en el runbook cuando se hace el build o cuando hay un uplift de un equipo; es ahi donde se especifica la criticidad de las alertas y el tiempo de respuesta.
Porque tambien tienes un error en eso de que es importante atender la alerta para no despertar a juan; aca la prioridad es el SLA y si el contrato de mantenimiento/soporte implica un delay de 5 min en responder antes un reboot inesperado entonces la prioridad es restablecer todos los servicios/aplicaciones involucradas; los reboots en mi empresa siempre generan incidente y son los que tienen el tiempo mas corto de respuesta (por supuesto hablo de un reboot no programado; ha pasado que un weiver no se configuro y un server genero incidente por reboot luego de un patching).
PagerDuty es de los mejores, recuerdos ... lo integramos (para la resolución) con StackStorm/AWS System Manager (descartamos Rundeck)
Excelente video! Me hiciste acordar viejas épocas de guardias... Abrazo!
Super interesante! Teníamos un script en asterisk que chequeaba los sistemas y si había alguno caído, nos llamaba. No había presupuesto para uno de esos sistemas jajajaaj.
Y la rotación la hacíamos por semana, si la semana de la fecha era par, le caía a uno y si era impar, le caía a otro jaajaj
¿Tienes algún listado de puntos negativos y destacables de PagerDuty, Opsgenie y VictorOps? Actualmente estoy creando una alternativa nueva a estas soluciones y no estaría mal oír cuál exactamente es tu inconformidad con estos productos. De antemano, ¡muchas gracias @PeladoNerd, es muy genial el contenido que haces! :)
La conclusion es que hay que evitar a toda costa un laburo con guardias on-duty. Me hace gracia que se traten las horas de descanso internamente, cuando te puedes pasar toda la semana sin dormir por la noche. Habría que invertir la carga de la prueba, si algun dia duermes, laburas.
Estuvo bueno el video, igual me toca hacer guardias, pero implementaron algo en teams en la parte de equipos para tomar las incidencias, saludos desde México.
Que tema para los que tenemos el sueño pesado, yo tenía que dormir con un reloj para que también me vibre porque no había manera de que escuche la alarma 😂
Me pasó con un compañero que conectaba unos parlantes para que le suene fuerte la llamada a la noche jaja
Muy buen video. ¿Tienes algún video sobre Grafana OnCall? También sería bueno que hablaras sobre el escalamiento.
Como se maneja los horarios de descanso luego de tener un incidente? Por que si me debo levantar a las 2 am y quedarme despierto hasta las 5 am (repreocupado de paso), y luego debo hacer horario laboral comun y corriente, es una tortura...
Se maneja internamente, en el vídeo comenté que eso lo podes charlar con tu mánager para tomarte la mañana o el día siguiente
@@PeladoNerd en mí caso soy mí propio mánager y mí propio jefe y a la vez mí propio explotador laboral jaja Tendré que flexibilizarme y tomarme la mañana entonces jaja
Hola pelado. Consulta estás enterado del incendio de un data Center del registro del automotor. Que nos podes explicar del tema. Para mí pasaron muchos día con incovenientes. Y supuestamente hoy tendría que estar todo funcionando. Alguna enseñanza con esta caso? Desde ya gracias!!
Jamás volvería a tener un laburo con guardias
Nunca estuve de guardia, pregunta, la semana que estas de guardia tambien trabajas en la tarde? es un desquicio.
Lo ideal es pagar bien las guardias y pagar por servicio atendido.
Verás como el pobre Pedro llega a la oficina con una sonrisa en lugar de enfadado.
y si cae el sistema de alertas que haces ?
Che... QUE BUEN VÍDEO, aporta un MONTON
¿Qué se sentirá trabajar en una empresa donde hay muchas responsabilidades y no solo un puñado de valientes que deben arreglarlo todo? Yo soy desarrollador y me han hablado por la madrugada para reparar el clúster de Kubernetes. Pero en fin, no siempre fue así. Después de la pandemia, es la realidad de muchos que trabajamos en negocios que reportan pérdidas.
¡Nooo! Soy Pedro pero no quiero dar dislike
Me encantó este video Pablo!
Hola pelado, estudie para sysadmin y actualmente estoy trabajando como soporte técnico en una empresa de internet, como tendria que ser mi guía de aprendizaje para llegar a ser sysadmin?
roadmap.sh/devops
La idea del video se puede aplicar para otras plataformas de monitoreo como zabbix
nosotros tenemos un recurso en india, asiq no hacemos 24/7, el hindu nos cubre en la noche🎉
Excelente aporte
Gracias!
y en fin de año como se hace
Jajajaja me parto con tus vídeos, la verdad que en un mundo ideal sería como tú dices pero en mi mundo aunque esa semana no este de guardia como sea un problema un poco jodido terminan llamándome a mi😂
Pela consulta.
Justo ahora estoy haciendo un sistema interno de comunicación con clientes e interna (account teams) cuando tenemos un incidente. Y la idea era crear un pequeño servicio de Python que escuche las alertas y en base a ciertos parámetros declarar automáticamente los incidentes.
Mi idea es hacerlo con los logs, métricas y el sistema de alertas. Se te ocurre alguna sugerencia de usar alguna otra cosa?
La idea es automatizar la creación de incidentes. No se si te parece una buena idea?
Podés usar DataDog
¡Con razón! Me tenía que llamar Juan para que me tengan algo de piedad
Excelente
Un tema muy importante muy poco hablado por la comunidad en español
Pelaooo. Trabajo en el noc de una empresa americana. Tambien hacemos algo de incident management. Yo soy el que te despierta a las 3 de la mañana. Jjaajajja
el 90% de incidentes se evitan no usando k8s
Todos somos Juan
Soy SRE (Simply Restart Everything 😅)
Yo uso nagios
pruebe apagar y prender, fin 😂
X2
Faltó grafana on-call
Esa gente de desarrollo siempre tumba las aplicaciones. Son terribles.
Y ni se diga cuando trabajas con gente de India