Muchas gracias por este vídeo, me ayudó muchísimo para el análisis estadístico de unos datos problemáticos que tenía como resultados en mi Tesis de grado. Es muy cierto lo que dices de que la media es muy susceptible a los outliers, y precisamente este procedimiento que empleaste fue el que me ayudó a resolver los problemas que tenía, gracias!
Hola. ¿Qué pasaría si aplicáramos repetidamente el método z-score, eliminando los valores atípicos encontrados en la iteración anterior hasta llegar a un conjunto de datos sin valores atípicos? ¿Sería esto viable desde el punto de vista estadístico? Gracias
Técnicamente se podría hacer, pero eso implicaría eliminar datos sólo por eliminar datos atípicos. Los datos atípicos NO SON información innecesaria, a veces los datos atípicos pueden ser la información relevante. Lo que deberíamos valorar es ¿qué representa un dato atípico? y ¿qué valor aporta a nuestro análisis? Por ejemplo digamos que quieres confeccionar sillas para venderlas a alguna empresa que compra muchas sillas. Y para esto la empresa manda la estatura de todos sus trabajadores. Bien simple, sacas el promedio y diseñas una silla para la estatura promedio. Pero si revisas los datos hay 3 personas que miden por ejemplo menos de 120 cm. ¿Qué haces con esos 3 datos atípicos? Si los eliminas probablemente la media apenas se modifique. Pero también podrías hacer 3 sillas para personas de talla pequeña y con eso ganarte la confianza de la empresa y todas las futuras compras de ella. Otro ejemplo es que si tienes los datos de la temperatura corporal de una persona probablemente el dato que interese es cuando esté atípcamente alta (que sería el comienzo de una enfermedad por ejemplo); si fuera glucosa en sangre te interesaría saber los días en que estuvieron atipicamente alta o atipicamente baja. En resumen el manejo de los datos atípicos es para saber que están ahí y visualizar que están representando. Si es un dato ilógico o errores de tipeo deberíamos eliminarlos, pero en todos los otros caos debemos "Explorarlos"
Hola, estos son los autores que se mencionan en el video para el cálculo. Saludos! Tukey, J.W. (1977). Exploratory Data Analysis. Reading, MA: Addison-Wesley. Hoaglin, D.C., Iglewicz, B., and Tukey, J.W. (1986). Performance of some resistant rules for outlier labeling, Journal of American Statistical Association, 81, 991-999. Hoaglin, D. C., and Iglewicz, B. (1987), Fine tuning some resistant rules for outlier labeling, Journal of American Statistical Association, 82, 1147-1149.
Feron los mismos autores que pleantearon el 1.5 inicialmente quienes presentaron una corrección explicando que el 2.2 funcionaba mejor. Estos son los trabajos originales. Tukey, J.W. (1977). Exploratory Data Analysis. Reading, MA: Addison-Wesley. Hoaglin, D.C., Iglewicz, B., and Tukey, J.W. (1986). Performance of some resistant rules for outlier labeling, Journal of American Statistical Association, 81, 991-999. Hoaglin, D. C., and Iglewicz, B. (1987), Fine tuning some resistant rules for outlier labeling, Journal of American Statistical Association, 82, 1147-1149.
Explicas excelente. Te felicito
Muchas gracias por este vídeo, me ayudó muchísimo para el análisis estadístico de unos datos problemáticos que tenía como resultados en mi Tesis de grado. Es muy cierto lo que dices de que la media es muy susceptible a los outliers, y precisamente este procedimiento que empleaste fue el que me ayudó a resolver los problemas que tenía, gracias!
Que bueno 😀
muy buen video... gracias por esta valiosa información.
tienes un nuevo suscriptor y un merecido LIKE
saludos desde Perú
Muchas grácias! seguiremos subiendo contenidos
Excelente video, me ayudo mucho... muchas gracias..
¡Muchísimas gracias! Ha sido bastante claro y de mucha ayuda.
como se llama esta metodologia
Excelente video…!!!
muy buen vídeo!
de mucha ayuda, gracias
Hola, gracias por compartir. ¿Cómo se interpreta el método de análisis de cuartiles?¿Cuáles serían los datos atípicos?
Hola. ¿Qué pasaría si aplicáramos repetidamente el método z-score, eliminando los valores atípicos encontrados en la iteración anterior hasta llegar a un conjunto de datos sin valores atípicos? ¿Sería esto viable desde el punto de vista estadístico? Gracias
Técnicamente se podría hacer, pero eso implicaría eliminar datos sólo por eliminar datos atípicos. Los datos atípicos NO SON información innecesaria, a veces los datos atípicos pueden ser la información relevante.
Lo que deberíamos valorar es ¿qué representa un dato atípico? y ¿qué valor aporta a nuestro análisis?
Por ejemplo digamos que quieres confeccionar sillas para venderlas a alguna empresa que compra muchas sillas. Y para esto la empresa manda la estatura de todos sus trabajadores.
Bien simple, sacas el promedio y diseñas una silla para la estatura promedio.
Pero si revisas los datos hay 3 personas que miden por ejemplo menos de 120 cm. ¿Qué haces con esos 3 datos atípicos?
Si los eliminas probablemente la media apenas se modifique. Pero también podrías hacer 3 sillas para personas de talla pequeña y con eso ganarte la confianza de la empresa y todas las futuras compras de ella.
Otro ejemplo es que si tienes los datos de la temperatura corporal de una persona probablemente el dato que interese es cuando esté atípcamente alta (que sería el comienzo de una enfermedad por ejemplo); si fuera glucosa en sangre te interesaría saber los días en que estuvieron atipicamente alta o atipicamente baja.
En resumen el manejo de los datos atípicos es para saber que están ahí y visualizar que están representando. Si es un dato ilógico o errores de tipeo deberíamos eliminarlos, pero en todos los otros caos debemos "Explorarlos"
@@EstadisticaSalud He entendido la explicación. Gracias por la respuesta.
@@EstadisticaSalud He entendido la explicación. Muchas gracias.
Hola! Excelente video! me gustaría saber cual es tu fuente del desarrollo explicado por favor, es decir la bibliografía y el método empleado.
Hola, estos son los autores que se mencionan en el video para el cálculo. Saludos!
Tukey, J.W. (1977). Exploratory Data Analysis. Reading, MA: Addison-Wesley.
Hoaglin, D.C., Iglewicz, B., and Tukey, J.W. (1986). Performance of some resistant rules for outlier labeling, Journal of American Statistical Association, 81, 991-999.
Hoaglin, D. C., and Iglewicz, B. (1987), Fine tuning some resistant rules for outlier labeling, Journal of American Statistical Association, 82, 1147-1149.
Un video practico, mi pregunta porque ahora es 2.2 cual fue el criterio de cambio con respecto a 1.5, podria explicar este factor. Gracias
Feron los mismos autores que pleantearon el 1.5 inicialmente quienes presentaron una corrección explicando que el 2.2 funcionaba mejor.
Estos son los trabajos originales.
Tukey, J.W. (1977). Exploratory Data Analysis. Reading, MA: Addison-Wesley.
Hoaglin, D.C., Iglewicz, B., and Tukey, J.W. (1986). Performance of some resistant rules for outlier labeling, Journal of American Statistical Association, 81, 991-999.
Hoaglin, D. C., and Iglewicz, B. (1987), Fine tuning some resistant rules for outlier labeling, Journal of American Statistical Association, 82, 1147-1149.
¿Cómo se llama la metodología?
La de los cuartilos métodod e Tukey , las de desviación estándar z-score