Diagramas de Caja (BoxPlots) y Datos Anómalos (outliers) con la Prueba de Tukey en Python
ฝัง
- เผยแพร่เมื่อ 26 ก.ค. 2024
- Para citar este recurso educativo utiliza la siguiente referencia:
Gutiérrez-García, J.O. [Código Máquina]. (2021, 15 de Agosto). Diagramas de Caja (BoxPlots) y Datos Anómalos (outliers) con la Prueba de Tukey en Python [Video]. TH-cam. [Incluye aquí la URL del video].
********************************************
Para guiar tu aprendizaje, en este vínculo ( • Curso de Inteligencia ... ) se encuentra una guía secuencial para aprender:
1. Programación Básica con Python;
2. Manejo de Datos;
3. Visualización de Datos;
4. Análisis de Datos; y
5. Aprendizaje de Máquina y Ciencia de Datos.
********************************************
En este video se explica qué son los datos anómalos y qué efectos podrían tener en un análisis de datos y en la creación de modelos de aprendizaje de máquina. Además, se explica cómo visualizar y detectar datos anómalos utilizando boxplots y la Prueba de Tukey.
Índice del Video:
0:00 Qué son los datos anómalos
1:11 Creación de diagramas de caja
9:05 Boxplot mostrando datos anómalos
11:36 Regla empírica 68-95-99.7
14:11 Prueba de Tukey para detectar datos anómalos
Apoya a Código Máquina dando un Like, con un Super Gracias o visitando nuestra tienda en:
/ shop
El código del video está disponible en GitHub github.com/CodigoMaquina/code
#matplotlib #DataScience #visualización #python
Apoya a Código Máquina dando un Like, con un Super Gracias o visitando nuestra tienda en:
facebook.com/C0d1g0Maqu1na/shop
Gran contenido. Explicación sencilla, concisa y clara acerca del tema.
muchas gracias, excelente video
Código maquina, por creadores como tú es que tengo desactivado el bloqueador de anuncios en youtube. Super excelente contenido. Gracias por tanto.
Una explicación sumamente entendible y un material didáctico de gran valor. Muchas gracias por todo el contenido
Gracias por tomarte el tiempo de comentar Cesar, me alegra saber que el contenido es de tu agrado. Saludos!!
Que belleza de canal, mil gracias por el contenido 🙏👍
Muchas gracias por tus comentarios tan cálidos :)
Excelente Maestro Octavio, y en efecto no sabia como llamar a esos valores extra ordinarios que terminan inflando cuartiles y alejando el enfoque de los datos, considerando previamente la convención o regla de negocio para su aplicación. Agradezco su detallada y concisa explicación.👌
Muchas gracias por todos tus comentarios. Si te gusto este tema, te recomiendo que le eches un vistazo a la técnica de bosques de aislamiento que justo sirve para detectar datos atípicos: th-cam.com/video/n2PpD7xnPoM/w-d-xo.html
Gracias por este contenido!!!
Gracias a ti por comentar Gustavo. Saludos!!
Magnífica explicación.
Muchas gracias Eduardo :)
Muy buen video me gustaría aprender a arreglar cuando tengo datos atípicos
Gracias por tus comentarios. Para tratar datos atípicos, te recomiendo echarle un ojo al video de normalización, estandarización y escalamiento que tenemos en el canal:
th-cam.com/video/-VuR14Qyl7E/w-d-xo.html
También te recomiendo ver el siguiente video con otra técnica para detectar datos atípicos:
th-cam.com/video/n2PpD7xnPoM/w-d-xo.html
Gracias por seguir el contenido del canal.
Hola. Buen vídeo. ¿Cómo eliminar los registros que tienen datos atípicos? ¿Existe alguna librería?
Hola @HPenarandaBello gracias por la pregunta. Todo depende del contexto, pero aquí va un par de formas: 1) Usando un escalador robusto (favor de ver el siguiente video th-cam.com/video/-VuR14Qyl7E/w-d-xo.html) 2) o aplicando filtros (favor de ver el siguiente video th-cam.com/video/U-7Q-koi-Cc/w-d-xo.html). De hecho, con filtros se podría definir un valor por defecto que reemplace a los datos atípicos de la siguiente manera:
import numpy as np
datos = np.array([10, 11, 12, 1000])
datos[datos>999] = 13
Hola.
No sé si este es el lugar, pero al ejecutar muestra el siguiente mensaje "System.ArgumentOutOfRangeException: El valor debe ser mayor que o igual a cero y menor que el tamaño de búfer de consola en dicha dimensión."
muchas gracias por el video, me gustan tus videos ya que explicas con mucho detalle, me salta solo una duda, en el caso de que tenga un dataframe y quisiera visualizarlo seria igual que como lo hiciste con edades.
Me explico tu pusiste edades y creaste un array de las edades, luego para visualizarlo pusiste plt.boxplot (edades) en el caso de una dataframe seria igual?
es decir si importo un dataframe y lo llamo por ejemplo autos, una vez ya importado para verlo seria plt.boxplot(autos).
muchas gracias
Muchas gracias por tus comentario y por tu pregunta. Al respecto, si lo que deseas es echarle un vistazo rápido a tus datos, la clase DataFrame tiene integrado un método llamado plot -> DataFrame.plot(*args, **kwargs). Si deseas una visualización más detallada, te recomiendo echarle un ojo a nuestra playlist sobre visualización de datos: th-cam.com/play/PLat2DtY8K7YWB3X5oJiXb5qON0rA3j0J6.html
gracias (Y)
Saludos GAHAT!!