Tutorial: LIMPIEZA DE DATOS con Python y Pandas

Codificando Bits

มุมมอง 53 003

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 27 ม.ค. 2025

ความคิดเห็น • 102

@codificandobits 2 ปีที่แล้ว ⁺¹
🔥🔥Academia Online: codificandobits.com/ 🔥🔥
🔥🔥Asesorías y formación personalizada: codificandobits.com/servicios/ 🔥🔥
@juliojosellanosparias4902 8 วันที่ผ่านมา
He visto varios videos de analisis de datos y ciencia de datos, definitivamente me quedo con el de este señor, que clase Dios santo, directo al grano, sin rodeos y super entendible
@abelgomezmendez2766 ปีที่แล้ว ⁺³²
Manual de cómo hacer un videotutorial de ciencia de datos. Este contenido tan explícito y práctico no se encuentra fácilmente.
@linacastaneda5854 2 ปีที่แล้ว ⁺³¹
Este video es oro para mí. Muchas gracias por compartir tu conocimiento de una forma tan sencilla y entendible!
@axelalburquerque706 3 หลายเดือนก่อน ⁺³
Me encantó el video esto era lo que estaba buscando paso a paso como se limpia un csv, porque en otro canales explican de forman muy distintas y no entendia el orden de como limpiar
@Sistemahidroponico 19 วันที่ผ่านมา ⁺¹
Muchas gracias buen hombre! En señal de gratitud, suscrito con like y comparto
@tomasscopelliti9362 2 ปีที่แล้ว ⁺¹⁴
Te quiero agradecer por tu excelente trabajo. Estoy estudiando ciencia de datos y claramente la limpieza y el análisis es lo que mas tiempo te lleva en un proyecto. Este video lo explica de forma muy clara en sencillos pasos. Seguramente cada dataset tiene su vuelta jaja, pero me ayudaste mucho. Te mando un abzo desde Arg!
@codificandobits 2 ปีที่แล้ว ⁺¹
Muchas gracias por tu comentario Tomás y un gran abrazo desde Colombia!
@tomasscopelliti9362 2 ปีที่แล้ว ⁺¹
@@codificandobits Tengo algunas dudas. Primero se debe realizar un análisis exploratorio y luego la limpieza? o al revés? Y la otra duda es si esta limpieza aplica a todos los dataset. Muchas gracias y perdón las molestias! 😅
@silvanapaezjimenez1475 3 หลายเดือนก่อน
@@tomasscopelliti9362 misma duda !
@dagcomunica5921 2 หลายเดือนก่อน
Magnífico que expliques detalladamente todo el proceso de principio a fin. Gracias por el video
@ruthruth7218 2 หลายเดือนก่อน
¡Gracias!
@elalfa100 11 หลายเดือนก่อน
Que espectacular. Es para ver diez veces y asimilar como conocimiento. Muchísimas gracias
@distrito14heavyshort 19 วันที่ผ่านมา
sr muchas gracias por su esfuerzo y gran contenido dios lo bendiga
@williamBarr586 11 หลายเดือนก่อน
Excelente explicación, me aportó mucho. Corregí e implementé varias líneas de código que clarificaron mi df y mis objetivos.
@JUANDAVID-wz4pk ปีที่แล้ว ⁺³
Te amo viejo, eres un crack, excelente explicación
@mariag9914 ปีที่แล้ว
Me encanto!!! Muchisimas gracias, estoy haciendo un curso/carrera de ciencia de datos, pero la verdad es que es pura teoria pero casi nada de practica y estoy muy perdida. Te re agradezco y se entendio todo perfectamente. Muchas bendiciones. Saludos.
@adrie1en 2 ปีที่แล้ว ⁺¹
Buenísimo. Fui realizando el paso a paso mientras explicabas. Quedo atenta a tus vídeos en caso de que haya una continuación para la siguiente etapa del análisis!
Gracias!
@codificandobits 2 ปีที่แล้ว
Qué bueno que te haya gustado el video... Sí, en unas semanas viene la continuación (análisis exploratorio). Un saludo!
@javierarrieta9573 ปีที่แล้ว
Eres un profesor increible, muchas gracias por compartirnos todo lo que sabes!
@Jose1187Gonzalez 12 วันที่ผ่านมา
Excelente video, no puede estar mejor explicado
@albertorubio3413 ปีที่แล้ว
1 año y 7 días de que salió este video. Tremendo su valor... (ojalá así explicaran en la escuela en la que estoy inscrito). Solo para agregar aunque sea un poco, creo que en la columna 'contact' también pudieron unificarse "cellular" con "mobile".
Espero pronto unirme a tu academia en línea. Muchas gracias.
@ingluissantana 2 ปีที่แล้ว ⁺¹
El siguiente video se ve prometedor!!!! Gracias!!!!
@aflsrm ปีที่แล้ว
Excelente explicación ingeniero. Muchas gracias. Seguire paso a paso sus redes. Dios lo bendiga.
@codificandobits ปีที่แล้ว
Gracias por tu comentario y un saludo!
@andresrafael1570 2 หลายเดือนก่อน
Muchas gracias Profe, me ayudo muchisimo!
@guillermolodeiro ปีที่แล้ว
Muy buen video, claro, completo y bien explicado. Muchas gracias!
@manuelserna1369 ปีที่แล้ว
Excelente explicacion del potencial de python para la limpieza de datos, michas gracias por este video.
@gustavocristiani3197 2 หลายเดือนก่อน
Genial video tutorial. Muchas gracias por compartir
@alexanderromero4865 12 วันที่ผ่านมา
felicitaciones
@geovanyuribeaguirre8776 2 ปีที่แล้ว ⁺⁴
Muy buen tutorial, lo único que le agregaría sería la lógica de algunas variables, por ejemplo, la variable día aparece como variable numérica, cuando en verdad debería ser una variable categórica. Para los que están empezando, algo que me funcionó en su momento, era pensar si tenía lógica el promedio de esa variable, de modo que si no tiene lógica utilizar el promedio, pues es porque no tiene sentido utilizarla como númerica. También hay que poner cuidado con esto al modelar, ya que internamente le están dando más relevancia a unas categorías con respecto a otras.
@codificandobits 2 ปีที่แล้ว ⁺¹
Muy buenas sugerencias Geovany! Y tienes razón acerca de los días: más que variable numérica debería ser categórica (ordinal). Un saludo!
@dagcomunica5921 4 หลายเดือนก่อน
Gracias por tan magnifico aporte
@ivandelgado1902 ปีที่แล้ว
Muchas Gracias por compartir su conocimiento. Excelente.
@familiaduranromero2931 2 ปีที่แล้ว
Excelente resumen, muchos tip´s necesarios para estas actividades. Muchas gracias Profesor.
@codificandobits 2 ปีที่แล้ว
Me alegra que te haya gustado. Un saludo!
@mecatronicaduke ปีที่แล้ว
Muchas gracias ingeniero
ปีที่แล้ว
Excelente video... Explicado de una manera clara y concisa ... Muchas gracias 😃👍
@scheylama6806 ปีที่แล้ว
Buenisimo el video entendi todo graciass y felicitarlo por su Excelente trabajo y metodologia.
@fernandochacon7630 ปีที่แล้ว
Muy buen video, muy claro. Muchas gracias!!
@tecomAGS 3 หลายเดือนก่อน
Excelente contenido felicidades
@PabloYadeniVelasquezAtencio 3 หลายเดือนก่อน
Excelente video, muy claro ...
@marianaduranhoyos993 4 หลายเดือนก่อน
Me encanto el vídeo ¡Muchas gracias!☺
@raulsegioespejoticona9222 ปีที่แล้ว ⁺¹
muy bien explicado
@betohres หลายเดือนก่อน
Muy buenas tardes. Antes que nada, muchas gracias por esos tutoriales tan detallados que no dejan duda acerca de lo que expones, además muy interesantes. Quisiera preguntarte acerca de el probable procesamiento de un set de datos que esta formado por las respuestas de un examen. Primeramente las respuestas son grabadas con el contenido de combos en pantalla, es decir, en lo posible se trato de que el capturista evitara errores de escritura, los errores básicamente se centraron en datos muy variables como son nombre del alumno, su edad, algunas escuelas de las que no teníamos una lista para alimentar el combo de ESCUELA, por lo demás las respuestas se grabaron tal y como estaban en el examen. había preguntas de opción múltiple donde el alumno responde tachando una opción, otras trataban de llenar espacios faltantes y los combos tenían preestablecidas varias opciones, de las cuales el alumno escogía alguna, etc, etc. Finalmente se obtuvo un archivo con las respuestas de cada alumno, pero aqui viene el objeto de mi pregunta. Ese archivo se proceso de la siguiente forma: Se compararon todas las respuestas de cada examen contra un registro que tenia todas las repuestas correctas y si el alumno contesto correctamente se grabó otra tabla con la identificación de cada alumno y se colocó un 1 si respondió correctamente y un 0 si la respuesta fue errónea o simplemente si no se contestó la pregunta en turno. De manera que tengo una tabla con el ID del alumno (ID, Nombre, Apellidos, edad, ubicación territorial, etc. ) y una larga lista de unos y ceros según el alumno haya contestado. Aquí solo he podido procesar el archivo con frecuencias de unos y ceros y los he organizado desde por entidad, hasta por genero del niño y obtenido totales numéricos duros de cada genero, grupo, escuela, municipio y entidad dando totales por cada nivel, de ahi porcentajes relativos a los totales por nivel hasta llegar a grandes totales por estado de la republica ( México). Hasta ahí todo bien, ya que de ahí salieron miles de graficas y posteriormente un informe de lo obtenido por niveles y obviamente una interpretación de cada grafico. Esto fue un trabajo muy artesanal y hecho de primera opción en una hoja de calculo. De ahi pase todo a python y Sentencias SQL para evitar la impresión de grandes sabanas en papel, y solo reportamos los estadísticos básicos. Quisiera llevar esto a otro nivel, es decir hay muchas cosas que se hicieron casi a mano, dentro de eso, informes que pretendían descubrir patrones de comportamiento del programa educativo en cuestión sujeto del examen practicado, por categoría. Me seria de gran utilidad trasportar esto a procesarlo con algún modelo neural, que descubra algunos patrones ocultos que ni por asomo, se pudieron ni siquiera imaginar, pero estoy al inicio de mi formación en ciencia de datos y de momento no cuento ni con la perspicacia que da la experiencia ni la experiencia en el manejo de conjuntos de datos tan grandes, amen de que me enfrento a solo dos tipos de valores y se requiere evaluar a cada alumno poniendo una calificación de acuerdo a algunos criterios que agrupan cantidad de habilidad para el manejo de la materia y estos grupos de criterios solo los he podido contestar mediante frecuencias y porcentajes relativos pero creo que esta evaluación es muy pobre no obstante la cantidad de graficas obtenidas. Pregunta concreta; que modelo podrías recomendarle para evaluar de manera mas analítica un conjunto de datos como el que te menciono? Como correlacionar habilidades en el manejo de esa materia, (saber, o saber y hacer o saber, hacer y corregir, etc) y como obtener patrones, gradientes pronosticos, para saber si el programa de esa materia realmente logra penetrar en los alumnos o si solo logra que de momento logren tener algun conocimiento que posteriormente se evapore? . Gracias, por leer mi historia, y si esta en tu mano poder guiarme un poco en este campo de desarrollo para procesar este tipo de set de datos. Un gran saludo y mi agradecimiento a tu labor.
@dwrn4656 ปีที่แล้ว
Muy buen video, muy explicativo en su punto Thanks
@joeltarazonr หลายเดือนก่อน
Muy buen video
@StrawberryAlek ปีที่แล้ว
Graaaan video, me fue de mucha ayuda, gracias.
@elrama6915 ปีที่แล้ว
Excelente video y muy bien explicado!!!.
@jorge_luis_174 ปีที่แล้ว
Excelente, aprendi un monton!
@dondotcom9901 ปีที่แล้ว
Tremendo video, por lo util y por lo claro. Gracias amigo!!
@fabriciogd8000 ปีที่แล้ว
me has salvado estoy agradecido
@michelromeroesquijarosa5657 10 หลายเดือนก่อน
31:17 esta notacion me afecta valores en otras columnas. Ese valor con el que corrijo el erroneo se me agrega como valor en todas las columnas del df con la cantidad de veces que se cumple esa condicion. Me puede brindar luz al respecto?
@alcibiadescastro8784 6 หลายเดือนก่อน
Excelente maestro
@fisicaparalavida108 11 หลายเดือนก่อน
Muchas gracias por este vìdeo. Supongamos que tuvieramos una columna con un ùnico subnivel, còmo harìamos para eliminarla?
@AndreaSanchez-ge3wk ปีที่แล้ว
Excelente, gracias!
@silvanapaezjimenez1475 3 หลายเดือนก่อน
Que buen contenido! , la limpieza de datos seria un paso despues de haber realizado en analisis exploratorio ?
@codificandobits 3 หลายเดือนก่อน
Qué buena pregunta Silvana. Creo que no podría asegurar que en todos los casos primero va la limpieza y luego el análisis. A veces durante el análisis exploratorio nos podemos dar cuenta que debemos continuar limpiando los datos para poder luego analizarlos. Todo depende en últimas de las características particulares que tenga cada set de datos.
@mauropereyra591 ปีที่แล้ว
Excelente video, me ha ayudado mucho. Me queda una duda de si al final de las unificaciones de valores de las columnas tiene sentido revisar nuevamente los duplicados, ya que podía haber filas consideraras distintas pero luego de la unificacion (Por ej: ukn a unknown) quedaron como iguales.
@franciscogonzalezortiz3561 8 หลายเดือนก่อน
Excelente video, muchas gracias
@skalliberx6346 ปีที่แล้ว
Muy bueno el video. Muchas gracias.
@mitchelnunez753 2 ปีที่แล้ว ⁺²
Excelente video Miguel! sigue trayendo más contenido con la manipulación y análisis de datos :)).
Por cierto, en que parte está el notebook de colab que dijiste que estaba en la descripción?
@codificandobits 2 ปีที่แล้ว ⁺¹
Hola Mitchel gracias por el comentario. Sí, en un próximo video veremos el análisis exploratorio de este set de datos.
Y en la descripción del video encuentras el enlace al notebook + dataset.
¡Un saludo!
@mitchelnunez753 2 ปีที่แล้ว
¡¡¡Muchas Graciassssss!!!
@ebersolorzano6448 2 ปีที่แล้ว
Excelente video!
@ingluissantana 2 ปีที่แล้ว
Que buen video!!!!!! Gracias!!!!
@salvadornunez23 ปีที่แล้ว
espectacular
@pamelacasis4628 2 ปีที่แล้ว
Muy Buenooo!!!!
@antonioyt7719 ปีที่แล้ว
gracias por el tutorial! :D
@dustin1520 ปีที่แล้ว
That's what she said
@mijail.mija-ALM 2 ปีที่แล้ว
Suscrito! gracias por compartir tu conocimiento.
@robertosoruco3656 ปีที่แล้ว
Excelente
@OmerEspinoza 7 หลายเดือนก่อน
Excelente…!
@ebersolorzano6448 2 ปีที่แล้ว
Gracias por compartir su conocimiento. Cuando se usa regex=True en la siguiente linea de código?
data['job'] = data['job'].str.replace('admin.','administrative', regex=False)
@marloncarrillo1409 ปีที่แล้ว
Buen día estimado Profesor, le puedo hacer una consulta ¿Cómo puedo determinar la factibilidad de uso de un dataset para un proyecto específico?
@codificandobits ปีที่แล้ว ⁺¹
Marlon es una pregunta muy difícil de responder sin conocer los detalles. Pero de forma general deberías tener en cuenta:
1) ¿Qué problema quieres resolver?
2) ¿Que producto/resultado final esperas tener una vez resuelto el problema?
Teniendo claras las respuestas a estas dos preguntas debes determinar si tu set de datos tiene las características que corresponden a las respuestas que acabas de dar.
Como te digo, es una respuesta muy genérica. Si me das más detalles te puedo orientar mejor.
@marloncarrillo1409 11 หลายเดือนก่อน
@@codificandobits Buenas noches estimado profesor, gracias por la respuesta, soy novato en el tema de machine learning, pero ahora me encuentro trabajando en un proyecto referente al ancho de banda, he encontrado un par de datasets, pero aún no se si sean los adecuados para el proyecto que le comento. ¿Tendrá alguna otra red social dónde contactarlo, para que me brinde un par de consejos?
@valeriacastillo7428 6 หลายเดือนก่อน
Donde puedo ver El video de analisis de Estos Datos?
@holalula2032 7 หลายเดือนก่อน
Consulta! Ahi donde dice ruta = (xxxx) por que entre medio dice video?
@nara.titan28 2 ปีที่แล้ว
Hola muchas gracias por tus contenidos! Pregunta: es necesario limpiar y paramétrizar el Dataset, previo a la decisión de algoritmos de ML para optimizar la evaluación? O como sugieres proceder?
@nara.titan28 2 ปีที่แล้ว
Me refiero a un Dataset de variables climáticos en series de tiempo.
@codificandobits 2 ปีที่แล้ว
@@nara.titan28 Sí, siempre es necesario limpiar el dataset antes de cualquier análisis o procesamiento. ¿A qué te refieres con parametrizar?
@zantinibarassi4925 5 หลายเดือนก่อน
Los datos faltantes no serian los non null?
@Celeste13_ 7 หลายเดือนก่อน
Esa parte de google.colab y lo del drive me tira error, si yo tengo el archivo en mi escritorio, ¿Cúal seria la escritura de código?
@leoohernandez4255 ปีที่แล้ว
Hola Profe excelente video, solo tengo una duda.
1. Que pasaria si en la parte de subniveles uno tiene muchos de estos, en este caso en el video teniamos 10, 8, 5 etc.. pero si hablamos ya de 10.000, 8.000, 50.000 subniveles el histograma saldria tan grande que quizas daria la misma, ¿Cómo se manejaria en ese caso?
@codificandobits ปีที่แล้ว
Hola y qué buena pregunta. En este caso existen varias alternativas (aunque al final todo dependerá de las particularidades de tu set de datos y del problema que quieras resolver).
Por ejemplo podrías implementar técnicas de reducción (es decir eliminar algunos subniveles que no contengan muchos datos) o de agrupamiento (clustering). O usar el histograma para ver cuáles de estos subniveles son menos frecuentes y (si el problema lo permite) eliminarlos, o también podrías considerar técnicas de "cross-tabulation".
De nuevo, es necesario conocer en detalle el problema a resolver y el set de datos para determinar el camino que resultaría más adecuado. Un saludo!
@julianjulianjulian380 5 หลายเดือนก่อน
una pregunta, cuando utilizo esta forma de reemplazar:
data[data['contact']=='phone'] = 'telephone'
me termina convirtiendo todas las columnas en obectj, que sera lo que estare haciendo mal?
con .str.replace no tengo ese mismo problema
@codificandobits 5 หลายเดือนก่อน
Hola Julián. El resultado que indicas es el esperado, pues "telephone" es una variable tipo string que en Pandas se representa precisamente con el tipo de dato "object".
¿Qué tipo de dato obtienes al usar "str.replace"?
@dianacarolinanavidadnavida1812 ปีที่แล้ว
Mil gracias llevo una semana buscando como hacer eso😢
@codificandobits ปีที่แล้ว
:) :) :)
@alexandervillegas1437 ปีที่แล้ว
Grande
@yhh610 2 ปีที่แล้ว
excelente video , es posible que compartas el notebook?/?/??/?
@codificandobits 2 ปีที่แล้ว
Claro que sí. En la descripción del video encuentras el enlace al código fuente
@di-egohumilde4515 4 หลายเดือนก่อน
22:50
En estos casos no deberíamos primero asegurarnos de que son pocos los datos que vamos a borrar?
O almacenarlos en otro DataFrame temporal?
Porque si borro por accidente demasiados datos ya valí vrga no? ajaj
@omararga9846 2 ปีที่แล้ว
estimado, seria tan amable de pasar el note y el set de datos, gracias
@codificandobits 2 ปีที่แล้ว
Claro que sí Omar. El enlace lo encuentras en la descripción del video. ¡Un saludo!
@omararga9846 2 ปีที่แล้ว
@@codificandobits me recomendas panda para leer un archivo de 168 gb en formato txt?
@cris.bolsillos 2 ปีที่แล้ว
Hola! de verdad espero me puedas ayudar, soy nuevo en todo esto. Si por ejemplo de la columna age, yo quisiera solo ver la información de los que tienen 50 años, pero manteniendo el resto de información referente a esas personas con esa edad en particular, cómo lo puedo hacer? la verdad que por más que trato de pensar como hacerlo no encuentro la solución. Te agradecería mucho la ayuda!
@AlejandroMorales-pk6pr ปีที่แล้ว
Age = data[data["Age"]=50]
@jorge_luis_174 ปีที่แล้ว
Aca en Perulandia te llaman mas de 300 veces al mes. Son unas ladillas!
@davidaquino64 2 ปีที่แล้ว
Tengo una duda en qué área está o que perfil tiene porque en la unam e ipn la manejan como ciencias físico matemáticas que debemos de saber matemáticas ciencias de la computación estadística y conocimiento del negocio en qué perfil está porque unos me dicen que es físico matemáticas otros que es tecnológica que perfil tiene en realidad esa es mi inquietud
@carloscardenas3459 ปีที่แล้ว
Excelente video
Muy bien explicado !!

ต่อไป

เล่นอัตโนมัติ

Tutorial: ANÁLISIS EXPLORATORIO DE DATOS con Python