🐍+📂 Extraer informaciÃģn específica de varios PDF guardar datos en dataframe | Exportar a CSV y Excel

āđāļŠāļĢāđŒ
āļāļąāļ‡
  • āđ€āļœāļĒāđāļžāļĢāđˆāđ€āļĄāļ·āđˆāļ­ 25 āļĄ.āļ„. 2025

āļ„āļ§āļēāļĄāļ„āļīāļ”āđ€āļŦāđ‡āļ™ • 61

  • @cctmexico
    @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +7

    ⏰ Por si tienes prisa, checa los temas por minuto en el vídeo:
    00:00 IntroducciÃģn
    01:41 Lectura de los archivos PDF desde el directorio
    03:28 Extraer los datos del PDF y guardarlos en un dataframe
    09:37 Descargar archivo CSV
    10:21 Descargar archivo Excel

  • @jaisoncast18
    @jaisoncast18 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +8

    Un excelentísimo aporte estimada, lo estaba buscando por mucho tiempo. Gracias.
    Aunque no sea mucho molestar, Âŋpodrías subir el texto de los cÃģdigos usados, favor?
    Nuevo suscriptor. 👍

  • @CarlosVelascoLima
    @CarlosVelascoLima āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    Genial, lo que estaba buscando!!! Muchísimas gracias...

  • @franciscojavierruizoliva5437
    @franciscojavierruizoliva5437 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    excelente video me gusto mucho es justamente lo que estoy buscando, unicamente como le puedo hacer si no tengo, en la linea donde tienes los if y preguntas o buscas la linea de nombre de asignatura como puedo buscar en un pdf sin tener algo en especifico es puro texto pero sin nada en comÚn pero ocupo leer parte de mi pdf y los ejemplos que he hecho me lee todo el pdf, muchas gracias

  • @gustavowalteroslarrotta7798
    @gustavowalteroslarrotta7798 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    Hola, un saludo, desde Colombia, me parece excelente tu aporte, estoy muy interesado en la automatizacion de tareas adminstrativas y este aporte me parece genial , muchas gracias con compartir su trabajo...

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      Muchas gracias por dejarnos tan amable comentario y muchos saludos hasta la hermosísima Colombia!

  • @tensoescalar1
    @tensoescalar1 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    Excelente video, muy Útil, muchas gracias

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

      ÂĄMuchas gracias ^_^ por el lindo comentario y por vernos, saludos!

  • @gonzasanmar
    @gonzasanmar āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    Increible! Me sirvio, muchas gracias por la ayuda y la explicacion. Se valora mucho este contenido +1 Sub

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      ÂĄNos da mucho gusto saber que te fue de utilidad! Muchas gracias por la sub ;)

  • @MauroTelloDesarrollos
    @MauroTelloDesarrollos āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™ +2

    EstÃĄ muy bueno, pero que pasaría si el PDF no estÃĄ estructurado de esa manera, que pasaría por ejemplo si estÃĄ el nombre de una secciÃģn y debajo el valor que quiero extraer, como sería en ese caso

    • @cctmexico
      @cctmexico  āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

      EstÃĄ muy interesante la pregunta, vamos a generar un PDF y lo probamos en diferentes posiciones, a ver como reacciona el cÃģdigo :)

  • @hernandezperezdavid1222
    @hernandezperezdavid1222 7 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™ +1

    Hola, me encanta como explicas.
    De casualidad puedes explicar un nuevo video agregando las librería de ocr (opencv y pyserator) mas pandas para que en lugar de PDF sea un jpg.
    Es que te entiendo mas 😅

    • @cctmexico
      @cctmexico  7 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

      Creo que pudiera ser algo muy similar a lo que buscas, lo que hago en este vídeo: th-cam.com/video/ULBm11G_1BI/w-d-xo.html

  • @lillylunita9405
    @lillylunita9405 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    Hola disculpa tengo una pregunta y quÃĐ pasa si el texto que quiero estÃĄ como una celda al lado del título en un pdf? Por ejemplo se tiene el título Orden de Compra en una celda y al frente(en otra celda) estÃĄ esa informaciÃģn porque fue hecho en excel ese pdf??

  • @josejavierblancoperez1186
    @josejavierblancoperez1186 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +2

    Hola, sacar datos de pdf son de esas actividades que te dan ganas de llorar ðŸ˜Ē y buscando me encontrÃĐ con este tuto que lo veo genial!!! Aclaro no se nada de programaciÃģn, pero he alucinando de lo que se puede hacer!!! Pregunta..... Ya tengo Python instalado y lo estoy trabajando por sublime text. Se debe hacer desde el navegador de con Drive?? O se puede hacer localmente com sublime. Nuevo Sub âĪâĪâĪ

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      ÂĄMuchas gracias por tan amable comentario! ^_^ sin problema lo puedes hacer desde sublime, solo hay que cambiar la ruta de acceso y ÂĄListo! nos da mucho gusto saber que el vídeo te fue de utilidad ;)

  • @dianachavez2215
    @dianachavez2215 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    hola, seria mucho pedir si puedes hacer una ejecutable de ese programa que hiciste y subirlo a youtube, por favor

  • @meiselbelcal5242
    @meiselbelcal5242 22 āļ§āļąāļ™āļ—āļĩāđˆāļœāđˆāļēāļ™āļĄāļē

    intresante pero no se nada de esto como creo las carpetas y todo en si porfavor si tienes algun curso

  • @JohnAlexanderEcheverryOcampo
    @JohnAlexanderEcheverryOcampo āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    Muchas gracias, me ha sido de gran utilidad. Seria bueno compartiera algÚn link con el cÃģdigo para evitar errores al copiarlo del vídeo.

  • @Cris-ko6dh
    @Cris-ko6dh āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    Muchas gracias por la aportaciÃģn. Quisiera saber si el cÃģdigo puede buscar en facturas, el nÚmero, fecha, importe total e IVA de cualquier tipo de factura, contando que a veces vienen en inglÃĐs, de Amazon, AliExpress...etc. muchas gracias por compartir su sabiduría

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

      Si, si los campos estÃĄn bien definidos se puede extraer esa informaciÃģn, en el caso de que haya campos en inglÃĐs, se puede agregar en el If, la alternativa para la traducciÃģn por ejemplo if 'Nombre' | 'Name' in line

    • @Cris-ko6dh
      @Cris-ko6dh āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

      @@cctmexico Muchísimas gracias, así le irÃĐ incorporando palabras clave/sinÃģnimos para que encuentre los datos. Hace un gran trabajo, verÃĐ sus otros vídeos!

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      ÂĄMucho ÃĐxito! ^_^@@Cris-ko6dh

    • @camilaalvarezmedina9168
      @camilaalvarezmedina9168 3 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

      @@Cris-ko6dh jaja estoy buscando lo mismo

  • @ralix250
    @ralix250 7 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™ +1

    que chevere se ve
    muchas gracias

  • @CarlosAlbertoHernandezSanabria
    @CarlosAlbertoHernandezSanabria 6 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

    Excelente video, habra alguna posibilidad de que me guies para yo convertir mis pdf a .csv (su formato es distinto al que propones)

  • @esahinpazpucheta1580
    @esahinpazpucheta1580 10 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

    Muchas gracias por el tutorial, he seguido los pasos pero al ejecutarlo solo me muestra los nombres de los archivos y el resto de las columnas quedan en blanco.

  • @jemsenchaponan
    @jemsenchaponan āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    Hola muy buen video, pero como sería el caso que en un PDF no estÃĐ escrito el Nombre de la asignatura ni nada, solo que me salga el Plan de estudio y Clave. Al momento de leer cada PDF me saldrÃĄ error y quisiera evitar eso poniendo un 0 o un texto vacío, Gracias.

  • @arturoalvarado5294
    @arturoalvarado5294 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    buen video no habia encontrado videos del tecnm yo estudio en el de alvaro obregon , justo tengo que hacer lo mismo para mi proyecto de residencia solo que tengo que extraer los datos de un pdf y no se si pands permita insertar los datos en un word Âŋ podrian ayudarme ?

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

      ÂĄMuchos saludos al Tec de Álvaro ObregÃģn! puedes enviar los datos directamente a un Excel (minuto 10:31) y despuÃĐs hacer combinaciÃģn de correspondencia para insertar los datos datos en Word

    • @arturoalvarado5294
      @arturoalvarado5294 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      @@cctmexico es mi primera ves uando python y django por ende pandas 😅 Âŋ sera posible un video con mi caso en particular ? lo que realmente necesita el modulo que desarrollo es : cuando se detecte una palabra clave digamos resultados me devuelva esos datos pero en columna , tan lineal en esas palabras clave no estan eficiente , es un pdf clinico

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      @@arturoalvarado5294 Este vídeo puede ser de utilidad, para la parte de evaluar condiciones: th-cam.com/video/h2yDbU1VDsI/w-d-xo.html y en lugar de usar Django puedes usar Streamlit que es una maravilla!! aquí te dejamos la lista de reproducciÃģn: th-cam.com/play/PLgHCrivozIb0uvT1H_UtpH6Ftt60PI03Y.html

  • @gabrielacristinarodriguez1885
    @gabrielacristinarodriguez1885 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    Esta buenisimo para extraer texto de un pdf pero que pasa si esos items fueran nombres de columnas y quiero iterar los datos numericos que se encuentran en cada uno de ellos? Gracias!

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

      Podría ser que los datos extraidos se pasen a un dataframe de Pandas y despuÃĐs utilizar algo como: th-cam.com/users/shortskL7FrlCHTkA

    • @gabrielacristinarodriguez1885
      @gabrielacristinarodriguez1885 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

      @@cctmexico Gracias! Lo probarÃĐ!

  • @Nicolasbrio
    @Nicolasbrio 5 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

    se le puede conectar alguna api como gemini ?

    • @cctmexico
      @cctmexico  5 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

      ÂĄSeguro que si! si encontramos algo similar, se los dejamos aquí en el canal :)

  • @ofeliamartinez6359
    @ofeliamartinez6359 9 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

    quÃĐ bien, cÃģmo se podrían extraer las respuestas de un formulario editable PDF

  • @gonortega4393
    @gonortega4393 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    Y me podrias ayudar con un proyecto que tengo? Como te puedo contactar? ðŸ˜Ē Necesito ideas ya que estoy usando phyton, dispongo de archivos pdf que xontienen diferente informacion de clientes y estas las debo comparar con informaciÃģn que esta en un archivo excel, si existe igualdad de datos deberia quedar check de lo contrario que se cree un reporte con las diferencias, me ayudas???? ðŸ˜ĒðŸ˜Ē Sigo varios de tus videos pq son bastante educativos, gracias

  • @slacex
    @slacex āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    esta perfecto!

  • @gdcaeenamtz
    @gdcaeenamtz 11 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

    Se puede extraer datos de un documento PDF censurado ?

  • @davideliseogutierrezleon8296
    @davideliseogutierrezleon8296 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    Hola
    Tengo una situaciÃģn, quiero extraer los datos de mi conferencia de situaciÃģn fiscal en formato PDF pero al momento de correr el cÃģdigo, en varias columnas me arroja NONE, pero en otras si me da el valor del PDF, que puedo hacer para extraer todos los valores? 🙃

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      ÂŋQuÃĐ tipo de datos, es donde te arroja el None?

  • @reynaldomontenegro
    @reynaldomontenegro āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

    Hola, me parece maravilloso, es justo lo que necesito para solucionar un tema en el trabajo, pero no encuentro el codigo fuente, puedes compartirlo por favor?

    • @suldreck
      @suldreck āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      opino lo mismo, entiendo que quizÃĄs no pone el cÃģdigo por un doble motivo, primero por que sino no verían el video completo, segundo por que ir escribiÃĐndolo uno mismo hace que entiendas mejor como funciona.
      En mi caso llegue aquí por un problema para detectar texto en negrita y otros formatos.

  • @lilianacubides6273
    @lilianacubides6273 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    Muchas gracias por tu video y tu buena explicaciÃģn,sin embargo no se si me puedas ayudar, cuando ejecuto el codigo me sale el siguiente error: TypeError: 'module' object is not iterable

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      Tal vez sea un error de dedo, porque parece que estas usando una variable que no se puede usar en un ciclo For (donde dice que es no iterable)

  • @RubenGZ
    @RubenGZ āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +2

    Hola una consulta como podria leer un cuadro de un pdf? que se encuentra los datos como si fuera un excel con en la parte superior que tipo de dato es y abajo enlistado...

  • @cityview6051
    @cityview6051 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    My interesante gracias ! Soy novato , querria saber como se haria sin solo coger la pagina [0] es decir juntar texto de toas las paginas de los pdf . Gracias

    • @elpericonegro2534
      @elpericonegro2534 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      with open('OPE.pdf', 'rb') as pdf_file:
      # Crea un objeto PDFReader
      pdf_reader = PyPDF2.PdfReader(pdf_file)
      texto_com = ''

      indpag=len(pdf_reader.pages)

      for num_pagina in range(indpag):

      pagina = pdf_reader.pages[num_pagina]

      texto_pagina=pagina.extract_text()
      texto_com +=texto_pagina

      lines=texto_com.split('
      ')

  • @NomiNal-n7p
    @NomiNal-n7p āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    Aportazo 😊

  • @asuncionvillalonbustos1786
    @asuncionvillalonbustos1786 11 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

    y si en una linea tengo 3 datos distintos. como lo puedo hacer

    • @cctmexico
      @cctmexico  11 āļŦāļĨāļēāļĒāđ€āļ”āļ·āļ­āļ™āļāđˆāļ­āļ™

      Si los datos tienen nombre de campo, se pueden extraer, por ejemplo: Nombre de vídeo----,Nombre de canal----

  • @marcocabrera1763
    @marcocabrera1763 āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    Tengo una duda, espero puedas responderme, estoy tratando de extraer estÃĐ cÃģdigo 085-2023, del siguiente pÃĄrrafo: RESOLUCION GERENCIAL REGIONAL N° 000085-2023-GRLL-GGR-GRTC

  • @EmprendeTI
    @EmprendeTI āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    puede subir el cÃģdigo fuente?

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

      Cuando dejamos algo de cÃģdigo lo encuentras en la caja de descripciÃģn del vídeo, saludos!

  • @robertojmoreno
    @robertojmoreno āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    existe split.lines()

  • @jorgesk8iqq
    @jorgesk8iqq āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    super

  • @karyajem
    @karyajem āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§

    Se puede usar cuando un pdf tiene varios hojas?

    • @cctmexico
      @cctmexico  āļ›āļĩāļ—āļĩāđˆāđāļĨāđ‰āļ§ +1

      Sii :D