Web Scraping con 2 líneas de JavaScript 🤓

แชร์
ฝัง
  • เผยแพร่เมื่อ 30 ม.ค. 2025

ความคิดเห็น • 92

  • @FishDeveloper
    @FishDeveloper ปีที่แล้ว +225

    Like para un curso de scrapping 🎉🎉❤😊

    • @edu235edu
      @edu235edu ปีที่แล้ว +6

      y si puede ser.. que sea de google !! :)

    • @winchatheone
      @winchatheone ปีที่แล้ว +2

      Con css selectors, xpath, usando fetch, axios, cheerio, puppeteer a fondo...estaría top :)

  • @ljfi3324
    @ljfi3324 ปีที่แล้ว +9

    En mi primer trabajo me pidieron automatizar un proyecto donde tenia que scrapear +100 sitios web de noticias, extraer la noticia de sus categorías, hacer páginación pero no sabía javascript, lo hice en python usando el framework scrapy y otras dos bibliotecas de python y justo luego realice un dashboard para luego analizar toda la info aplicando NLP
    Me trajo recuerdos el video

    • @gamemodjuegos
      @gamemodjuegos 10 หลายเดือนก่อน

      hola como estas? ven estoy trabjando en un pruyecto algo parecido, me podrias ayudar con un tema que no entiendo ajaj

    • @carlosmanuel23010
      @carlosmanuel23010 7 หลายเดือนก่อน

      Bro

    • @carlosmanuel23010
      @carlosmanuel23010 7 หลายเดือนก่อน

      Bro disculpa xomo puedo contactar contigo??

  • @Autoscraping
    @Autoscraping ปีที่แล้ว

    Maravilloso material audiovisual que ha sido de gran utilidad para nuestros nuevos miembros. ¡Te agradecemos por compartirlo!

  • @xavicode3436
    @xavicode3436 ปีที่แล้ว +5

    Madre mia justo estaba aprendiendo playwright para hacer un proyecto.
    Gracias Midu

  • @yamilgallardoyunes8217
    @yamilgallardoyunes8217 ปีที่แล้ว +6

    Siempre siempre es un gran gusto ver tu contenido miguel muchas gracias

    • @midulive
      @midulive  ปีที่แล้ว +1

      Gracias. Saludos!

  • @carlosdevtech
    @carlosdevtech ปีที่แล้ว +5

    Hola, solo vine a ver cómo se ve el nuevo logo de mi canal 😂. Pero por no dejar: Grande midu!

  • @marcopat01
    @marcopat01 ปีที่แล้ว +3

    5:25 AJAJAJSJSJA te amo editor de midu ❤

  • @RamonArielEspinoza
    @RamonArielEspinoza ปีที่แล้ว +5

    0:16
    Midu: No es tampoco robar; pero casi.
    Yo que trabajo de eso: No me quemes 😂

  • @grtourscartagena
    @grtourscartagena ปีที่แล้ว +1

    😂😂😂😂 yo creo que este video es el unico que va a valer mas que otros videos de midudev.. que detallazo

  • @sced17
    @sced17 11 หลายเดือนก่อน

    Gracias por la info colega, me parece útil para para obtener de forma rápida info de distintas fuentes y comparar la veracidad de una información desde distintas fuentes con solo unas pocas lineas, en estos días que la IA se esta usando para crear fakes muy reales, debemos en base a IH buscar crear proyectos libres que permitan a todos tener buen criterio con un porcentaje de veracidad de la info que se publica en las redes....

  • @johiny
    @johiny ปีที่แล้ว +10

    Gracias al scraping seguramente fue que Open AI consigio los datos suficientes para entrenar a sus modelos gpt

  • @atiliocalderonmorales8953
    @atiliocalderonmorales8953 ปีที่แล้ว

    Gracias por estos truquitos que me dan mas ilusión de seguir aprendiendo

  • @elanonimatox749
    @elanonimatox749 ปีที่แล้ว +17

    Otra forma mucho mas sencilla de que no bloqueen la IP es utilizar awaits un poco aleatorios para "humanizar" las peticiones.

    • @midulive
      @midulive  ปีที่แล้ว +8

      Eso y usar user agents diferentes sirve… pero muy poco. 😛

  • @dionisiohernandez8700
    @dionisiohernandez8700 ปีที่แล้ว +2

    Excelente, más contenido de este tipo

  • @paoloose
    @paoloose ปีที่แล้ว +48

    mientras tanto la web del junior inmune al extractor:

    • @pepito7773
      @pepito7773 ปีที่แล้ว +6

      Soy ese 😎

    • @andresbustamante972
      @andresbustamante972 ปีที่แล้ว +3

      Maldito next.js

    • @dolaya237
      @dolaya237 ปีที่แล้ว +2

      Hahahah

    • @jeroku18
      @jeroku18 4 หลายเดือนก่อน

      Lo siento gente no entendí, alguien me explica? Porfavor. 😢

    • @paoloose
      @paoloose 4 หลายเดือนก่อน +1

      @@jeroku18 crea un proyecto típico de react y tu html lucirá así, solo un elemento llamado "root". Lo que pasa es que el contenido recién se renderiza a puro javascript (client side rendering), esto hace que los bots y scrappers que llegan a tu web vean solo un html vacío. Los bots no suelen ejecutar js porque necesitarían un navegador, así que nunca podrán ver tu contenido renderizado. Dije junior porque esto son los típicos proyectos que uno hace al inicio, luego va probando cosas como client side rendering o static site generation para ser más "SEO friendly"

  • @Juanchi_AR
    @Juanchi_AR ปีที่แล้ว +1

    Justo estuve este ultimo mes buscando algo a si y no lo habia econtrado, lo estuve armando con cheerio ahora ya tengo algo para hacer el fin de semana, ajjaaj
    me interesa si es que se puede (legalmente) en un video explicar mas el tema de cambios de ip en servicios online estilo vercel , aws o self hosting

  • @clayman1325
    @clayman1325 ปีที่แล้ว +1

    Midu nunca descansas hahahah :D

  • @CarlosHerrera-qr5ih
    @CarlosHerrera-qr5ih 6 หลายเดือนก่อน

    En el minuto 1:34 selecciona el link de la imagen y lo abre al parecer con un shortcode de teclado en una nueva ventana. Alguien sabe como se hace?

  • @Nachio1978
    @Nachio1978 ปีที่แล้ว +1

    Guay guay!!! Esto mola.....

    • @midulive
      @midulive  ปีที่แล้ว +1

      😊😊😊

  • @lalejon7
    @lalejon7 10 หลายเดือนก่อน +1

    Muy bueno Midu.

  • @ES-zf1mc
    @ES-zf1mc ปีที่แล้ว +2

    Que grande!!Muchas gracias!

    • @midulive
      @midulive  ปีที่แล้ว +1

      A ti por comentar!! 🥹

  • @AFalken
    @AFalken ปีที่แล้ว +1

    Gran video! ¿Para cuando una clase de Hacking ético? 😊

  • @SquadronYT
    @SquadronYT 7 หลายเดือนก่อน +1

    El problema es que eso solo funciona con webs especificamente preparadas para ello, pero ponte que sea una web donde todos los bloques sean puros DIV nomas, y dificilmente haya uno que otro ID que no son usados ni siquiera de forma semantica sino solo por algunas funciones como animaciones o cosas por el estilo. Dudo que ahi pueda funcionar bien ese metodo.

    • @midulive
      @midulive  7 หลายเดือนก่อน

      Es que lo queréis todo muy fácil, crack. Este método funciona con casi cualquier web, por muchos divs que tengas. Se puede usar XPath Syntax para conseguirlo.
      Incluso se pueden hacer fallbacks, búsqueda semántica...
      He trabajado creando scrappers de compañías de vuelos y al final es cuestión de trabajar. :)

  • @j.carlosgr7347
    @j.carlosgr7347 7 หลายเดือนก่อน

    ¿Porque algunas veces funciona y otras no?? Me devuelve null, en cambio en la web le meto la url y si me lo devuelve el json

  • @MiguelAngel-mf3yu
    @MiguelAngel-mf3yu 3 หลายเดือนก่อน

    no deja acceder a recursos como imagenes si tiene CROSS activado

  • @0xbara
    @0xbara ปีที่แล้ว

    Muy bueno para hacking web! Gracias!

  • @mateolopez1338
    @mateolopez1338 7 หลายเดือนก่อน

    Quiero hacer un trabajo para mi Uni sobre este tema pero no se si es legal o ilegal aplicarlo en el hambito educativo

  • @Kachamozo
    @Kachamozo ปีที่แล้ว +1

    por que utiliza bun para instalar paquetes de npm

    • @midulive
      @midulive  ปีที่แล้ว

      Porque es más rápido y también funciona como gestor de paquetes de Node

  • @fdorantesm
    @fdorantesm ปีที่แล้ว +1

    Sí está público en internet no es robar. Finalmente todas las páginas de noticias hacen lo mismo.

  • @nes7or1
    @nes7or1 10 หลายเดือนก่อน

    alguien sabe que otras opciones existen en caso de que los dominios bloqueen el web scrapping por medio de sus robots.txt?

  • @sisoyunrobot6413
    @sisoyunrobot6413 ปีที่แล้ว

    se puede hacer scraping a las redes sociales con eso ?

  • @Elmefs
    @Elmefs ปีที่แล้ว

    Como se hace lo del cambio de rango de ips? Pasen tip

  • @francolopezgramajo8467
    @francolopezgramajo8467 20 วันที่ผ่านมา

    Jamas pude entrar a esa librería de Node ni usar el código.. No sé si alguien tendría la URL de Extractor Tools por favor?

  • @elwoseopenstepcrew1134
    @elwoseopenstepcrew1134 ปีที่แล้ว +2

    como QA , esperaba que usases selenium con un chrome headless :( una pena.. pero si lo levantas con el gestor de contenedores de webbrowsers zalenium, tienes la capacidad de scrappear en paralelo todo lo que necesites :D una granja facilita de hacer como dirias

    • @midulive
      @midulive  ปีที่แล้ว +4

      Como QA igual necesitas explorar diferentes opciones dependiendo del caso, ya que no existe una bala de plata.
      No tiene sentido levantar un Chrome Headless con Selenium según para que casos, ya que el coste es muy elevado. Y esta solución lo va a batir muy fácilmente en coste y tiempo.
      Igualmente hoy en día hay mejores opciones que Selenium, como Playwright, que también te ofrece crear granjas y hacer en paralelo lo que necesitas.

    • @elwoseopenstepcrew1134
      @elwoseopenstepcrew1134 ปีที่แล้ว

      @@midulive no conocía playwright, muchas gracias por el apunte, y disculpa si parece que te estoy discutiendo el video, para nada, creo que aportas mucho valor y mi comentario es por que yo como qa tengo una visión sesgada y se por experiencia que la gente aprende mucho de como funciona la web cuando usas selenium y tienes integraciones con Gestión de tareas, ejecucion de tests plans, coverage, temas de especificación (behave) , y tienes en todos los lenguajes para que no se quede fuera nadie 🙅 no se, es mi humilde pero sincera opinión! Un saludo midu y a seguir!

    • @elwoseopenstepcrew1134
      @elwoseopenstepcrew1134 ปีที่แล้ว

      Trabaje en un sass de cloud hosting muchos años y el sistema de testing lo teníamos com la granja de navegadores, de ahí mi idea, el hacer algo así a pequeña escala me parece muy divertido de explicar, ahora, para que lo usarían la gente ese conocimiento es una película aparte xD

  • @sacrotzenil
    @sacrotzenil ปีที่แล้ว

    @midulive en mi experiencia, lo que mejor resultados me ha dado en estos casos, es hacer una extension de google, y desde alli hacer peticiones. 1000/minuto.

    • @root4040
      @root4040 ปีที่แล้ว

      Que usas?

    • @sacrotzenil
      @sacrotzenil ปีที่แล้ว

      @@root4040 hago extensiones de Chrome ,,😎

  • @diegoperez-mu1dm
    @diegoperez-mu1dm ปีที่แล้ว

    Pero esta forma tan sencilla solo sirve para artículos ?

  • @jeancarlogomez6297
    @jeancarlogomez6297 ปีที่แล้ว

    existe alguna preferencia de hacer web scraping con python o bien con javascript?

    • @ruanmiga
      @ruanmiga ปีที่แล้ว +1

      Es totalmente igual de hecho es mejor con python

  • @rayoseldev819
    @rayoseldev819 ปีที่แล้ว +1

    que crack

  • @fervitto
    @fervitto ปีที่แล้ว

    Midu como haces para que te haga autocompletado en la consola?

    • @marcossaravia8577
      @marcossaravia8577 ปีที่แล้ว

      Tabulador

    • @fervitto
      @fervitto ปีที่แล้ว

      @@marcossaravia8577 si pero me refiero a que le aparecen sugerencias a medida que va escribiendo, eso sabes si es con algun plugin o setting?

    • @juandiegomatute4333
      @juandiegomatute4333 ปีที่แล้ว +1

      Github copilot, si no me equivoco es lo que usa

    • @tristanmusset7629
      @tristanmusset7629 ปีที่แล้ว

      @@fervittoTabnine

  • @CaromheDj
    @CaromheDj ปีที่แล้ว +1

    Me falta más nivel para entenderlo 😢 eso de bun no sabía que existía

  • @TechSpot_Reviews
    @TechSpot_Reviews ปีที่แล้ว +1

    Pudiendolo hacer en python, que sentido tiene hacerlo en js?....JS es lentisimo

  • @AliLopez
    @AliLopez ปีที่แล้ว

    cha me estoy leyendo algo desde mi localhost con este scrapping, muajajaja

  • @luiscarlospallaresascanio2374
    @luiscarlospallaresascanio2374 ปีที่แล้ว +1

    Yo lo hago en python, pero nunca eh hecho eso de cambiar de ip.

  • @ImYouMetahumanCreator
    @ImYouMetahumanCreator หลายเดือนก่อน

    y el link?

  • @carloscarmona8058
    @carloscarmona8058 ปีที่แล้ว +2

    la portada de este video se ve sexy

    • @midulive
      @midulive  ปีที่แล้ว +2

      Ou yeah 🥰

  • @x_y_z_y_x
    @x_y_z_y_x ปีที่แล้ว

    Hacete un cursaso de svelte ::$:$

  • @PGMadScientist
    @PGMadScientist ปีที่แล้ว +2

    yo lo hago,., es decir lo uso de manera personal para muchas pg xD
    hago mi DB y tengo app, movil tv web xD
    video, musica, manga etc.. xD

  • @edarcode8124
    @edarcode8124 4 หลายเดือนก่อน

    no es robar, es extraer información xD

  • @luisebaq
    @luisebaq ปีที่แล้ว +2

    Like para un curso de PHP

  • @richardantonioassistrujill9509
    @richardantonioassistrujill9509 ปีที่แล้ว +2

    Saludame broo

  • @julenmelero
    @julenmelero ปีที่แล้ว

    Esto está bien para páginas como la de cookido de Thermomix y obtener las recetas cuando estés suscrito y no tener que estar pagando todos los años

  • @nantue7435
    @nantue7435 ปีที่แล้ว

    midudev pirata ? jaaja
    minuto 5:31

  • @Danioscu
    @Danioscu ปีที่แล้ว +2

    hola.

  • @Cristhianjdv
    @Cristhianjdv ปีที่แล้ว

    No es que sea magia, detras de ese archivo esta toda la logica o algoritmo para poder extraer la data ordenada. No soy fan de apoyar librerias de este tipo porque al final se vuelven agujero para ataques de hacker.

  • @Xmagnum44Xx
    @Xmagnum44Xx ปีที่แล้ว

    Midu que opinas de que TH-cam haya bloqueado todos los bloqueadores de anuncio en todos los navegadores menos en su queridismo Google Chrome? es eso legal? supongo pero menudos perruzos

  • @vegetoth
    @vegetoth 8 หลายเดือนก่อน

    Háganlo desde 0 sin librerias, sin pulgins para que aprendan a programar

    • @mauriciovazquez1407
      @mauriciovazquez1407 หลายเดือนก่อน

      Es lo que estoy buscando, soy nuevo en el web scraping pero veo que la mayoría usa librerías y frameworks que ya lo hace todo. No puede una persona común y corriente crear su propio web scraper básico y sencillo? Sabes donde puedo obtener más información de web scraper sin librerías?

  • @franciscopoma7216
    @franciscopoma7216 ปีที่แล้ว +1

    MiduHacker

    • @midulive
      @midulive  ปีที่แล้ว +2

      😂 no creo que llegue a tanto