Duelo de modelos de vision: Llama 3. 2 frente a MiniCPM-V usando Msty, un nuevo programa

แชร์
ฝัง
  • เผยแพร่เมื่อ 28 ธ.ค. 2024

ความคิดเห็น • 13

  • @nanchet
    @nanchet 29 วันที่ผ่านมา

    A mi me gustan mucho este tipo de vídeos de menos de 20 minutos para enterarme de qué va la vaina y si me interesa ya me informo más. Gracias crack!

  • @henrymesias1529
    @henrymesias1529 หลายเดือนก่อน +1

    Excelente Contendió, se te agradese por la informacion

    • @LaHoraMaker
      @LaHoraMaker  หลายเดือนก่อน

      Gracias por comentar. Me alegra que te haya gustado.

  • @javaboy6581
    @javaboy6581 2 หลายเดือนก่อน

    Que grande eres, maestro! A mi me encantan los modelos de clonacion de voz, que por desgracia para Español no esta muy alla, suena mucho a lata todavia, aunque lo que ha dicho otro comentario de los OCR tampoco me desagradan, aunque para eso uso CHATGPT que lo hace de lujo

  • @jaimemunoz3025
    @jaimemunoz3025 2 หลายเดือนก่อน

    gran aporte master

  • @ramir4327
    @ramir4327 2 หลายเดือนก่อน

    Hola. Faltó ver el tema de fórmulas matemáticas, si detecta las integrales y si las resolvería. Muy bueno el video. Un saludo

  • @CyberIngeniero
    @CyberIngeniero 2 หลายเดือนก่อน

    Excelente video!
    Te dejo una pregunta: Para sistemas que trabajan sobre documentos legales, que se esta usando? Que modelos resultan efectivos?

  • @LaHoraMaker
    @LaHoraMaker  2 หลายเดือนก่อน

    ¿Que tipo de pruebas os gustaría ver en los próximos vídeos?

    • @JorgeLamaVarela
      @JorgeLamaVarela 2 หลายเดือนก่อน +1

      Comparativas de los mejores modelos para OCR, sobre todo para texto manuscrito

    • @LaHoraMaker
      @LaHoraMaker  2 หลายเดือนก่อน

      @@JorgeLamaVarelagracias por la sugerencia. Una duda, por si lo tienes claro: los manuscritos originales están bajo dominio público, pero ¿sabes cuál es la licencia de las imágenes digitalizadas y de las transcripciones existentes de las mismas? Si tenemos acceso a ambos conjuntos de datos podríamos afinar algún modelo de visión para esta tarea :)

    • @JorgeLamaVarela
      @JorgeLamaVarela 2 หลายเดือนก่อน

      @@LaHoraMaker mi idea inicial era utilizarlo para transcribir mis propias notas manuscritas, a través de libretas tipo RocketBook

    • @TheEltictacdicta
      @TheEltictacdicta 2 หลายเดือนก่อน

      Hola muy buen video, hace poco estuve viendo una herramienta nueva que combina Colqwen y ColPali que son codificadores de visión diseñados para la recuperación eficiente de documentos utilizando únicamente la representación de imágenes de las páginas de los documentos y generación de respuestas con modelos de lenguaje visual. Es una técnica que demuestra ser mas eficaz que los tradicionales métodos de OCR. Yo he hecho pruebas y combinando Colqwen y GPT4o las respuestas son bastante precisas, también se puede usar otros modelos como Qwen2-VL-7B-Instruct, LLAMA-3.2-11B-Vision, Pixtral-12B-2409, Molmo-7B-O-0924 y Google Gemini. Muy recomendable para que hagas pruebas en tu canal y así difundir la herramienta. La herramienta se llama localGPT-Vision y la puedes encontrar en github.com/PromtEngineer/localGPT-Vision

    • @jaimemunoz3025
      @jaimemunoz3025 2 หลายเดือนก่อน

      pruebas imagen de insectos que pueden ser considerados plagas agricolas