Que grande eres, maestro! A mi me encantan los modelos de clonacion de voz, que por desgracia para Español no esta muy alla, suena mucho a lata todavia, aunque lo que ha dicho otro comentario de los OCR tampoco me desagradan, aunque para eso uso CHATGPT que lo hace de lujo
@@JorgeLamaVarelagracias por la sugerencia. Una duda, por si lo tienes claro: los manuscritos originales están bajo dominio público, pero ¿sabes cuál es la licencia de las imágenes digitalizadas y de las transcripciones existentes de las mismas? Si tenemos acceso a ambos conjuntos de datos podríamos afinar algún modelo de visión para esta tarea :)
Hola muy buen video, hace poco estuve viendo una herramienta nueva que combina Colqwen y ColPali que son codificadores de visión diseñados para la recuperación eficiente de documentos utilizando únicamente la representación de imágenes de las páginas de los documentos y generación de respuestas con modelos de lenguaje visual. Es una técnica que demuestra ser mas eficaz que los tradicionales métodos de OCR. Yo he hecho pruebas y combinando Colqwen y GPT4o las respuestas son bastante precisas, también se puede usar otros modelos como Qwen2-VL-7B-Instruct, LLAMA-3.2-11B-Vision, Pixtral-12B-2409, Molmo-7B-O-0924 y Google Gemini. Muy recomendable para que hagas pruebas en tu canal y así difundir la herramienta. La herramienta se llama localGPT-Vision y la puedes encontrar en github.com/PromtEngineer/localGPT-Vision
A mi me gustan mucho este tipo de vídeos de menos de 20 minutos para enterarme de qué va la vaina y si me interesa ya me informo más. Gracias crack!
Excelente Contendió, se te agradese por la informacion
Gracias por comentar. Me alegra que te haya gustado.
Que grande eres, maestro! A mi me encantan los modelos de clonacion de voz, que por desgracia para Español no esta muy alla, suena mucho a lata todavia, aunque lo que ha dicho otro comentario de los OCR tampoco me desagradan, aunque para eso uso CHATGPT que lo hace de lujo
gran aporte master
Hola. Faltó ver el tema de fórmulas matemáticas, si detecta las integrales y si las resolvería. Muy bueno el video. Un saludo
Excelente video!
Te dejo una pregunta: Para sistemas que trabajan sobre documentos legales, que se esta usando? Que modelos resultan efectivos?
¿Que tipo de pruebas os gustaría ver en los próximos vídeos?
Comparativas de los mejores modelos para OCR, sobre todo para texto manuscrito
@@JorgeLamaVarelagracias por la sugerencia. Una duda, por si lo tienes claro: los manuscritos originales están bajo dominio público, pero ¿sabes cuál es la licencia de las imágenes digitalizadas y de las transcripciones existentes de las mismas? Si tenemos acceso a ambos conjuntos de datos podríamos afinar algún modelo de visión para esta tarea :)
@@LaHoraMaker mi idea inicial era utilizarlo para transcribir mis propias notas manuscritas, a través de libretas tipo RocketBook
Hola muy buen video, hace poco estuve viendo una herramienta nueva que combina Colqwen y ColPali que son codificadores de visión diseñados para la recuperación eficiente de documentos utilizando únicamente la representación de imágenes de las páginas de los documentos y generación de respuestas con modelos de lenguaje visual. Es una técnica que demuestra ser mas eficaz que los tradicionales métodos de OCR. Yo he hecho pruebas y combinando Colqwen y GPT4o las respuestas son bastante precisas, también se puede usar otros modelos como Qwen2-VL-7B-Instruct, LLAMA-3.2-11B-Vision, Pixtral-12B-2409, Molmo-7B-O-0924 y Google Gemini. Muy recomendable para que hagas pruebas en tu canal y así difundir la herramienta. La herramienta se llama localGPT-Vision y la puedes encontrar en github.com/PromtEngineer/localGPT-Vision
pruebas imagen de insectos que pueden ser considerados plagas agricolas