¡Un vídeo genial! Han sido casi dos horas, pero se me han pasado volando, toda la información súper interesante y muy bien estructurada y explicada. ¡Gracias por compartir! :)
Cesar gracias por el análisis, muy completo. Dejo los siguientes datos como referencia que obtuve en un Laptop Lenovo de aprox. $900 con Ryzen 7 (7435HS) 16GB RAM + RTX 4060 8GB VRAM en caso de que sean útiles para alguien. LM Studio en Win11 con el modelo Qwen2.5-Coder-14B-Instruct-Q4-GGUF: (GPU Offload de 42/48 capas): +13 Token/s y con Gemma-2-9B-it-SimPO-Q5-GGUF: +16 Token/s (GPU Offload de 40/42 capas). Flash Attention = True. De los múltiples LLMs, estos dos han brindado los resultados más consistentes y de valor en mis proyectos, con aplicación de RAG, con esta configuración basica y limitada de hardware de la cual esperaba menor desempeño. Con LLMs más pequeños de 7 Billones de Parámetros usando Cuantización de 6 bit y carga completa en GPU la velocidad sube a +32 T/s pero la calidad de las respuestas desmejora.
Que buen resumen! Justo hace unos días me compré una 3060 12Gb, los precios mas baratos estaban efectivamente en Amazon y mirar también PCcomponentes reacondicionadas (la mía 229€ estaba en estado "como nuevo" y 3 años de garantía). Tus videos son geniales, muy didácticos y útiles para mantenernos actualizados sobre estas herramientas. Muchas gracias!! :-)
Me ha gustado mucho!!! vas a colgar la presentación en algún sitio? estaría bien tener los enlaces. Justo acabo de pedir un mini m4 32gb con descuento de educación.
Hola, tengo una consulta que hacerte. Estoy viendo muchos vídeos sobre el Mac mini M4 Pro y creo que puede ayudarme a resolver una duda. Quiero comprar el Mini M4 Pro con 64 GB de RAM, 1 TB de SSD y con CPU de 14 núcleos, GPU de 20 núcleos y Neural Engine de 16 núcleos. La broma se sube a casi 3000 euros. Me he dado cuenta de que el Mac Studio M2 Max con CPU de 12 núcleos, GPU de 30 núcleos, Neural Engine de 16 núcleos, 64 GB de memoria unificada y 1 TB de SSD cuesta más o menos lo mismo. Trabajo principalmente con el paquete Adobe (Photoshop, Premiere, After Effects), y ahora tengo el dilema de cuál sería mejor comprar. ¡Espero que me saques de la duda, jajaja! Muchas gracias por el contenido que haces, me encanta tu canal.
Gracias por la charla de ayer. Me pareció súper interesante. Quería consultar una cosa que me están pidiendo en el trabajo y que no sé muy bien si se tienen en cuenta en estos cálculos. Si queremos montar un servidor para alojar una IA de consulta, con RAG sobre la documentación de la empresa y que sea consultado por varios usuarios por openweb UI, ¿hay que multiplicar los cálculos por cada persona que esté lanzando consultas al modelo? Por ejemplo: una 4060 por persona???? Gracias por el contenido que generas
Como funcionaría una Nvidia Tesla p40 de 24gb? Recomendarías una de estas tarjetas para empezar a hacer cosillas con modelos de generación de imágenes?
yo tengo una duda, en mi país México hay ahorita unas tarjetas a buen precio, las RTX 3060 a $5,764.00 MXN con 12 GB, y la mejor en cuanto a relación calidad precio es la 4060 ti de 12 GB con un precio de $10,000.00 y la duda es que seria mejor en esté caso, 2 RTX 3060 ($11,528.00) o una 4060 ti ya que con las 3060 tendría 24 GB
Una pregunta sobre el canal. Disculpad mi desconocimiento, pero he encontrado el podcast y los videos de youtube. Con respecto a los podcast, en mi app de podcasts, el ultimo es de noviembre de 2023. Y los videos parece que hay uno al mes. La pagina web también parece un poco desactualizada. Salen cosas de 2019. No lo comento cómo crítica, sino para cerciorarme de que estoy accediendo a los sitios adecuados.
Hola Isma, gracias por la observación. Ciertamente la web está con contenidos del año del año de maricastaña. Estoy migrando a un nuevo proveedor ahora mismo, incluyendo los contenidos antiguos. En cuanto al podcast, últimamente estoy más centrado en el formato video, porque las LLM se prestan más a demostraciones visuales. Pero lo tengo en cuenta también para revisar qué contenidos pueden funcionar bien sólo como audio. Muchas gracias por el comentario, que ayudará a mejorar en general. Ahora bien... en diciembre vamos a cambiar el ritmo con las publicaciones. ¡Os mantengo informados!
@@LaHoraMaker Genial, gracias. De hecho estaba informandome del tema de poder usar un m4 para temas de inferencia y al saltar tu video me sorpredió mucho por la profundidad del análisis. Me quedé con ganas de más, de hecho voy a ver el resto de videos del canal. Gracias de nuevo por el contenido y el esfuerzo realizado.
Muy bueno el vídeo. Entiendo que dado que no se menciona, la variante del procesador m4 pro, hay dos una con más nucleos de CPU y GPU que otra, no se nota mucho en el rendimiento.
Qué diferencia habría en usar ChatGPT u otra IA de pago mensual? Por qué 3000 euros en un equipo te da para pagar muchos meses de suscripción, lo puedes usar en distintos dispositivos y no se queda obsoleto nunca
Yo creo que principalmente dos temas: Primero la privacidad, ya que todo lo que preguntas o los documentos que le pasas se quedan localmente y segundo es que puedes probar localmente varios modelos y ver cual te gusta más
Ciertamente un equipo de 1800 EUR son 7,5 años de suscripción a ChatGPT (al precio actual). Ahora bien, esta relación empresa suscriptor es tremendamente asimétrica. Algunas cuestiones a considerar: - Ahora mismo OpenAI subsiste gracias a la inyección constante del dinero de distintos inversores. Sus gastos operativos son mayores que sus ingresos y algunos de los mayores potenciales inversores como Apple no han entrado en la última ronda o lo han hecho en menor cantidad que en rondas anteriores (como Microsoft). - El precio de la suscripción está por tanto artificialmente bajo (no cubre costes) gracias a la inversión externa y a la carrera de la IA actual, de que el primero en llegar, es el que se quedará el mercado. Es posible que el precio real del servicio se acabe repercutiendo en el usuario final. Esto lo hemos visto en mercados como el Streaming, donde una vez se capta un grupo de usuarios, comienza a subir el precio de forma anual. - El modelo que ofrece OpenAI puede cambiar o dejar de ofrecerse y tus desarrollos quizás deban reajustarse. Este cambio puede producirse en cualquier momento y para el usuario de ChatGPT es inevitable. - OpenAI ofrece funcionalidades y las quita a su antojo. Ha ofrecido la búsqueda de Bing integrada, luego dejó de ofrecerla, ahora ha sacado su producto de búsqueda (que puede venir con otra nueva suscripción extra a futuro). Inicialmente ofrecía la generación de imagenes de 4 en 4, luego 2, luego 1. - OpenAI saca nuevos modelos más inteligentes, pero los antiguos tienen a funcionar peor con el tiempo (es algo que están investigando porqué). - OpenAI puede no cumplir con la European IA Act y se puede prohibir su uso en Europa de un dia para otro. - Tensiones geopolíticas en los próximos años pueden restringir el acceso determinados servicios ofrecidos desde determinados paises. - Tus datos, consultas y conversaciones se guardan en sus servidores y si no lo configuras, pueden emplearse para entrenar el modelo y mejorar el rendimiento del mismo. - Los datos de salida de un modelo de Open AI no pueden utilizarse para mejorar el rendimiento de otros modelos de la competencia, por lo que si quieres crear datos sintéticos, no podrías hacerlo usando sus modelos. - Determinadas lenguas no están cubiertas por OpenAI y al ser un modelo cerrado, no puede modificarse por parte de terceros... Aquí van algunas cuestiones pero ¡creo que debería hacer un video al respecto!
Gracias por el video, estaba atento a ver que oferta sale de blackfriday para pasar a mejor vida mi 1660 super, y ya pues a por la 4060 A ver si alguno ve a buen precio la 4060TI de 16GB que recomiendas y la pone como comentario.
Maestrazo, ¿algún consejo que puedas darme?, quiero levantar un servidor de Ollama con el modelo de Llama 3.1 en su versión de 70B, ando buscando opciones y esto es lo que he encontrado: - Conseguir una RTX 3090 y una P40 para un total de 48 GB (24 + 24), según usuarios de reddit debe funcionar a la velocidad de la 3090 y es una opción "económica" - Conseguir 2 RTX 3090 y usar el Link para que trabajen en paralelo - Usar AirLLM para reducir mucho el consumo de VRAM (no lo he probado, no sé qué tan lento quede) - Conseguir una RTX A6000 (muy caro a mí criterio) ¿Alguna sugerencia que puedas compartirme sobre esto?
Si puedes conseguir las 2 RTX 3090 con NVLink, creo que de darán el mejor rendimiento (calidad/precio). Ahora bien, antes de comprar el NVLink probaría, porque si la velocidad del bus PCIe es suficiente, el motor de inferencia que utilices puede trabajar con las dos tarjetas más o menos al mismo rendimiento. No mezclaría una RTX3090 y una P40 porque las versiones de CUDA que soportan las tarjetas creo que es distinta y la P40 te va a lastrar la inferencia. AirLLM lo he visto pero tampoco lo he probado. La RTX A6000 Ada son unos 6000-7000 EUR , más el resto del equipo. Un Mac Mini M4 Pro de 64 Gb cuesta 2400 EUR y te permitiría usar unos 56 para la carga de modelos. Ahora bien, rápido rápido, no te va a ir. Según veo da 5.69 tokens/s (mientras que un M2 Ultra 128 Gb da 13,.9 tokens, aunque de segunda mano vale más del doble). Lo único bueno, que justo hoy han anunciado soporte en MLX para flash attention, así que irá un pelín más rápido quizás cyberbus.net/post/29 Suerte con la búsqueda y si encuentras algo interesante, te animo a compartirlo con la comunidad.
Tengo que revisarlo en más detalle. He visto configuraciones con Threadripper y Xeon con componentes más antiguos, otras con tarjetas P40 como la que enlazas. Si tienes un caso de uso concreto, por ejemplo, generación de datos sintéticos, donde prima la calidad frente a la velocidad, puede tener sentido... Voy a darle un ojo y lo comento en un futuro video. Gracias por la sugerencia.
Es usted un todoterreno. Si un tema le apasiona, lo investiga a fondo. Gracias.
Muchas gracias Cesar, aunque te he visto en diferido, me ha parecido un trabajo de recopilación impresionante y claro.
uno de los mejores canales de difusión de IA
¡Un vídeo genial! Han sido casi dos horas, pero se me han pasado volando, toda la información súper interesante y muy bien estructurada y explicada. ¡Gracias por compartir! :)
Muchas gracias por el comentario
Cesar gracias por el análisis, muy completo.
Dejo los siguientes datos como referencia que obtuve en un Laptop Lenovo de aprox. $900 con Ryzen 7 (7435HS) 16GB RAM + RTX 4060 8GB VRAM en caso de que sean útiles para alguien.
LM Studio en Win11 con el modelo Qwen2.5-Coder-14B-Instruct-Q4-GGUF: (GPU Offload de 42/48 capas): +13 Token/s y con Gemma-2-9B-it-SimPO-Q5-GGUF: +16 Token/s (GPU Offload de 40/42 capas). Flash Attention = True.
De los múltiples LLMs, estos dos han brindado los resultados más consistentes y de valor en mis proyectos, con aplicación de RAG, con esta configuración basica y limitada de hardware de la cual esperaba menor desempeño.
Con LLMs más pequeños de 7 Billones de Parámetros usando Cuantización de 6 bit y carga completa en GPU la velocidad sube a +32 T/s pero la calidad de las respuestas desmejora.
Espectacular la comparativa!!. Sigue así!!
Muchas gracias por el comentario, me alegro que te resultara interesante.
Que buen resumen! Justo hace unos días me compré una 3060 12Gb, los precios mas baratos estaban efectivamente en Amazon y mirar también PCcomponentes reacondicionadas (la mía 229€ estaba en estado "como nuevo" y 3 años de garantía). Tus videos son geniales, muy didácticos y útiles para mantenernos actualizados sobre estas herramientas. Muchas gracias!! :-)
Me ha gustado mucho!!! vas a colgar la presentación en algún sitio? estaría bien tener los enlaces. Justo acabo de pedir un mini m4 32gb con descuento de educación.
Hola, tengo una consulta que hacerte. Estoy viendo muchos vídeos sobre el Mac mini M4 Pro y creo que puede ayudarme a resolver una duda. Quiero comprar el Mini M4 Pro con 64 GB de RAM, 1 TB de SSD y con CPU de 14 núcleos, GPU de 20 núcleos y Neural Engine de 16 núcleos. La broma se sube a casi 3000 euros. Me he dado cuenta de que el Mac Studio M2 Max con CPU de 12 núcleos, GPU de 30 núcleos, Neural Engine de 16 núcleos, 64 GB de memoria unificada y 1 TB de SSD cuesta más o menos lo mismo. Trabajo principalmente con el paquete Adobe (Photoshop, Premiere, After Effects), y ahora tengo el dilema de cuál sería mejor comprar. ¡Espero que me saques de la duda, jajaja! Muchas gracias por el contenido que haces, me encanta tu canal.
Muy completo, gracias!
Gracias por la charla de ayer. Me pareció súper interesante. Quería consultar una cosa que me están pidiendo en el trabajo y que no sé muy bien si se tienen en cuenta en estos cálculos. Si queremos montar un servidor para alojar una IA de consulta, con RAG sobre la documentación de la empresa y que sea consultado por varios usuarios por openweb UI, ¿hay que multiplicar los cálculos por cada persona que esté lanzando consultas al modelo? Por ejemplo: una 4060 por persona???? Gracias por el contenido que generas
Como funcionaría una Nvidia Tesla p40 de 24gb?
Recomendarías una de estas tarjetas para empezar a hacer cosillas con modelos de generación de imágenes?
yo tengo una duda, en mi país México hay ahorita unas tarjetas a buen precio, las RTX 3060 a $5,764.00 MXN con 12 GB, y la mejor en cuanto a relación calidad precio es la 4060 ti de 12 GB con un precio de $10,000.00 y la duda es que seria mejor en esté caso, 2 RTX 3060 ($11,528.00) o una 4060 ti ya que con las 3060 tendría 24 GB
Una pregunta sobre el canal. Disculpad mi desconocimiento, pero he encontrado el podcast y los videos de youtube. Con respecto a los podcast, en mi app de podcasts, el ultimo es de noviembre de 2023. Y los videos parece que hay uno al mes. La pagina web también parece un poco desactualizada. Salen cosas de 2019. No lo comento cómo crítica, sino para cerciorarme de que estoy accediendo a los sitios adecuados.
Hola Isma, gracias por la observación. Ciertamente la web está con contenidos del año del año de maricastaña. Estoy migrando a un nuevo proveedor ahora mismo, incluyendo los contenidos antiguos.
En cuanto al podcast, últimamente estoy más centrado en el formato video, porque las LLM se prestan más a demostraciones visuales. Pero lo tengo en cuenta también para revisar qué contenidos pueden funcionar bien sólo como audio.
Muchas gracias por el comentario, que ayudará a mejorar en general. Ahora bien... en diciembre vamos a cambiar el ritmo con las publicaciones. ¡Os mantengo informados!
@@LaHoraMaker Genial, gracias. De hecho estaba informandome del tema de poder usar un m4 para temas de inferencia y al saltar tu video me sorpredió mucho por la profundidad del análisis. Me quedé con ganas de más, de hecho voy a ver el resto de videos del canal. Gracias de nuevo por el contenido y el esfuerzo realizado.
Muy bueno el vídeo. Entiendo que dado que no se menciona, la variante del procesador m4 pro, hay dos una con más nucleos de CPU y GPU que otra, no se nota mucho en el rendimiento.
Hola Isma, mi intuición es que la diferencia de rendimiento será equivalente al número de cores con un 10-15% de diferencia.
Muchísimas gracias
Buen análisis. El video debería estar pineado en la portada de google 😊. Un abrazo.
Qué diferencia habría en usar ChatGPT u otra IA de pago mensual?
Por qué 3000 euros en un equipo te da para pagar muchos meses de suscripción, lo puedes usar en distintos dispositivos y no se queda obsoleto nunca
Yo creo que principalmente dos temas: Primero la privacidad, ya que todo lo que preguntas o los documentos que le pasas se quedan localmente y segundo es que puedes probar localmente varios modelos y ver cual te gusta más
Ciertamente un equipo de 1800 EUR son 7,5 años de suscripción a ChatGPT (al precio actual). Ahora bien, esta relación empresa suscriptor es tremendamente asimétrica. Algunas cuestiones a considerar:
- Ahora mismo OpenAI subsiste gracias a la inyección constante del dinero de distintos inversores. Sus gastos operativos son mayores que sus ingresos y algunos de los mayores potenciales inversores como Apple no han entrado en la última ronda o lo han hecho en menor cantidad que en rondas anteriores (como Microsoft).
- El precio de la suscripción está por tanto artificialmente bajo (no cubre costes) gracias a la inversión externa y a la carrera de la IA actual, de que el primero en llegar, es el que se quedará el mercado. Es posible que el precio real del servicio se acabe repercutiendo en el usuario final. Esto lo hemos visto en mercados como el Streaming, donde una vez se capta un grupo de usuarios, comienza a subir el precio de forma anual.
- El modelo que ofrece OpenAI puede cambiar o dejar de ofrecerse y tus desarrollos quizás deban reajustarse. Este cambio puede producirse en cualquier momento y para el usuario de ChatGPT es inevitable.
- OpenAI ofrece funcionalidades y las quita a su antojo. Ha ofrecido la búsqueda de Bing integrada, luego dejó de ofrecerla, ahora ha sacado su producto de búsqueda (que puede venir con otra nueva suscripción extra a futuro). Inicialmente ofrecía la generación de imagenes de 4 en 4, luego 2, luego 1.
- OpenAI saca nuevos modelos más inteligentes, pero los antiguos tienen a funcionar peor con el tiempo (es algo que están investigando porqué).
- OpenAI puede no cumplir con la European IA Act y se puede prohibir su uso en Europa de un dia para otro.
- Tensiones geopolíticas en los próximos años pueden restringir el acceso determinados servicios ofrecidos desde determinados paises.
- Tus datos, consultas y conversaciones se guardan en sus servidores y si no lo configuras, pueden emplearse para entrenar el modelo y mejorar el rendimiento del mismo.
- Los datos de salida de un modelo de Open AI no pueden utilizarse para mejorar el rendimiento de otros modelos de la competencia, por lo que si quieres crear datos sintéticos, no podrías hacerlo usando sus modelos.
- Determinadas lenguas no están cubiertas por OpenAI y al ser un modelo cerrado, no puede modificarse por parte de terceros...
Aquí van algunas cuestiones pero ¡creo que debería hacer un video al respecto!
Gracias por el video, estaba atento a ver que oferta sale de blackfriday para pasar a mejor vida mi 1660 super, y ya pues a por la 4060
A ver si alguno ve a buen precio la 4060TI de 16GB que recomiendas y la pone como comentario.
Muy interesante, gracias!
Maestrazo, ¿algún consejo que puedas darme?, quiero levantar un servidor de Ollama con el modelo de Llama 3.1 en su versión de 70B, ando buscando opciones y esto es lo que he encontrado:
- Conseguir una RTX 3090 y una P40 para un total de 48 GB (24 + 24), según usuarios de reddit debe funcionar a la velocidad de la 3090 y es una opción "económica"
- Conseguir 2 RTX 3090 y usar el Link para que trabajen en paralelo
- Usar AirLLM para reducir mucho el consumo de VRAM (no lo he probado, no sé qué tan lento quede)
- Conseguir una RTX A6000 (muy caro a mí criterio)
¿Alguna sugerencia que puedas compartirme sobre esto?
Si puedes conseguir las 2 RTX 3090 con NVLink, creo que de darán el mejor rendimiento (calidad/precio). Ahora bien, antes de comprar el NVLink probaría, porque si la velocidad del bus PCIe es suficiente, el motor de inferencia que utilices puede trabajar con las dos tarjetas más o menos al mismo rendimiento.
No mezclaría una RTX3090 y una P40 porque las versiones de CUDA que soportan las tarjetas creo que es distinta y la P40 te va a lastrar la inferencia.
AirLLM lo he visto pero tampoco lo he probado.
La RTX A6000 Ada son unos 6000-7000 EUR , más el resto del equipo. Un Mac Mini M4 Pro de 64 Gb cuesta 2400 EUR y te permitiría usar unos 56 para la carga de modelos. Ahora bien, rápido rápido, no te va a ir.
Según veo da 5.69 tokens/s (mientras que un M2 Ultra 128 Gb da 13,.9 tokens, aunque de segunda mano vale más del doble). Lo único bueno, que justo hoy han anunciado soporte en MLX para flash attention, así que irá un pelín más rápido quizás cyberbus.net/post/29
Suerte con la búsqueda y si encuentras algo interesante, te animo a compartirlo con la comunidad.
Gracias !!!!
Muy buen análisis
Como veis esta opción?th-cam.com/video/dHTvpUlWFbk/w-d-xo.html
Tengo que revisarlo en más detalle. He visto configuraciones con Threadripper y Xeon con componentes más antiguos, otras con tarjetas P40 como la que enlazas. Si tienes un caso de uso concreto, por ejemplo, generación de datos sintéticos, donde prima la calidad frente a la velocidad, puede tener sentido...
Voy a darle un ojo y lo comento en un futuro video. Gracias por la sugerencia.
No conoces el truco de la computación infinita?
¿Tiene que ver con los nuevos transistores de 1nm?
Es mejor usar una APU de amd y comprarse 128 gb de ram
Vendo un MacBook M3 max 36 de ram si alguien le interesa, solo en España ( razón de venta compre otro )
Precio? 14 o 16
¿Qué tal funciona con LLMs? ¿Alguna prueba con Ollama u otro software de inferencia para saber que tal funciona para este tipo de tareas?
@@LaHoraMaker pues te puedo mostrar en un vídeo corriendo llama local
@@daviddqt 14 lo puse en wallapop por 2900 pero evidente no lo venderé en els acepto ofertas
@@LaHoraMaker como te hablo al privado hay forma en youtube?