Olvidé mencionar que el Llama 3.2 3B (Q4_K_M) en mi Macbook M1 Pro, utilizó como máximo 5GB de VRAM. Podría variar mucho dependiendo del hardware, de la cuantización del modelo y mas factores, si lo pruebas y quieres compartir la experiencia que tuviste con tu hardware puedes responder a este comentario
Muchísimas Gracias por el video!! Para un usuario autodidacta y que está aprendiendo desde cero, es muy pedagógica la explicación que realizas. Los 25 minutos mejor aprovechados en las ultimas semanas.
Amigo, que buen, que digo bueno, buenisimo video, ya habia descargado este llm y termine desintalandolo porq no me servia para lo q nesesitaba (aunque realmente fue culpa del otro yutuber), que justamente era eso mismo que estas haciendo tu aqui, DIOS TE BENDIGA, QUE BUEN VIDEO, te ganaste mi sub y un like
Jajajaja genial! Gracias por la bendición y espero que le saques mucho provecho. No dudes en comentar si necesitas ayuda con alguna otra herramienta para poder tener más ideas para videos
Miguelito te agradezco inmensamente esa información la estaba buscando porque ya lo había visto pero de una forma más extensa Pero claro con esta forma que tú lo explicas nos podría suponer menos espacio
"¡Excelente video! La explicación es súper clara, no tienes nada que envidiar a los grandes divulgadores de IA. Gracias a tu guía, he logrado instalar un LLM localmente sin problemas. ¡Sigue así!
Excelente video Miguel. Muy didáctico el paso a paso y muy clara la explicación, incluso escuchandote a 2X ;) Sigo atento a nuevos videos. Me interesa el tema de los agentes IA para automatizaciones. Si es de tu interés y puedes hacer un video sobre el tema, bienvenido sea. Saludos.
Muchas gracias por la Informacion, en espera del video de Agente Zero el cual ya lo tengo instalado pero me parece interesante que nos puedas explicar con ejemplos todo lo que se puede lograr con el.
Gracias por tu comment Gildardo! Te cuento como anécdota que acabo de configurar Agent Zero mal y se almorzó 20 dólares de créditos de la API en minutos jajajajaja pero me niego a rendirme, ya viene ese video pronto!
Gracias por el video, me encantó. Creo que me puede servir para una cosa pero no logro hacerlo funcionar. Tengo alrededor de 1500 archivos pdf que quiero como contexto para escribir un informe, no logré hacer el embbeding usando GPT4all y pensée que con anythingllm podría. Cómo estan en carpetas y subcarpetas opté por subirlos a github para ver si así los podía cargar, pero anythingllm solo me toma la carpeta raiz y el redme. Alguien me puede ayudar. Ya me uní a la comunidad y estoy esperando que me acepten.
Muy interesante, gracias. En mi pc Windows 11 de 8GB de RAM demora en responder tantito. Sin embargo, todo genial, claro hay cosas que mejorar, pero para iniciar es muy bueno. Gracias. Espero con ansias probar el modelo multimodal.
El componente esencial para correr estos modelos de IA es tener una GPU o NPU reciente. Caso contrario Ollama correrá el modelo en CPU y RAM, lo cual lo vuele muy lento e ineficiente.
Espectacular trabajo como contador y logistico y seria espectacular hacer consultas a lo legislacion vigente en taxes o simplemente normas Gaap ...❤ muchas gracias
Gracias Yero. Si deseas me puedes compartir cualquier problema del mundo real que tengas en tu práctica laboral, me gustaría grabar un video intentando resolverlos
Hermanito, te rifaste en la explicación del video. ¡Quedé asombrado! Además, me sirvió de mucho poder seguir tus instrucciones. 🔥💯 Tengo una pregunta: ¿Cómo se llama el programa donde emulas el W11, bro? Además, ¿podrías hacer un video dónde explicas la personalización de tu terminal? Luce increíble.
Muchas gracias JS! El programa que uso es Parallels. Y con gusto, voy a agregarlo a mis videos pendientes, pero por lo pronto puedes chequear este video th-cam.com/video/CF1tMjvHDRA/w-d-xo.html
Miguelito saludos, primer video que veo tuyo y me gustó casi todo, solo realiza ejercicios de modulación de voz para que se te entienda mejor y no es hate lo digo a nivel de retroalimentación positiva ( para que mejores y cautives más audiencia). No acostumbro a suscribirme con cualquier TH-camr pero aquí va mi suscripción a tu canal y comunidad, veo futuro en ti.
Gracias por la retroalimentación, la tendré en mente, aunque debo ser cuidadoso de no pensarmelo mucho porque tengo una terrible tendencia a quedarme en inacción pensando en las cosas que podría mejorar. Me ha ido mucho mejor aceptando mis limitaciones y tratando de publicar con todos los defectos, pero con la intención de aportar y ayudar
Agent Zero es mucho mejor, porque permite ejecutar agentes en paralelo y que hablen entre ellos , ademas se automatiza mucho mas y es super customizable, lo unico malo es q no es para todo el mundo ya que requiere de conocimientos tecnicos, no es una ventanita negra q se abre y jalas otra ventanita xD
O sea, Agent Zero funciona con los modelos, pero la verdad está increíble. He intentado descifrar cómo lo hicieron, porque incluso para alguien que sabe del tema es difícil entenderlo. Los modelos LLaMA están un poco limitados para algunas cosas, pero de la forma en que se implementó el agente, el modelo casi no se confunde. Eso le da el mérito de ser algo muy avanzado en técnicas de prompt y otras áreas. Aún no encuentro a alguien en español que explique bien el funcionamiento de ese agente.
Felicidades por el video y gracias por compartir. Suscrito! Sabes si es necesario muchos requerimientos Pc para trabajar en local? Un saludo y que sigas bien.
Muchas Gracias Luis! Es dificil calcular el tema de los requerimientos, tengo planeado un video hablando de eso porque hay bastante que considerar. Por ahora puedes hacer la prueba en tu computador o inclusive en algún celular con apps como PocketPal y H2O AI Personal GPT (aun no las he probado así que espero no estarte recomendando virus jajaja).
Error: Invalid `prisma.workspaces.create()` invocation: The table `main.workspaces` does not exist in the current database. ME sale este error al darle un numbre al "Nuevo Espacio de Trabajo" A alguien mas le paso?
¡Muchas gracias por el vídeo, Miguel! ¿Se puede instalar el modelo en un servidor y chatear con él desde otro equipo de la misma red?. Gracias de antemano!
Gracias José. De hecho cuando ejecutas Ollama estas ejecutando un pequeño servidor local en localhost:11434 al cual dependiendo de la configuración de tu red podrías acceder desde otro computador usando ip_local_de_tu_equipo_corriendo_ollama:11434
Gracias a ti Rafael. De ese tema se muy muy poco así que espero no meter la pata: Parece que AnythingLLM que es el sistema que te permite comunicarte con el modelo de IA, soporta Latex (Mediante MathJax), que ayuda a renderizar formulas matemáticas. Ahora los modelos pequeños como llama 3.2 seguramente tendrán limitaciones al momento de entender las matemáticas así que no tengo mucha confianza en que hagan un gran trabajo asistiendote con eso. Pero en teoría deberías poder escribir las fórmulas en formato Latex y deberías poder ver las respuestas del modelo correctamente en AnythingLLM. Además podrías usar un modelo más inteligente como Llama 3.2 90b con Groq como proveedor, y contarnos que resultados obtuviste!
Hola. Supongamos lo instaló en una PC. Cómo se hace para que las demás personas de la oficina puedan interactuar con los documentos desde los computadores de ellos?
Ollama es a su vez un servidor, que se expone a la red local (dependiendo de la configuración de la infraestructura de red, firewalls y permisos locales) en el IP de tu ordenador en el puerto 11434. En otro ordenador de la misma red (si todo está configurado correctamente) podrías abrir AnythingLLM y acceder al servidor de Ollama de tu otro equipo estableciendo la IP-de-tu-otro-ordenador:11434 en la configuración. Tengo un video de esto pendiente!
¡Muy bueno tu video de OLLama y más cosas! Varias me eran completamente desconocidas. Sólo una contribución a tus videos de mi parte: con todo respeto, ¿podrías hablar un poquito más despacio, por favor? En ocasiones no comprendo totalmente lo que dices.
Gracias Juan!. Hay dos herramientas que prometen eso, pero aun no las he probado: PocketPal y H2O AI Personal GPT. Si las pruebas cuéntanos tu experiencia
Muchas gracias. Tengo que dedicarle un video entero a hablar del hardware, porque son muchas variables que determinarán que modelos podrás ejecutar, con que velocidad, nivel de cuantización, y más. Podría recomendarte tarjetas gráficas de nvidia serie 3000 en adelante, pero son costosas y no estaríamos considerando todas las piezas de la ecuación, lo que podría terminar en cuellos de botella de performance. Así que por ahora te quedo debiendo la respuesta para un nuevo video donde vamos a tener el tiempo para explorar ese tema correctamente.
Holaa! Utilizo un programa que se llama screen studio, pero solo está disponible en macOS. Dentro de ese programa agregué el fondo de windows xp para extra nostalgia. Te dejo un link de afiliado por si te animas a adquirirlo: screenstudio.lemonsqueezy.com/?aff=Ywr0w Podría hacer un tutorial de como armar algo parecido con OBS si tienes PC, házmelo saber
Para entender la privacidad del sistema que usamos en este video, necesitamos revisar cada uno de sus componentes: Anything LLM: Es un proyecto open-source, cualquiera puede revisar su código en búsqueda de componentes maliciosos. Se puede conectar a internet para descargar modelos de IA. En mi opinion es altamente confiable. Ollama: Otro proyecto open-source. Se conecta al internet para descargar modelos de IA. Altamente confiable en mi opinión. Groq: Es un Software-as-a-Service. Dado que es una plataforma cerrada no podemos revisar el código de su software y nos quedamos con su palabra en base a su política de privacidad y manejo de datos. En mi opinion es reputable y confiable. Si manejas datos muy sensibles, lo ideal sería separar ese equipo totalmente de cualquier red, pero en general, estos sistemas de código abierto tienen un perfil de seguridad más robusto que disminuye la posibilidad de que se filtren tus conversaciones. De todas maneras sería mejor consultar con un experto en seguridad.
La mac donde probé tiene 16GB de VRAM, el modelo de 3B utilizó como máximo 6GB, que sería el 40% approx. El modelo tambien puede correr en CPU, y en ese caso utilizará la memoria RAM. Todo eso lo maneja Ollama en base a tu hardware, aunque es posible jugar con esa configuración
El problema en este caso es que la capacidad de Llama 3.2 de usar herramientas es muy limitada (agent zero es un framework de herramientas y coordinación para LLMs). Es como si existiera un umbral de inteligencia que el modelo debe superar para que agent zero opere correctamente. También depende de la tarea. Recién estuve probando Agent Zero con GPT4o-Mini para armar una app con NextJS, supabase, shadcn. Fracasó. Probé con claude 3.5 sonnet, y éxito. Aunque ahí seguimos experimentando
Estuve probando el modelo y encuentro que es muy lento en un portatil que tiene buen procesador y memoria. Podrías contarnos tú experiencia de manejo. Gracias.
Es complicado encontrar el cuello de botella en el performance del modelo porque hay muchos factores a considerar: - Correr modelos usando el CPU es generalmente lento. Es preferible usar GPU pero dependiendo del hardware esto podría no ser posible. - Es el hardware, particularmente la GPU, compatible con las cargas de trabajo de IA que queremos utilizar? - Tiene el sistema suficiente memoria VRAM y RAM para correr el modelo? - Se está generando latencia adicional por cuellos de botella en los buses de datos entre los componentes de hardware? - Está el sistema operativo, librerías y componentes de software funcionando correctamente? Este es un tema al que le voy a dedicar más cabeza porque estoy buscando armarme una PC para correr modelos de IA, y necesito aprender de configuraciones de hardware que funcionen muy bien para esa tarea optimizando costos. Es buen material para un nuevo video así que gracias por darme la idea.
@@miguelitohacks Así es. Los diferentes modelos funcionan muy bien cuando tienen una tecnología detrás que los respalda. Pero si una persona del común y corriente instala un modelo localmente en un equipo razonablemente rápido y consistente, seguramente se llevará decepciones muy grandes. Creo que sería importante abrir un área de investigación sobre configuraciones de equipos locales que ayuden a que IA funcione no solamente más eficiente; sino, de manera más acertada. Es un poco incursionar en el tema de modelos de re-entrenamiento como aparentemente trabaja el modelo o1. Gracias por tú conocimiento.
A mí me gusta explorar estas herramientas no para buscar perfección, sino para aprender y experimentar. Es esa experimentación de toda una comunidad la que ayuda a que estas tecnologías alcancen su máximo potencial
Olvidé mencionar que el Llama 3.2 3B (Q4_K_M) en mi Macbook M1 Pro, utilizó como máximo 5GB de VRAM. Podría variar mucho dependiendo del hardware, de la cuantización del modelo y mas factores, si lo pruebas y quieres compartir la experiencia que tuviste con tu hardware puedes responder a este comentario
cual es el pc que utilisaste
@@Harry-37 una Macbook Pro M1 Pro del 2021, 16gb de ram
Muy buen vídeo Miguel!
Que es VRAM ?? Es la ram q conocemos desde hace mucho?
@@handakazuma1846Es la memoria de la tarjeta gráfica o memoria de video.
Muchísimas Gracias por el video!! Para un usuario autodidacta y que está aprendiendo desde cero, es muy pedagógica la explicación que realizas. Los 25 minutos mejor aprovechados en las ultimas semanas.
Genial José, me alegro de que te haya sido de ayuda!
Explicas muy bien, se hace agradable escucharte, eres un gran comunicador, sigue adelante 👏👏
Hola Pepe, muchas gracias por tu comentario, me has alegrado la tarde, y que gusto que te haya servido el video!
Gracias haces que los que queremos aprender queramos seguir aprendiendo.
Excelente video, espero que tu canal crezca muchísimo, porque el nivel de tu contenido es increíble
Amigo, que buen, que digo bueno, buenisimo video, ya habia descargado este llm y termine desintalandolo porq no me servia para lo q nesesitaba (aunque realmente fue culpa del otro yutuber), que justamente era eso mismo que estas haciendo tu aqui, DIOS TE BENDIGA, QUE BUEN VIDEO, te ganaste mi sub y un like
Jajajaja genial! Gracias por la bendición y espero que le saques mucho provecho. No dudes en comentar si necesitas ayuda con alguna otra herramienta para poder tener más ideas para videos
Miguelito te agradezco inmensamente esa información la estaba buscando porque ya lo había visto pero de una forma más extensa Pero claro con esta forma que tú lo explicas nos podría suponer menos espacio
Genial Mario, que gusto que te haya servido! Si tienes más ideas de videos que te podrían resultar útiles no dudes en dejarme un comentario
"¡Excelente video! La explicación es súper clara, no tienes nada que envidiar a los grandes divulgadores de IA. Gracias a tu guía, he logrado instalar un LLM localmente sin problemas. ¡Sigue así!
Excelentisimo Pablo! me alegro mucho de que hayas logrado experimentar y aprender algo nuevo
Excelente video Miguel. Muy didáctico el paso a paso y muy clara la explicación, incluso escuchandote a 2X ;) Sigo atento a nuevos videos. Me interesa el tema de los agentes IA para automatizaciones. Si es de tu interés y puedes hacer un video sobre el tema, bienvenido sea. Saludos.
Muchas gracias por la Informacion, en espera del video de Agente Zero el cual ya lo tengo instalado pero me parece interesante que nos puedas explicar con ejemplos todo lo que se puede lograr con el.
Gracias por tu comment Gildardo! Te cuento como anécdota que acabo de configurar Agent Zero mal y se almorzó 20 dólares de créditos de la API en minutos jajajajaja pero me niego a rendirme, ya viene ese video pronto!
Gracias por el video, me encantó. Creo que me puede servir para una cosa pero no logro hacerlo funcionar. Tengo alrededor de 1500 archivos pdf que quiero como contexto para escribir un informe, no logré hacer el embbeding usando GPT4all y pensée que con anythingllm podría. Cómo estan en carpetas y subcarpetas opté por subirlos a github para ver si así los podía cargar, pero anythingllm solo me toma la carpeta raiz y el redme. Alguien me puede ayudar. Ya me uní a la comunidad y estoy esperando que me acepten.
Segundo video que me encuentro tuyo, bastante bueno el contenido asi que tienes un suscriptor mas! Saludos!
genial, gracias!
increible, gracias por crear este tipo de contenido
My bien Miguelito, ya me uni a tu comunidad,. Espero mucho de ella. Saludos desde Ecuador
Genial Ricardo, un gusto!
Muy buen video amigo, podrías explicar con un ejemplo sencillo cómo se podría conectar Ollama a una API externa ? muchas gracias
Hola, que modelo recomiendas para crear IA que funcione en un celular respondiendo preguntas de archivos solo locales ? … excelente canal saludos
¡Qué interesante! ¿Alguien ha usado la versión multimodal de Llama 3.2? Me gustaría saber si realmente puede responder preguntas sobre imágenes.
Muy interesante, gracias. En mi pc Windows 11 de 8GB de RAM demora en responder tantito. Sin embargo, todo genial, claro hay cosas que mejorar, pero para iniciar es muy bueno. Gracias. Espero con ansias probar el modelo multimodal.
Cual es tu modelo disculpa
El componente esencial para correr estos modelos de IA es tener una GPU o NPU reciente. Caso contrario Ollama correrá el modelo en CPU y RAM, lo cual lo vuele muy lento e ineficiente.
Espectacular trabajo como contador y logistico y seria espectacular hacer consultas a lo legislacion vigente en taxes o simplemente normas Gaap ...❤ muchas gracias
Gracias Yero. Si deseas me puedes compartir cualquier problema del mundo real que tengas en tu práctica laboral, me gustaría grabar un video intentando resolverlos
Hermanito, te rifaste en la explicación del video. ¡Quedé asombrado! Además, me sirvió de mucho poder seguir tus instrucciones. 🔥💯
Tengo una pregunta: ¿Cómo se llama el programa donde emulas el W11, bro?
Además, ¿podrías hacer un video dónde explicas la personalización de tu terminal? Luce increíble.
Muchas gracias JS!
El programa que uso es Parallels. Y con gusto, voy a agregarlo a mis videos pendientes, pero por lo pronto puedes chequear este video th-cam.com/video/CF1tMjvHDRA/w-d-xo.html
Miguelito saludos, primer video que veo tuyo y me gustó casi todo, solo realiza ejercicios de modulación de voz para que se te entienda mejor y no es hate lo digo a nivel de retroalimentación positiva ( para que mejores y cautives más audiencia). No acostumbro a suscribirme con cualquier TH-camr pero aquí va mi suscripción a tu canal y comunidad, veo futuro en ti.
Gracias por la retroalimentación, la tendré en mente, aunque debo ser cuidadoso de no pensarmelo mucho porque tengo una terrible tendencia a quedarme en inacción pensando en las cosas que podría mejorar. Me ha ido mucho mejor aceptando mis limitaciones y tratando de publicar con todos los defectos, pero con la intención de aportar y ayudar
Agent Zero es mucho mejor, porque permite ejecutar agentes en paralelo y que hablen entre ellos , ademas se automatiza mucho mas y es super customizable, lo unico malo es q no es para todo el mundo ya que requiere de conocimientos tecnicos, no es una ventanita negra q se abre y jalas otra ventanita xD
O sea, Agent Zero funciona con los modelos, pero la verdad está increíble. He intentado descifrar cómo lo hicieron, porque incluso para alguien que sabe del tema es difícil entenderlo. Los modelos LLaMA están un poco limitados para algunas cosas, pero de la forma en que se implementó el agente, el modelo casi no se confunde. Eso le da el mérito de ser algo muy avanzado en técnicas de prompt y otras áreas. Aún no encuentro a alguien en español que explique bien el funcionamiento de ese agente.
¿Cuál es la diferencia (Ventajas) entre este servicio y el que te ofrece Perplexity?
Felicidades por el video y gracias por compartir. Suscrito! Sabes si es necesario muchos requerimientos Pc para trabajar en local? Un saludo y que sigas bien.
Muchas Gracias Luis! Es dificil calcular el tema de los requerimientos, tengo planeado un video hablando de eso porque hay bastante que considerar. Por ahora puedes hacer la prueba en tu computador o inclusive en algún celular con apps como PocketPal y H2O AI Personal GPT (aun no las he probado así que espero no estarte recomendando virus jajaja).
Excelente Miguelito
Error: Invalid `prisma.workspaces.create()` invocation: The table `main.workspaces` does not exist in the current database. ME sale este error al darle un numbre al "Nuevo Espacio de Trabajo" A alguien mas le paso?
¡Muchas gracias por el vídeo, Miguel! ¿Se puede instalar el modelo en un servidor y chatear con él desde otro equipo de la misma red?. Gracias de antemano!
Gracias José. De hecho cuando ejecutas Ollama estas ejecutando un pequeño servidor local en localhost:11434 al cual dependiendo de la configuración de tu red podrías acceder desde otro computador usando ip_local_de_tu_equipo_corriendo_ollama:11434
Gracias de nuevo, Miguel! Lo probaré. 👍
Muchísimas gracias Miguel. Una pregunta, como se hace para ingresar a ese modelo de IA una fórmula matemática para que la resuelva? Es posible?
Gracias a ti Rafael. De ese tema se muy muy poco así que espero no meter la pata: Parece que AnythingLLM que es el sistema que te permite comunicarte con el modelo de IA, soporta Latex (Mediante MathJax), que ayuda a renderizar formulas matemáticas. Ahora los modelos pequeños como llama 3.2 seguramente tendrán limitaciones al momento de entender las matemáticas así que no tengo mucha confianza en que hagan un gran trabajo asistiendote con eso. Pero en teoría deberías poder escribir las fórmulas en formato Latex y deberías poder ver las respuestas del modelo correctamente en AnythingLLM. Además podrías usar un modelo más inteligente como Llama 3.2 90b con Groq como proveedor, y contarnos que resultados obtuviste!
Excelente trabajo oye esto se puede usar en moodle para ayudar a revisión de trabajos??
Gracias Felipe. No estoy seguro y seria bueno probarlo, lo agrego a mis videos pendientes de grabar!
gran aporte felicitaciones
Gracias Jaime!
Hola. Supongamos lo instaló en una PC. Cómo se hace para que las demás personas de la oficina puedan interactuar con los documentos desde los computadores de ellos?
Ollama es a su vez un servidor, que se expone a la red local (dependiendo de la configuración de la infraestructura de red, firewalls y permisos locales) en el IP de tu ordenador en el puerto 11434. En otro ordenador de la misma red (si todo está configurado correctamente) podrías abrir AnythingLLM y acceder al servidor de Ollama de tu otro equipo estableciendo la IP-de-tu-otro-ordenador:11434 en la configuración. Tengo un video de esto pendiente!
¡Muy bueno tu video de OLLama y más cosas! Varias me eran completamente desconocidas. Sólo una contribución a tus videos de mi parte: con todo respeto, ¿podrías hablar un poquito más despacio, por favor? En ocasiones no comprendo totalmente lo que dices.
Esta chingon tu contenido bro, felicidades. ¿que estudias?
Ahora estoy estudiando programación y estos sistemas de IA. Muchas gracias por tu comentario!
Hoy que bien video, estás aplicaciones se pueden ejecutar Desde un dispositivo móvil? Gracias.
Gracias Juan!. Hay dos herramientas que prometen eso, pero aun no las he probado: PocketPal y H2O AI Personal GPT. Si las pruebas cuéntanos tu experiencia
Gracias por el video. ¿Con que configuración se recomienda comprar una PC con Windows para correr modelos chicos, nivel usuario?
Muchas gracias. Tengo que dedicarle un video entero a hablar del hardware, porque son muchas variables que determinarán que modelos podrás ejecutar, con que velocidad, nivel de cuantización, y más. Podría recomendarte tarjetas gráficas de nvidia serie 3000 en adelante, pero son costosas y no estaríamos considerando todas las piezas de la ecuación, lo que podría terminar en cuellos de botella de performance. Así que por ahora te quedo debiendo la respuesta para un nuevo video donde vamos a tener el tiempo para explorar ese tema correctamente.
Genial!!! Gracias!!!!
Gracias por comentar
Hola! Con que programa grabas tu pantalla? Y como haces para tener el fondo de windows?
Holaa! Utilizo un programa que se llama screen studio, pero solo está disponible en macOS. Dentro de ese programa agregué el fondo de windows xp para extra nostalgia. Te dejo un link de afiliado por si te animas a adquirirlo: screenstudio.lemonsqueezy.com/?aff=Ywr0w
Podría hacer un tutorial de como armar algo parecido con OBS si tienes PC, házmelo saber
Pregunta, corre 100% local y no hace ni una conexion hacia afuera? pregunto por un tema de privacidad de datos sencibles ..
Para entender la privacidad del sistema que usamos en este video, necesitamos revisar cada uno de sus componentes:
Anything LLM: Es un proyecto open-source, cualquiera puede revisar su código en búsqueda de componentes maliciosos. Se puede conectar a internet para descargar modelos de IA. En mi opinion es altamente confiable.
Ollama: Otro proyecto open-source. Se conecta al internet para descargar modelos de IA. Altamente confiable en mi opinión.
Groq: Es un Software-as-a-Service. Dado que es una plataforma cerrada no podemos revisar el código de su software y nos quedamos con su palabra en base a su política de privacidad y manejo de datos. En mi opinion es reputable y confiable.
Si manejas datos muy sensibles, lo ideal sería separar ese equipo totalmente de cualquier red, pero en general, estos sistemas de código abierto tienen un perfil de seguridad más robusto que disminuye la posibilidad de que se filtren tus conversaciones. De todas maneras sería mejor consultar con un experto en seguridad.
Olvidaste mencionar que % de tu hardware usó el modelo, excelente video.
La mac donde probé tiene 16GB de VRAM, el modelo de 3B utilizó como máximo 6GB, que sería el 40% approx. El modelo tambien puede correr en CPU, y en ese caso utilizará la memoria RAM. Todo eso lo maneja Ollama en base a tu hardware, aunque es posible jugar con esa configuración
estuve probando agent zero con lm studio y llama 3.2 pero no deja de hablar seria mejor usarlo con ollama
El problema en este caso es que la capacidad de Llama 3.2 de usar herramientas es muy limitada (agent zero es un framework de herramientas y coordinación para LLMs).
Es como si existiera un umbral de inteligencia que el modelo debe superar para que agent zero opere correctamente. También depende de la tarea.
Recién estuve probando Agent Zero con GPT4o-Mini para armar una app con NextJS, supabase, shadcn. Fracasó.
Probé con claude 3.5 sonnet, y éxito.
Aunque ahí seguimos experimentando
"Scrapping" en Español se dice "Raspado" (lo preguntas por el vídeo.)
Gracias por el Término!. Acá le decimos raspado a una bebida refrescante de hielo
Cool
Estuve probando el modelo y encuentro que es muy lento en un portatil que tiene buen procesador y memoria. Podrías contarnos tú experiencia de manejo. Gracias.
Es complicado encontrar el cuello de botella en el performance del modelo porque hay muchos factores a considerar:
- Correr modelos usando el CPU es generalmente lento. Es preferible usar GPU pero dependiendo del hardware esto podría no ser posible.
- Es el hardware, particularmente la GPU, compatible con las cargas de trabajo de IA que queremos utilizar?
- Tiene el sistema suficiente memoria VRAM y RAM para correr el modelo?
- Se está generando latencia adicional por cuellos de botella en los buses de datos entre los componentes de hardware?
- Está el sistema operativo, librerías y componentes de software funcionando correctamente?
Este es un tema al que le voy a dedicar más cabeza porque estoy buscando armarme una PC para correr modelos de IA, y necesito aprender de configuraciones de hardware que funcionen muy bien para esa tarea optimizando costos. Es buen material para un nuevo video así que gracias por darme la idea.
@@miguelitohacks Así es. Los diferentes modelos funcionan muy bien cuando tienen una tecnología detrás que los respalda. Pero si una persona del común y corriente instala un modelo localmente en un equipo razonablemente rápido y consistente, seguramente se llevará decepciones muy grandes. Creo que sería importante abrir un área de investigación sobre configuraciones de equipos locales que ayuden a que IA funcione no solamente más eficiente; sino, de manera más acertada. Es un poco incursionar en el tema de modelos de re-entrenamiento como aparentemente trabaja el modelo o1. Gracias por tú conocimiento.
pero luego para que sirve? si se inventa la mayoria de las respuestas. No es fiable
A mí me gusta explorar estas herramientas no para buscar perfección, sino para aprender y experimentar. Es esa experimentación de toda una comunidad la que ayuda a que estas tecnologías alcancen su máximo potencial