Te paso el prompt del primer laberinto: Tengo que recorrer un laberinto, dame indicaciones para ayudarme a encontrar la salida. [[0, 0, 0, 'X', 0, 0, 0, 0, 0], [0, 1, 0, 1, 0, 1, 1, 1, 0], [0, 1, 0, 1, 0, 0, 0, 1, 0], [0, 1, 0, 1, 1, 1, 0, 1, 0], [0, 1, 0, 0, 0, 1, 0, 1, 0], [0, 1, 1, 1, 1, 1, 0, 1, 0], [0, 1, 0, 0, 0, 0, 0, 1, 0], [0, 1, 1, 1, 1, 1, 1, 1, 1], [0, 0, 0, 0, 0, 0, 0, 0, 0]] El laberinto es una matriz, donde las celdas representadas con un "1" son los caminos y las celdas representadas con un "0" son las paredes. Yo soy el símbolo "X". El laberinto tiene solo una entrada y una salida, yo estoy situado en la entrada, cuyas coordenadas son (0, 3). Dame una indicación que me ayude a avanzar hacia la salida - solo puedo avanzar en una dirección: horizontal o vertical, pero no en diagonal - puedo avanzar varias celdas en un mismo movimiento Genera tu respuesta en un formato JSON con la siguiente estructura: {"direccion": , "celdas": }, donde: - direccion: arriba, abajo, derecha o izquierda - celdas: número de celdas que debo desplazarme. Devuelve unicamente el json IMPORTANTE: incluye en el json unicamente la informacino del proximo movimiento.
Es posible que la diferencia entre el O1 y el O1 Pro sea mínima, y que la verdadera ventaja del O1 Pro radique en su mayor tiempo de cómputo, lo que le permite alcanzar resultados más precisos. Esto justificaría el tier de 200€ para cubrir así los costes de estos modelos. Compararlos de esta forma analizando matrices es bastante interesante. De cualquier manera, excelente video.
Es minimia, la pro solo ahce referencia a que existe un mayor rango frente a las limitaciones. Es casi ilimtado, por que en Pus solo te dan 50 mensajes semanales.
Realmente no vemos la diferencia clara entre o1 y o1pro, ya que o1 pro llega al tope de tu escala, seria interesante aumentar la dificultad para ver el verdadero potencial de PRO
Sí, el problema es que tarda tanto en generar cada respuesta que no he tenido tiempo para probar con laberintos más complicados. Lo haré cuando tenga tiempo, me gustaría ver hasta donde puede llegar o1 pro.
seria mas productivo el análisis si lo probases con ajedrez solo para dar mate en 3 a 10 jugadas, eso porque las llm no son capaces de mantener una partida pero si pueden analizar la posición
Puedes pedirle que te genere el código de la aplicación, luego deberás coger ese código y ejecutarlo en tu ordenado con algún IDE o subirlo a algún servidor. Pero de hecho, una de los principales casos de uso es para programación!
En el primer experimento que hice con los laberintos intenté incluir a los modelos Gemini en el benchmark, pero me fue imposible, por alguna razón me están aplicando los rate limits del plan gratuito a pesar de tener un plan de pago. Volveré a probarlo más adelante.
@productomania has intentado desde su página web? Porque yo soy usuario gratuito y no me ha salido ninguna limitación. He subido videos, imágenes, documentos y le he hecho muchas preguntas. Dan 2 millones de tokens por cada chat creado
Esta claro que los modelos que razonan es el futuro .Todas aquellas que no tienen esa capacidad estan claramente un escalon por debajo.Se nota hasta con el modelo chino qwen.
Muy interesante. Gracias
gracias
Podrías hacerme el favor de compartir el prompt para probarlo con Gemini-Exp-1206?
Te paso el prompt del primer laberinto:
Tengo que recorrer un laberinto, dame indicaciones para ayudarme a encontrar la salida.
[[0, 0, 0, 'X', 0, 0, 0, 0, 0], [0, 1, 0, 1, 0, 1, 1, 1, 0], [0, 1, 0, 1, 0, 0, 0, 1, 0], [0, 1, 0, 1, 1, 1, 0, 1, 0], [0, 1, 0, 0, 0, 1, 0, 1, 0], [0, 1, 1, 1, 1, 1, 0, 1, 0], [0, 1, 0, 0, 0, 0, 0, 1, 0], [0, 1, 1, 1, 1, 1, 1, 1, 1], [0, 0, 0, 0, 0, 0, 0, 0, 0]]
El laberinto es una matriz, donde las celdas representadas con un "1" son los caminos y las celdas representadas con un "0" son las paredes. Yo soy el símbolo "X". El laberinto tiene solo una entrada y una salida, yo estoy situado en la entrada, cuyas coordenadas son (0, 3).
Dame una indicación que me ayude a avanzar hacia la salida
- solo puedo avanzar en una dirección: horizontal o vertical, pero no en diagonal
- puedo avanzar varias celdas en un mismo movimiento
Genera tu respuesta en un formato JSON con la siguiente estructura: {"direccion": , "celdas": }, donde:
- direccion: arriba, abajo, derecha o izquierda
- celdas: número de celdas que debo desplazarme.
Devuelve unicamente el json
IMPORTANTE: incluye en el json unicamente la informacino del proximo movimiento.
La ventana de contexto también en Pro me parece que es 4 veces mayor que en Plus
Es posible que la diferencia entre el O1 y el O1 Pro sea mínima, y que la verdadera ventaja del O1 Pro radique en su mayor tiempo de cómputo, lo que le permite alcanzar resultados más precisos. Esto justificaría el tier de 200€ para cubrir así los costes de estos modelos. Compararlos de esta forma analizando matrices es bastante interesante. De cualquier manera, excelente video.
Sí, efectivamente, por lo que comentaron en el directo del jueves yo diría que son el mismo modelo.
Es minimia, la pro solo ahce referencia a que existe un mayor rango frente a las limitaciones. Es casi ilimtado, por que en Pus solo te dan 50 mensajes semanales.
Realmente no vemos la diferencia clara entre o1 y o1pro, ya que o1 pro llega al tope de tu escala, seria interesante aumentar la dificultad para ver el verdadero potencial de PRO
Sí, el problema es que tarda tanto en generar cada respuesta que no he tenido tiempo para probar con laberintos más complicados. Lo haré cuando tenga tiempo, me gustaría ver hasta donde puede llegar o1 pro.
seria mas productivo el análisis si lo probases con ajedrez solo para dar mate en 3 a 10 jugadas, eso porque las llm no son capaces de mantener una partida pero si pueden analizar la posición
Yo los pagaria si pudiera crear apps con el, pero eso no se puede en chatgpt cierto?
Puedes pedirle que te genere el código de la aplicación, luego deberás coger ese código y ejecutarlo en tu ordenado con algún IDE o subirlo a algún servidor. Pero de hecho, una de los principales casos de uso es para programación!
@productomania sería genial si pudieran colocar esa opción, como una especie de bolt. Mucha gente incluida yo los pagaria sin pensarlo
Buen video, pero sería interesante que realizarás la misma prueba con Gemini-Exp-1206
En el primer experimento que hice con los laberintos intenté incluir a los modelos Gemini en el benchmark, pero me fue imposible, por alguna razón me están aplicando los rate limits del plan gratuito a pesar de tener un plan de pago. Volveré a probarlo más adelante.
@productomania has intentado desde su página web? Porque yo soy usuario gratuito y no me ha salido ninguna limitación. He subido videos, imágenes, documentos y le he hecho muchas preguntas. Dan 2 millones de tokens por cada chat creado
Esta claro que los modelos que razonan es el futuro .Todas aquellas que no tienen esa capacidad estan claramente un escalon por debajo.Se nota hasta con el modelo chino qwen.
Sí, tiene pinta de que es el camino!
Pues es mejor pagar 2000 y así compras 10. Más vale que sobre
Pero anda a hacer vídeos a sora
En España no podemos utilizarlo 🥲
@productomania vpn