Entonces ¿una aplicación de GTP-3 puede ser como el auto corrector del teléfono?, en la parte de que te siguiere las palabras siguientes en una oración
Podría ser una aplicación bastante plausible ya que ciertamente es una tarea que se beneficia más de la memorización. Aunque cierto detalle no mencionado en el video es que por su sobreajuste a texto de Internet, el modelo preentrenado es propenso a ciertas ideologías, sesgos e incluso tendencias de discursos de odio, de modo que podría resultar dicha aplicación en problemas controversiales o legales. Además, el tamaño del modelo sigue siendo un problema ya que un dispositivo como un teléfono podría verse saturado en cuanto a sus recursos al momento de ejecución.
Un problema con este modelo, especialmente en su versión más grande, es muy demandante en cuanto a recursos del sistema, así que seguramente no podrá. Esto podría ser un obstáculo para futuras aplicaciones de estos modelos, por más prometedoras que sean. Otra desventaja del enfoque de OpenAI con GPT-3.
¿Cuántos parámetros tiene GP2? Se me ocurre que igual y GP3 como tiene muchos parámetros tuvo la capacidad de memorizar (en caso de que sí haya sobreajustado), ¿será que si se aumentan los datos de entrenamiento no tenga otra alternativa mas que aprender?
El salto de parámetros de GPT-2 a GPT-3 es gigantesco. La versión más grande de GPT-2 tiene 1.5 mil millones de parámetros, así que el salto a 175 mil millones con GPT-3 ciertamente introduce la alta probabilidad de sobreajuste. En este caso, aunque hayan aumentado los datos, esa diferencia tan grande en parámetros quizá no haya sido compensada por el aumento de datos, que solo fue 14 veces mayor con 570GB para GPT-3 contra 40 GB para GPT-2. Por el otro lado, el modelo es 116 veces más grande.
Pues primero que nada, el enfoque a sobreajustar por parte de OpenAI no es el adecuado, por lo mismo de que un modelo con tantas capas y parámetros junto con una cantidad enorme de datos es la combinación perfecta para promover que el modelo memorice cuantas más respuestas le sea posible. En cambio, OpenAI pudo haber diseñado alguna modificación, aunque muy probablemente no sería del todo fácil, para incorporar más información sobre el contexto, de la misma forma que los modelos BERT por ser bidireccionales, y que en su estado actual no toma mucho en cuenta por enfocarse más en las secuencias de palabras debido al diseño autorregresivo
Entonces ¿una aplicación de GTP-3 puede ser como el auto corrector del teléfono?, en la parte de que te siguiere las palabras siguientes en una oración
Podría ser una aplicación bastante plausible ya que ciertamente es una tarea que se beneficia más de la memorización. Aunque cierto detalle no mencionado en el video es que por su sobreajuste a texto de Internet, el modelo preentrenado es propenso a ciertas ideologías, sesgos e incluso tendencias de discursos de odio, de modo que podría resultar dicha aplicación en problemas controversiales o legales. Además, el tamaño del modelo sigue siendo un problema ya que un dispositivo como un teléfono podría verse saturado en cuanto a sus recursos al momento de ejecución.
¿ GPT-3 puede funcionar en tiempo real ?
Un problema con este modelo, especialmente en su versión más grande, es muy demandante en cuanto a recursos del sistema, así que seguramente no podrá. Esto podría ser un obstáculo para futuras aplicaciones de estos modelos, por más prometedoras que sean. Otra desventaja del enfoque de OpenAI con GPT-3.
¿Cuántos parámetros tiene GP2? Se me ocurre que igual y GP3 como tiene muchos parámetros tuvo la capacidad de memorizar (en caso de que sí haya sobreajustado), ¿será que si se aumentan los datos de entrenamiento no tenga otra alternativa mas que aprender?
El salto de parámetros de GPT-2 a GPT-3 es gigantesco. La versión más grande de GPT-2 tiene 1.5 mil millones de parámetros, así que el salto a 175 mil millones con GPT-3 ciertamente introduce la alta probabilidad de sobreajuste. En este caso, aunque hayan aumentado los datos, esa diferencia tan grande en parámetros quizá no haya sido compensada por el aumento de datos, que solo fue 14 veces mayor con 570GB para GPT-3 contra 40 GB para GPT-2. Por el otro lado, el modelo es 116 veces más grande.
Qué crees que necesitan para también rendir bien donde evaluan más que nada el razonamiento ?
Pues primero que nada, el enfoque a sobreajustar por parte de OpenAI no es el adecuado, por lo mismo de que un modelo con tantas capas y parámetros junto con una cantidad enorme de datos es la combinación perfecta para promover que el modelo memorice cuantas más respuestas le sea posible. En cambio, OpenAI pudo haber diseñado alguna modificación, aunque muy probablemente no sería del todo fácil, para incorporar más información sobre el contexto, de la misma forma que los modelos BERT por ser bidireccionales, y que en su estado actual no toma mucho en cuenta por enfocarse más en las secuencias de palabras debido al diseño autorregresivo
pro tip: noisetorch