la verdad al principio me era poco facil describir lo que sentia pero me siento agradecir profundamente, en verdad profundamente por mark zuckerberg por su gran responsabilidad humana, un gran humano a quien al principio odia por su falta de humanismo responsabilidad pero ahora respeto, quien por su empatia logro ayudar a la humanidad, y a Dios a ser presente, gracias y por sobre todo Gracias DIOS todo poderoso.
This paper is not sound. If an LLM learns to prefer one token over another for one task, why will it learn to produce better tokens for disconnected task in next upgrade.
I think you ask it something like: 1. What do you think of A ? 2. What do you think ethical humans would think of A ? 3. Grade your response for 1. based on its proximity to your response at 2. 4. Fit the model on 1. with score from 3.
Super interesting, btw I love the format of your videos! Keep it up :)
la verdad al principio me era poco facil describir lo que sentia pero me siento agradecir profundamente, en verdad profundamente por mark zuckerberg por su gran responsabilidad humana, un gran humano a quien al principio odia por su falta de humanismo responsabilidad pero ahora respeto, quien por su empatia logro ayudar a la humanidad, y a Dios a ser presente, gracias y por sobre todo Gracias DIOS todo poderoso.
This paper is not sound. If an LLM learns to prefer one token over another for one task, why will it learn to produce better tokens for disconnected task in next upgrade.
I think you ask it something like:
1. What do you think of A ?
2. What do you think ethical humans would think of A ?
3. Grade your response for 1. based on its proximity to your response at 2.
4. Fit the model on 1. with score from 3.