Alguma as pessoas teve expectativa atendida primeiro tentativa os outros nem tanto, vale depende tanto complexidade pergunta ou mal feito, mesmo as taxas de alucinações etc
Uma das maneiras é tirar/adicionar pontos, então o modelo avalia que, quando ele foi por aquele caminho que ele perdeu pontos ele não preferirá ir por lá, assim ele prefere caminho que ele ganhe mais pontos (ou "perca menos").
A recompensa é um valor numérico que pode ser positivo, negativo ou zero. Se a ação do agente levou a um resultado desejável (resposta correta), ele recebe uma recompensa positiva. Se a ação levou a um resultado indesejado (resposta errada), ele pode receber uma recompensa negativa, também chamada de penalidade. Se a ação não tiver um impacto significativo, a recompensa pode ser zero
Parabéns! Gostei muito de sua explicação e o alerta para não pedir ao o1 o passo a passo.
👊👊
top, é já liberaram o modo voz. Tbm ficou magnifico
Esse novo modelo parece que foi feito especialmente para pessoas como eu. Pessoas que tentam resolver problemas extremamente complexos...
Alguma as pessoas teve expectativa atendida primeiro tentativa os outros nem tanto, vale depende tanto complexidade pergunta ou mal feito, mesmo as taxas de alucinações etc
Testar os modelos Ita e IMO etc
qual a origem desse gráfico que mostra o aumento da precisão do modelo conforme aumenta o tempo de resposta?
Dados de pesquisadores da Openai
9:50 mas tu não pode no primeiro dia abrir a caixa certa e achar o gato? Não entendi essa questão
Eu só peguei a questão e o gabarito. Como chegar na solução é outra história 😂
4:11 mas comoe exatamente se recompensa ou se penaliza algo q teoricamente não "Vontade, gostos ou sentimento".
Uma das maneiras é tirar/adicionar pontos, então o modelo avalia que, quando ele foi por aquele caminho que ele perdeu pontos ele não preferirá ir por lá, assim ele prefere caminho que ele ganhe mais pontos (ou "perca menos").
A recompensa é um valor numérico que pode ser positivo, negativo ou zero. Se a ação do agente levou a um resultado desejável (resposta correta), ele recebe uma recompensa positiva. Se a ação levou a um resultado indesejado (resposta errada), ele pode receber uma recompensa negativa, também chamada de penalidade. Se a ação não tiver um impacto significativo, a recompensa pode ser zero