GPT o1: OpenAI Lança a IA Mais Inteligente de Todos os Tempos (Strawberry)

แชร์
ฝัง
  • เผยแพร่เมื่อ 8 พ.ย. 2024

ความคิดเห็น • 13

  • @marceloamaral7007
    @marceloamaral7007 หลายเดือนก่อน +1

    Parabéns! Gostei muito de sua explicação e o alerta para não pedir ao o1 o passo a passo.

  • @AtlasOfficialAgent
    @AtlasOfficialAgent หลายเดือนก่อน +2

    top, é já liberaram o modo voz. Tbm ficou magnifico

  • @1991Arimateia
    @1991Arimateia หลายเดือนก่อน

    Esse novo modelo parece que foi feito especialmente para pessoas como eu. Pessoas que tentam resolver problemas extremamente complexos...

  • @aleffelperibeirovilalba
    @aleffelperibeirovilalba หลายเดือนก่อน

    Alguma as pessoas teve expectativa atendida primeiro tentativa os outros nem tanto, vale depende tanto complexidade pergunta ou mal feito, mesmo as taxas de alucinações etc

  • @aleffelperibeirovilalba
    @aleffelperibeirovilalba หลายเดือนก่อน

    Testar os modelos Ita e IMO etc

  • @tecnicozinho457
    @tecnicozinho457 หลายเดือนก่อน +1

    qual a origem desse gráfico que mostra o aumento da precisão do modelo conforme aumenta o tempo de resposta?

  • @lookingnick
    @lookingnick หลายเดือนก่อน +1

    9:50 mas tu não pode no primeiro dia abrir a caixa certa e achar o gato? Não entendi essa questão

    • @PensandoArtificial
      @PensandoArtificial  หลายเดือนก่อน

      Eu só peguei a questão e o gabarito. Como chegar na solução é outra história 😂

  • @semprequevcleroscomentario2915
    @semprequevcleroscomentario2915 หลายเดือนก่อน +1

    4:11 mas comoe exatamente se recompensa ou se penaliza algo q teoricamente não "Vontade, gostos ou sentimento".

    • @ApolloGamerXD
      @ApolloGamerXD หลายเดือนก่อน +1

      Uma das maneiras é tirar/adicionar pontos, então o modelo avalia que, quando ele foi por aquele caminho que ele perdeu pontos ele não preferirá ir por lá, assim ele prefere caminho que ele ganhe mais pontos (ou "perca menos").

    • @PensandoArtificial
      @PensandoArtificial  หลายเดือนก่อน +1

      A recompensa é um valor numérico que pode ser positivo, negativo ou zero. Se a ação do agente levou a um resultado desejável (resposta correta), ele recebe uma recompensa positiva. Se a ação levou a um resultado indesejado (resposta errada), ele pode receber uma recompensa negativa, também chamada de penalidade. Se a ação não tiver um impacto significativo, a recompensa pode ser zero