Aula #4 - Resolva o Titanic Como um Campeão do Kaggle

แชร์
ฝัง
  • เผยแพร่เมื่อ 11 ธ.ค. 2024

ความคิดเห็น • 23

  • @rafaelribasdetoni2276
    @rafaelribasdetoni2276 2 หลายเดือนก่อน

    Os seus vídeos ajudam muito!

  • @karinnecristina3167
    @karinnecristina3167 5 ปีที่แล้ว +1

    Muito bom!

  • @patricklenz9887
    @patricklenz9887 3 ปีที่แล้ว

    7:15 Por que o primeiro bloco de validação ficou com mais elementos do que os outros dois? Isso tem a ver com aquela questão da porcentagem de divisão ser um pouco incerta?

  • @rockinriobrazil
    @rockinriobrazil 5 ปีที่แล้ว +2

    Olá Mario. Reassistindo seus vídeos me surgiu uma dúvida ( e fica como uma sugestão de vídeo futura também): Como lidar com dados categóricos? Eu vi que você tinha esse problema no seu dataframe com a coluna "sex" que você resolveu aplicando uma função de transformação dos dados. Mas nesse caso, era uma situação binária. Como lidar quando os valores da sua coluna de dados categóricos contém muito mais do que apenas 2 valores categóricos? Pesquisando, eu encontrei soluções como "OneHotEncoder", mas isso transforma drasticamente o seu dataset, colocando inúmeras colunas a mais no mesmo. Fora que "onehotencoder", elimina os nomes das suas colunas. Portanto essa técnica que você usou abaixo para criar as variáveis alvos e as variáveis features, não poderiam ser usadas depois de aplicar o "onehotencoder":
    variaveis = ['Sex_binario', 'Age']
    X = train[variaveis].fillna(-1)
    y = train['Survived']

    • @MarioFilhoML
      @MarioFilhoML  5 ปีที่แล้ว +2

      Oi Wolf, dê uma olhada nesse vídeo: th-cam.com/video/tBUZ5xonmDc/w-d-xo.html

  • @doricardo
    @doricardo 5 ปีที่แล้ว +2

    Mario, no dia-a-dia, quero dizer na prática, porque usar o K-fold sabendo que existe o Repeat K-fold que pode abranger um domínio maor validações?

    • @MarioFilhoML
      @MarioFilhoML  5 ปีที่แล้ว +2

      Casos: em que os dados são grandes, ou o tempo de processamento dentro do ciclo é longo, ou seus dados não possuem tanto ruído, ou a diferença que você quer medir na tua métrica de erro é grande. Pode ser que o Repeated tome um tempo muito maior e não seja necessário. No fim, você deve encontrar um equilíbrio entre a confiança no processo estatístico da validação e o tempo que ele vai demorar para te dar os resultados. Em alguns casos é melhor até usar o split simples, 50/50, 70/30, como em casos onde você tem milhões de dados e o processo que você quer modelar não tem muito ruído.

    • @doricardo
      @doricardo 5 ปีที่แล้ว +1

      Obrigado @@MarioFilhoML , entendido.

  • @Luckasborges
    @Luckasborges 5 ปีที่แล้ว +4

    Muito bom!! Quando você utiliza o K-fold você mantém um outro conjunto de dados exclusivo para teste?
    Ou o resultado obtido com o K-fold já suficiente para uma validação robusta?
    Obrigado.

    • @MarioFilhoML
      @MarioFilhoML  5 ปีที่แล้ว +3

      Valeu! Se os dados forem muito pequenos (< 1000 por exemplo), eu uso só K-Fold. Em geral é bom ter os dados de teste exclusivos, pq vc acaba usando o KFold para otimizar hiperparâmetros e tudo mais. No caso do tutorial tem os dados separados pelo Kaggle, e os nossos são bem pequenos, por isso não separei.

    • @Luckasborges
      @Luckasborges 5 ปีที่แล้ว +1

      Entendi. Obrigado pela resposta!!

  • @jrjpmg
    @jrjpmg 4 ปีที่แล้ว

    Olá. Primeiramente parabéns pelo vídeo.
    Fiquei com uma dúvida.
    Utilizando k-fold, no fim temos K modelos treinados. Supondo que estamos usando k-fold para escolher um determinado parâmetro ou algoritmo que melhor classifique certos dados e eu tenha determinado qual é melhor com a utilização de k-fold, como uso isso no "mundo real", para novos dados? Resumindo: no fim tenho K modelos, como uso isso? Eu combino esses modelos novamente fazendo uma média? Ou após determinar quais são os melhores parâmetros eu treino um novo modelo com todos os dados (treino e validação)? Espero ter sido claro o suficiente para que tenha entendido a dúvida. Obrigado.

  • @brunosallesdev
    @brunosallesdev 3 ปีที่แล้ว

    Mário, esse black theme que vc usa parece ser muito bom! Pode informar a referência?

    • @andreyc.p.4549
      @andreyc.p.4549 ปีที่แล้ว

      Parece ser o padrão do Google Colab

  • @lily_yoshi
    @lily_yoshi 3 ปีที่แล้ว +1

    Mais alguém teve o seguinte erro? Apareceu na parte do submission
    ValueError: Length of values (178) does not match length of index (418)

    • @cassiote
      @cassiote 2 ปีที่แล้ว

      Então carinha, se vc reparar bem no video, ele não faz o uso do notebook em linearidade, ele vai colocando codiigos no meio, deposi volta e por ai vai. Sugiro vc assistir a serie toda e depois voltar e tentar fazer os exercicios....

  • @andersonluizsouza1679
    @andersonluizsouza1679 4 ปีที่แล้ว +2

    Oi Mario! Ótimo video, muito obrigado!
    Só uma dúvida: vc não deveria calcular e guardar os scores das predições baseline pra cada amostragem dentro dos loops, e depois comparar o score médio entre as predições do modelo e as predições baseline?
    Um abraço!

    • @MarioFilhoML
      @MarioFilhoML  4 ปีที่แล้ว +1

      Oi Anderson, ótima pergunta!
      Geralmente o modelo fica bem melhor que a baseline, então ela serve mais como uma "certeza" que o modelo não está horrível.
      Agora, quando a baseline é muito difícil de bater ou eu sei que os dados são muito ruidosos, comparo não apenas a média de erros (seja entre baseline ou qualquer outra versão do modelo), mas também o erro em cada divisão.
      Muito legal ver que você se atentou para esse detalhe, parabéns! :)

  • @AlbertyLucas
    @AlbertyLucas 5 ปีที่แล้ว

    Boa tarde, seguindo as mesmas instruções, me ocorreu que apareceu a mensagem ("Input contains NaN, infinity or a value too large for dtype('float32')."), no caso como já foi passado tenho que eliminar os NaN que em seu exemplo deu como "-1", como qual código devo usar para, eliminar esse erro e obter mesmo resultado.

    • @MarioFilhoML
      @MarioFilhoML  5 ปีที่แล้ว

      Alberty, por favor entre no Slack do Data Hackers (datahackers.com.br). Lá tem mais pessoas que podem te ajudar.

    • @marco.nascimento
      @marco.nascimento 4 ปีที่แล้ว

      no vídeo onde ele fala isso, é mostrada a função