Classificação e regressão com XGBoost

แชร์
ฝัง
  • เผยแพร่เมื่อ 20 ก.ย. 2024
  • Já dizia o ditado: diga-me o que usas e saberei que cientista de dados és! XGBoost é o mais utilizado pelos melhores cientistas de dados do mundo! O Let’s Data te mostra como fazer uma classificação e regressão com esse pacote tão poderoso, o queridinho dos Kaggle Grandmasters ao seu alcance!
    Ao final deste vídeo você será capaz de:
    ☑️ Explicar o que são ensembles
    ☑️ Enumerar tipos de ensembles
    ☑️ Descrever as características de algoritmos de boosting
    ☑️ Detalhar as principais características do XGBoost
    ☑️ Implementar uma regressão e uma classificação usando XGBoost
    Clica logo no play e no like :)
    Não se esqueça de se inscrever no canal para assistir aos próximos vídeos!
    ---------
    ⬇️ Download do eBook "Como se Tornar um Cientista de Dados?": ebook.letsdata...
    ✅ Jornada Cientista de Dados! Deixe seu email para saber quando houver novas turmas: www.letsdata.a...
    ---------
    Leon Sólon é bacharel em Ciência da Computação e mestre em Ciência de Dados pela Universidade de Brasília - UnB. Possui mais de 20 anos de experiência na área de TI e mais há mais de 5 anos como cientista de dados. Atualmente é Auditor-Fiscal da Receita Federal (atuando como cientista de dados) e cientista de dados da startup Bludworks.
    ----------
    📸 Nos siga no Instagram: / letsdata.ai
    🐦 Nos siga no Twitter: / letsdataai
    Site: letsdata.ai
    LinkedIn: / lets-data
    ✉️ E-mail: contato@letsdata.ai
    ----------
    Ouça nosso podcast nos principais players:
    🟣 Spotify: open.spotify.c...
    🟣 iTunes: podcasts.apple...
    🟣 Google Podcast: podcasts.googl...
    🟣 Deezer: www.deezer.com...
    #xgboost #dados #datascience

ความคิดเห็น • 47

  • @germanojorge349
    @germanojorge349 2 ปีที่แล้ว +7

    Pra calcular o RMSE no sklearn é só mudar o parâmetro 'squared' do mean_squard_error para False, como em:
    sklearn.metrics.mean_squared_error(y_true, y_pred, *, sample_weight=None, multioutput='uniform_average', squared=False)
    Obrigado pelas aulas! um abraço.

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว

      Boa, Germano!! Valeu, mestre!

  • @thiagotavares2384
    @thiagotavares2384 2 ปีที่แล้ว +2

    Parabéns, professor. Ótima aula.

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว +1

      Valeu, Thiago!!

  • @riptorforever2
    @riptorforever2 2 ปีที่แล้ว +1

    Quando gosto muito da aula, ainda que eu não tenha nada relevante pra comentar, cedo a irrelevância mesmo só para contribuir com o algoritmo de recomendação do youtube.. Aulas fantásticas! Apesar de superficial, dá uma 'visão de águia' sobre o escopo da lib, a organizacao da documentacao e a praticidade do uso ^^

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว

      Valeu demais pela força!!!

  • @orrafaellis
    @orrafaellis ปีที่แล้ว +1

    Muito boa a aula! Obrigado!

  • @wesley_breno
    @wesley_breno ปีที่แล้ว +1

    Adorei o conteudo!!! Didatica incrivel! 😁

    • @letsdataAI
      @letsdataAI  ปีที่แล้ว

      Valeu demais, Wesley!! Aproveite que estamos com evento aberto, entra no letsdata.ai e participe! Abraços!

  • @tiaofilho123
    @tiaofilho123 2 ปีที่แล้ว +1

    Muito boa a aula, León. Parabéns pela didática simples e assertiva.👍🏼 Agora só um pequeno detalhe, na parte do consumo dos veículos o de valor "mpg" máximo (46,6) seria o mais econômico e o mínimo (9,0) é que seria o "Hummer"! Você falou o contrário 😉. Abs.

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว

      Valeu, Tião!! Verdade! Mais milhas por galão, mais econômico, obrigado!

  • @DDarkoBR
    @DDarkoBR ปีที่แล้ว +3

    Professor, uma sugestão é fazer uma aula de xgboost para séries temporais.

    • @letsdataAI
      @letsdataAI  ปีที่แล้ว +2

      Ótima sugestão!!

    • @DDarkoBR
      @DDarkoBR ปีที่แล้ว +1

      @@letsdataAI Graças a essa aula consegui aplicar com gs o xgboost no meu trabalho. Abs.

    • @letsdataAI
      @letsdataAI  ปีที่แล้ว

      Que massa, Cairo!!! Felizes de saber que ajudou.

  • @guilhermemartins9824
    @guilhermemartins9824 2 ปีที่แล้ว +1

    Aula muito boa!

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว

      Valeu, Guilherme!!!

  • @maikerodrigo4249
    @maikerodrigo4249 2 ปีที่แล้ว +1

    Show de bola!

  • @RafaelRivetti
    @RafaelRivetti ปีที่แล้ว +1

    Já tem vídeo de implementação para séries temporária? Se não tiver, faz por favor!! Seria legal usar o preço de ações em bolsa de valores. Abraço!

    • @letsdataAI
      @letsdataAI  ปีที่แล้ว

      Tem vídeo de séries temporais! Depois nos diga se gostou!

  • @edwardsouza7603
    @edwardsouza7603 2 ปีที่แล้ว +1

    Parabéns pelo vídeo! Principalmente pela "canja" de "we are the champions". kkk

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว

      Valeu, mestre!!!

  • @rafaelg8238
    @rafaelg8238 2 ปีที่แล้ว +2

    Parabéns pelo vídeo e didática.
    Tô fazendo uma maratona no canal e ainda não encontrei algum modelo de classificação onde foi preciso balancear as classes. Caso tenha, pode indicar, por favor? Caso não, fica sugestão de vídeo.
    Abs e sucesso ao canal.

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว +2

      Valeu, Rafael!! Boa sugestão! A gente aqui advoga por não balancear as classes por conta de muitas evidências que não melhoram a performance do modelo e ainda se corre um grande risco de data leakage. Nossa sugestão é escolher bem uma métrica que puna mais os erros na classe minoritária. Um ótimo assunto para um vídeo, vai entrar na lista! :)

    • @rafaelg8238
      @rafaelg8238 2 ปีที่แล้ว +1

      @@letsdataAI legal, entendi. Vou estudar mais sobre leakages e tentar descobrir modelos que lidam bem com o desbalanceamento de dados. Obrigado e sucesso.

    • @guimaraesalysson
      @guimaraesalysson 2 ปีที่แล้ว +2

      Você faz por meio do parâmetro scale_pos_weight, mas é melhor usar somente nos casos em que for MUITO desbalanceado (ex. 5% x 95%). Nos outros modelos comuns você tem que balancear com undersample/oversample e treinar nessa base, mas tem essa questão do data leakage

  • @ederson.madruga
    @ederson.madruga 2 ปีที่แล้ว +1

    León, excelente aula. Obrigado.
    Vocês irão disponibilizar o notebook?

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว +1

      Mestre Ederson! Repositório no ar! :)

    • @ederson.madruga
      @ederson.madruga 2 ปีที่แล้ว +1

      @@letsdataAI valeu LéON.

    • @tiaofilho123
      @tiaofilho123 2 ปีที่แล้ว +1

      @@letsdataAI . León, onde fica o repositório deste notebook da aula?

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว

      Aqui!!
      github.com/letsdata

  • @benjaminrondonneto6377
    @benjaminrondonneto6377 ปีที่แล้ว +1

    Vc possue algum curso sobre o tema de analise de dados no panda?

    • @letsdataAI
      @letsdataAI  ปีที่แล้ว

      Tudo bem, mestre? Temos um programa educacional completo, inclui pandas para análise de dados:
      www.letsdata.ai/a-jornada

    • @benjaminrondonneto6377
      @benjaminrondonneto6377 ปีที่แล้ว

      @@letsdataAI muito obrigado... Estou finalizando o curso introdutório sobre python e já irei me inscrever no seu curso. Quero muito aprender sobre calibragem/otimização de parâmetros para modelos preditivos.

  • @guimaraesalysson
    @guimaraesalysson 2 ปีที่แล้ว +1

    Por que transformar o target em variável quant. discreta na classificação?

    • @letsdataAI
      @letsdataAI  2 ปีที่แล้ว +1

      No cross validate a API do XGBoost do scikit learn dá um erro porque ele transforma no fit mas não no predict. Deve ter outro jeito de corrigir, mas essa foi a opção mais simples que achamos.

  • @lucasfescina
    @lucasfescina ปีที่แล้ว +1

    Alguém poderia me dizer porque não precisa usar kfold nesse crossval score

    • @letsdataAI
      @letsdataAI  ปีที่แล้ว +2

      Se não passar parâmetro o default é 5-fold :)

  • @RafaelRivetti
    @RafaelRivetti 5 หลายเดือนก่อน

    O bootstrap pode gerar problemas em séries temporais no sentido de alterar pontos de dados que precisam obedecer uma sequência (ordem) temporal?
    Isso seria um problema para modelos de bagging (como Random Forest) ao serem usados em séries financeiras como ações, butcoin, etc, alterando os pontos de dados na reamostragem?

    • @letsdataAI
      @letsdataAI  4 หลายเดือนก่อน +1

      Excelente dúvida, Rafael, fez a gente matutar um bocado aqui 😂
      Pode sim!! Como as amostras usadas no bagging são randômicas, podemos perder informação que tenha relações temporais. Não é comum tratar isso e acabamos “aceitando” porque essa problema não inviabiliza a utilização dos modelos (como seria o caso de overfitting, por exemplo).
      Pra resolver tem que mudar a forma de amostragem, o que normalmente não é parametrizado nos principais pacotes. Ou seja: tem que fazer “na mão”.

  • @anacarolinaghizelliniwyatt6700
    @anacarolinaghizelliniwyatt6700 ปีที่แล้ว +1

    boa tarde, professor. Esse notebook tá disponível em algum lugar pra gente baixar?

  • @nandojau1
    @nandojau1 ปีที่แล้ว +1

    esse canal é PIÇA

    • @letsdataAI
      @letsdataAI  ปีที่แล้ว

      😂 valeu demais! Conte com a gente