Como lidar com dados faltantes (NaN) em um Dataset (Python para machine learning - Aula 22)

แชร์
ฝัง
  • เผยแพร่เมื่อ 28 ม.ค. 2025

ความคิดเห็น •

  • @geovanidias5825
    @geovanidias5825 7 หลายเดือนก่อน +1

    Mais um ótimo vídeo. Parabéns! Outra forma de pegar o total de registros do dataframe seria: df.shape[0].
    No caso a fórmula poderia ficar assim: faltantes_percentual = (faltantes/dados.shape[0])*100.
    Valeu!!!

  •  2 ปีที่แล้ว +2

    Olá pessoal! Liberamos CERTIFICADO para este curso gratuito.
    Para solicitar o seu, basta conferir o curso no link abaixo:
    didatica.tech/curso-de-python-para-machine-learning-e-ciencia-de-dados-gratuito/

  • @paulamarangon
    @paulamarangon ปีที่แล้ว

    Muito bom, fiz de tudo pra substituir dados nulos antes , ainda bem que encontrei seu vídeo, me salvou, Obrigada, vou acompanhar os outros videos, vai me ajudar muito!

  • @MathematikO0
    @MathematikO0 5 ปีที่แล้ว +11

    Salvou meu TCC! Obrigado pelos vídeos!

  • @LearningWorldChatGPT
    @LearningWorldChatGPT 4 ปีที่แล้ว +3

    Excelente aula professor !!! ... Obrigado por compartilhar seus conhecimentos conosco. São poucos os que são professores de verdade... continue assim e DEUS te abençoe sempre.

  • @fabioribeirodesouza7248
    @fabioribeirodesouza7248 4 ปีที่แล้ว +2

    Parabéns! Estou acompanhando todas as aulas. Você é um ótimo professor. Explica muito bem. Excelente didática. Obrigado por compartilhar seu conhecimento com todos nós.

  • @CheiroDeBacon
    @CheiroDeBacon 5 ปีที่แล้ว +9

    Muito bom, era o que eu estava precisando. Estarei acompanhando esta playlist.

  • @Vlapstone
    @Vlapstone 2 ปีที่แล้ว

    VÁRIAS AULAS COM ESSA TABELA QUE SÓ ENSINOU A TRAZER NO PC MANOOOO!!!! OMG! O curso é IRADO, SHOW, TOP, muito obrigado mesmo, de coração! Maaaassss.... faltou ai essa dica de como fazer em um MAC!!!!!!

    • @Vlapstone
      @Vlapstone 2 ปีที่แล้ว

      Consegui!!!!! Fui em finders, lá em cima em GO, dai em Home, e coloquei o arquivo lá. daí ficou "/Users/nomedomeucomp/athlete_events.csv"
      Espero que ajude outros leigos como eu! :)

  • @leandro5056
    @leandro5056 3 ปีที่แล้ว

    Cara, primeiramente, parabéns! Você tem uma ótima didática! Em segundo lugar, muito obrigado por esses vídeos!

  • @HiagoAD
    @HiagoAD 4 ปีที่แล้ว +1

    Q aula excelente, parabéns pelo trabalho!

  • @frankwilliam8689
    @frankwilliam8689 4 ปีที่แล้ว

    Parabéns, resolveu um problema que estava tendo com dataset, ótima aula

  • @alyssoncordeiro4800
    @alyssoncordeiro4800 ปีที่แล้ว

    ótima aula

  • @topdronesmgtopdrones347
    @topdronesmgtopdrones347 3 ปีที่แล้ว

    Primeiramente gostaria de parabeniza-lo pela qualidade do material produzido que tem me incentivado, aos 50 anos, a aprender programação (conhecimento 0 sobre o assunto) para posteriormente tentar desenvolver modelos destinados a criação d estratégias de investimento e gerenciamento de risco.
    Agora uma questão técnica: como fazer para substituir ausência d dados por dados gerados por um random entre a media e x desvios padrão? Ainda to mt no inicio do aprendizado e não tenho capacidade para esse tipo d elaboração

    •  3 ปีที่แล้ว +1

      Você pode usar a função random.normal do Numpy: stackoverflow.com/questions/58996519/populate-pandas-dataframe-with-normal-distribution

  • @cs-canalsolucoes8910
    @cs-canalsolucoes8910 4 ปีที่แล้ว +1

    Muito boa explicação !! Valeu

  • @gabrielramadan236
    @gabrielramadan236 4 ปีที่แล้ว

    Excelente vídeo! Muito didático

  • @petadoblegeografia6328
    @petadoblegeografia6328 3 ปีที่แล้ว

    Muito grato!

  • @grlgustavo
    @grlgustavo 3 ปีที่แล้ว

    Muito bom suas aulas, parabéns!!!!
    Como eu transformo uma coluna do dataframe que está como object em float?

  • @thiagosouza6791
    @thiagosouza6791 3 ปีที่แล้ว

    Muito bom!

  • @SARAHMUZEL88
    @SARAHMUZEL88 3 ปีที่แล้ว

    Muito bom o vídeo. Eu gostaria de saber se há uma forma de fazermos o preenchimento dos NaN em relação a uma outra coluna, mas sem usar if, por conta do grande número de dados

  • @dwj6506
    @dwj6506 ปีที่แล้ว

    como faço para substituir os dados ausentes( NaN) de uma coluna do dataframe por valores já existentes nela, de forma aleatória porém obedecendo a frequência que eles aparecem?

  • @fabiorodriguespinto8467
    @fabiorodriguespinto8467 3 ปีที่แล้ว

    Muito bom o vídeo, mas e se eu quiser substituir, por exemplo a coluna peso, pela media ou mediana, apenas de homens e que sejam praticantes de um determinado esporte?

  • @Katoairsoft
    @Katoairsoft 5 ปีที่แล้ว +1

    E para substituir todos os campos vazios para uma palavra em específico ? Seria um If com algum método ?

  • @angeo10
    @angeo10 3 ปีที่แล้ว

    Porque o NaN ocorre? Tenho lagums planilhas em csv e xlsx mas quando abro elas no Pandas quase todos os campos ficam como NaN tem como evitar essa situação?

  • @edholanda5897
    @edholanda5897 4 ปีที่แล้ว

    Um a parte, vc poderia fazer um tutorial em como instalar o Tellurium no Anaconda

  • @ademilsondamiao
    @ademilsondamiao 5 ปีที่แล้ว

    Bom dia tem como somar valores duplicado e uma só linha ex pdt x 100,00 pdt x 200
    Att, Ademilson

  • @athaydemoreirajaikin3736
    @athaydemoreirajaikin3736 4 ปีที่แล้ว

    E se o valor de NaN estiver no índice da coluna, como faço para substituir??

  • @rogg5131
    @rogg5131 4 ปีที่แล้ว

    Boa tarde ! É possível gerar a media para uma coluna com valores ausentes quando os valore são uma string ? Ou a média é calculada apenas quandos os valores da coluna são numericos ?

    •  4 ปีที่แล้ว

      Apenas quando são numéricos. Mas existem técnicas para substituir uma string ausente pela string mais abundante

  • @carlosmagnobarreto6856
    @carlosmagnobarreto6856 4 ปีที่แล้ว

    Boa tarde. Uma pergunta: Quando você usa o drop ou o fillna, os dados originais são também afetados? Ou essas alterações aparecem somente na view do Jupyter?

    •  4 ปีที่แล้ว

      Se você usa o parâmetro inplace=True os dados são afetados

  • @alineigansi
    @alineigansi 4 ปีที่แล้ว

    Maravilha de vídeo!!! Mas me diz uma coisa, eu poderia simplesmente excluir os dados missing do dataset? Ou isso traria consequências graves pra minha análise?

    •  4 ปีที่แล้ว +1

      Se os dados missing representarem menos de 5% do conjunto de dados, não haveria muitas consequências negativas. A decisão sobre o que fazer com os dados missing, quando excluir, etc. depende também da importância das variáveis em questão em relação à sua variável target. Abordamos bastante isso nos módulos I e II: didatica.tech/curso-de-machine-learning-online-com-python/

  • @robertowagnerdacosta2508
    @robertowagnerdacosta2508 3 ปีที่แล้ว

    Dados faltantes nao podem simplesmente serem ignorados? E usarmos uma tabela sem eles?

    •  3 ปีที่แล้ว +1

      Se forem poucos, sim. Se forem muitos, o modelo pode acabar ficando com poucas amostras. Além disso, se apenas uma feature tem um valor faltando entre várias features, vale a pena excluir a amostra inteira? Essa é a questão

    • @robertowagnerdacosta2508
      @robertowagnerdacosta2508 3 ปีที่แล้ว

      @ Entendi. Vlw

  • @sheillinyoliveira8900
    @sheillinyoliveira8900 4 ปีที่แล้ว

    Quando fui utilizar a função "fillna" apareceu um erro:
    NameError: name 'fillna' is not defined
    Alguém sabe me dizer o que aconteceu? Não está definido?!

  • @hotbull9666
    @hotbull9666 5 ปีที่แล้ว

    No caso, como faço pra adicionar um NaN, por exemplo, eu tenho um valor em uma posição, mas analisei e descobri que aquele valor não vai me servir, mas não quero excluir a linha toda, apenas transformar esse valor em NaN, como faço?

    •  5 ปีที่แล้ว +1

      Filtre esse valor e substitua-o por NaN com o numpy. Por exemplo: tabela[filtro]=numpy.nan

  • @chestergeo
    @chestergeo ปีที่แล้ว

    É possível colocar o link para o dataset, por favor? Eu vim do video que usa esse dataset no curso da HotMart (que também não coloca o link), e aparentemente a expectativa é que eu assista todos os outros 21 videos para achar o link 😡

    •  ปีที่แล้ว +1

      Oi, pedimos desculpas, o dataset foi colocado no primeiro vídeo dessa série, na aula sobre pandas. Mas de fato faltou replicar para facilitar, o link é esse: www.kaggle.com/datasets/heesoo37/120-years-of-olympic-history-athletes-and-results

  • @daniloarthur3542
    @daniloarthur3542 4 ปีที่แล้ว

    Como faço para alterar a formatação dos itens nas linhas para coluna especifico.
    No meu caso eu quero preencher com zero's a esquerda.
    Ex: 13245678912
    Out: 00012345678912

  • @jordana9368
    @jordana9368 4 ปีที่แล้ว +1

    Alguém saberia me dizer a diferença entre Dataset e Dataframe?

    • @paulo_rogerio22
      @paulo_rogerio22 3 ปีที่แล้ว

      data set é um conjunto de dados não consultados, e dataframe é conjunto de dados em movimento. exemplo: quando vc faz uma busca na net sobre algo, aquela busca/interação é um frame.

  • @jeftelopes5181
    @jeftelopes5181 4 ปีที่แล้ว +1

    Se alguém teve algum erro com esse código:
    "faltantes_percentual = (dados.isnull().sum() / len(dados['ID']))*100"
    erro: Não foi possível localizar o número ordinal 242 na biblioteca de vínculo dinâmico
    C:\Users\seu_usuario\Anaconda3\Library\bin\mkl_intel_thread.dll.
    Solução: Basicamente , há dois arquivos adicionais que precisam ser excluídos: 'System32 \ libiomp5md.dll' e 'SysWOW64 \ libiomp5md.dll'. Após excluir esses dois em suas respectivas pastas, o numpy e outros pacotes são carregados corretamente.
    Recomendo fazer o backup dos dois arquivos excluído.
    Links para ajudar a entender melhor o erro:
    stackoverflow.com/questions/53026985/the-ordinal-242-could-not-be-located-in-the-dynamic-link-library-anaconda3-libra
    conda.io/projects/conda/en/latest/user-guide/troubleshooting.html#numpy-mkl-library-load-failed
    Pelo menos para mim Funcionou ;)

  • @francisko369
    @francisko369 4 ปีที่แล้ว +1

    Eu gostei, embora, claro eu sei que é uma forma explicativa e um pouco groseira, pois se pensar bem, por exemplo, substituir dados faltantes de pesos e alturas, pela sua média, terminaria misturando os pesos de homens e mulheres, e por lógicas, o certo substituir pela média de seu respectivo sexo, ou seja, como é possível realizar essa analises, considerando o sexo?

    •  4 ปีที่แล้ว

      Isso mesmo, você pode (e deve) refinar as substituições o melhor que puder

    • @SARAHMUZEL88
      @SARAHMUZEL88 3 ปีที่แล้ว

      @ mas como posso fazer isso?

  • @mateusguedes9142
    @mateusguedes9142 5 ปีที่แล้ว

    eu to querendo remover 0 as linhas, como eu faço isso.

    •  5 ปีที่แล้ว

      Eu mostro isso no vídeo, com o comando dropna

  • @Vlapstone
    @Vlapstone 2 ปีที่แล้ว

    Aguém mais está tendo erro? Já confirmei os comandos inúmeras vezes, já fiz desde o início e ainda com erro.

    • @Vlapstone
      @Vlapstone 2 ปีที่แล้ว

      ACHEEEEI... KKKKK SOU MUITO MANÉ... AO INVÉS DE MEDAL COLOQUEI MEDALS! DDDDUUUUUURRRRRRR ISSO PORQUE FIZ E REFIZ 10 VEZES E NAS 10 VEZES COMETI O MESMO ERRO!!!! FOOOOOOOOGO!

  • @gabrielsantos-mo2nu
    @gabrielsantos-mo2nu 2 ปีที่แล้ว

    o que era grátis ficou pago

  • @gabrielsantos-mo2nu
    @gabrielsantos-mo2nu 2 ปีที่แล้ว

    NADA mais irritante do que o cara deixar de dizer informação porque vai está no curso