Como lidar com dados faltantes (NaN) em um Dataset (Python para machine learning - Aula 22)

Didática Tech

มุมมอง 28 683

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 28 ม.ค. 2025

ความคิดเห็น •

@geovanidias5825 7 หลายเดือนก่อน ⁺¹
Mais um ótimo vídeo. Parabéns! Outra forma de pegar o total de registros do dataframe seria: df.shape[0].
No caso a fórmula poderia ficar assim: faltantes_percentual = (faltantes/dados.shape[0])*100.
Valeu!!!
2 ปีที่แล้ว ⁺²
Olá pessoal! Liberamos CERTIFICADO para este curso gratuito.
Para solicitar o seu, basta conferir o curso no link abaixo:
didatica.tech/curso-de-python-para-machine-learning-e-ciencia-de-dados-gratuito/
@paulamarangon ปีที่แล้ว
Muito bom, fiz de tudo pra substituir dados nulos antes , ainda bem que encontrei seu vídeo, me salvou, Obrigada, vou acompanhar os outros videos, vai me ajudar muito!
@MathematikO0 5 ปีที่แล้ว ⁺¹¹
Salvou meu TCC! Obrigado pelos vídeos!
@LearningWorldChatGPT 4 ปีที่แล้ว ⁺³
Excelente aula professor !!! ... Obrigado por compartilhar seus conhecimentos conosco. São poucos os que são professores de verdade... continue assim e DEUS te abençoe sempre.
@fabioribeirodesouza7248 4 ปีที่แล้ว ⁺²
Parabéns! Estou acompanhando todas as aulas. Você é um ótimo professor. Explica muito bem. Excelente didática. Obrigado por compartilhar seu conhecimento com todos nós.
@CheiroDeBacon 5 ปีที่แล้ว ⁺⁹
Muito bom, era o que eu estava precisando. Estarei acompanhando esta playlist.
@Vlapstone 2 ปีที่แล้ว
VÁRIAS AULAS COM ESSA TABELA QUE SÓ ENSINOU A TRAZER NO PC MANOOOO!!!! OMG! O curso é IRADO, SHOW, TOP, muito obrigado mesmo, de coração! Maaaassss.... faltou ai essa dica de como fazer em um MAC!!!!!!
@Vlapstone 2 ปีที่แล้ว
Consegui!!!!! Fui em finders, lá em cima em GO, dai em Home, e coloquei o arquivo lá. daí ficou "/Users/nomedomeucomp/athlete_events.csv"
Espero que ajude outros leigos como eu! :)
@leandro5056 3 ปีที่แล้ว
Cara, primeiramente, parabéns! Você tem uma ótima didática! Em segundo lugar, muito obrigado por esses vídeos!
@HiagoAD 4 ปีที่แล้ว ⁺¹
Q aula excelente, parabéns pelo trabalho!
@frankwilliam8689 4 ปีที่แล้ว
Parabéns, resolveu um problema que estava tendo com dataset, ótima aula
@alyssoncordeiro4800 ปีที่แล้ว
ótima aula
@topdronesmgtopdrones347 3 ปีที่แล้ว
Primeiramente gostaria de parabeniza-lo pela qualidade do material produzido que tem me incentivado, aos 50 anos, a aprender programação (conhecimento 0 sobre o assunto) para posteriormente tentar desenvolver modelos destinados a criação d estratégias de investimento e gerenciamento de risco.
Agora uma questão técnica: como fazer para substituir ausência d dados por dados gerados por um random entre a media e x desvios padrão? Ainda to mt no inicio do aprendizado e não tenho capacidade para esse tipo d elaboração
3 ปีที่แล้ว ⁺¹
Você pode usar a função random.normal do Numpy: stackoverflow.com/questions/58996519/populate-pandas-dataframe-with-normal-distribution
@cs-canalsolucoes8910 4 ปีที่แล้ว ⁺¹
Muito boa explicação !! Valeu
@gabrielramadan236 4 ปีที่แล้ว
Excelente vídeo! Muito didático
@petadoblegeografia6328 3 ปีที่แล้ว
Muito grato!
@grlgustavo 3 ปีที่แล้ว
Muito bom suas aulas, parabéns!!!!
Como eu transformo uma coluna do dataframe que está como object em float?
@thiagosouza6791 3 ปีที่แล้ว
Muito bom!
@SARAHMUZEL88 3 ปีที่แล้ว
Muito bom o vídeo. Eu gostaria de saber se há uma forma de fazermos o preenchimento dos NaN em relação a uma outra coluna, mas sem usar if, por conta do grande número de dados
@dwj6506 ปีที่แล้ว
como faço para substituir os dados ausentes( NaN) de uma coluna do dataframe por valores já existentes nela, de forma aleatória porém obedecendo a frequência que eles aparecem?
@fabiorodriguespinto8467 3 ปีที่แล้ว
Muito bom o vídeo, mas e se eu quiser substituir, por exemplo a coluna peso, pela media ou mediana, apenas de homens e que sejam praticantes de um determinado esporte?
@Katoairsoft 5 ปีที่แล้ว ⁺¹
E para substituir todos os campos vazios para uma palavra em específico ? Seria um If com algum método ?
@angeo10 3 ปีที่แล้ว
Porque o NaN ocorre? Tenho lagums planilhas em csv e xlsx mas quando abro elas no Pandas quase todos os campos ficam como NaN tem como evitar essa situação?
@edholanda5897 4 ปีที่แล้ว
Um a parte, vc poderia fazer um tutorial em como instalar o Tellurium no Anaconda
@ademilsondamiao 5 ปีที่แล้ว
Bom dia tem como somar valores duplicado e uma só linha ex pdt x 100,00 pdt x 200
Att, Ademilson
@athaydemoreirajaikin3736 4 ปีที่แล้ว
E se o valor de NaN estiver no índice da coluna, como faço para substituir??
@rogg5131 4 ปีที่แล้ว
Boa tarde ! É possível gerar a media para uma coluna com valores ausentes quando os valore são uma string ? Ou a média é calculada apenas quandos os valores da coluna são numericos ?
4 ปีที่แล้ว
Apenas quando são numéricos. Mas existem técnicas para substituir uma string ausente pela string mais abundante
@carlosmagnobarreto6856 4 ปีที่แล้ว
Boa tarde. Uma pergunta: Quando você usa o drop ou o fillna, os dados originais são também afetados? Ou essas alterações aparecem somente na view do Jupyter?
4 ปีที่แล้ว
Se você usa o parâmetro inplace=True os dados são afetados
@alineigansi 4 ปีที่แล้ว
Maravilha de vídeo!!! Mas me diz uma coisa, eu poderia simplesmente excluir os dados missing do dataset? Ou isso traria consequências graves pra minha análise?
4 ปีที่แล้ว ⁺¹
Se os dados missing representarem menos de 5% do conjunto de dados, não haveria muitas consequências negativas. A decisão sobre o que fazer com os dados missing, quando excluir, etc. depende também da importância das variáveis em questão em relação à sua variável target. Abordamos bastante isso nos módulos I e II: didatica.tech/curso-de-machine-learning-online-com-python/
@robertowagnerdacosta2508 3 ปีที่แล้ว
Dados faltantes nao podem simplesmente serem ignorados? E usarmos uma tabela sem eles?
3 ปีที่แล้ว ⁺¹
Se forem poucos, sim. Se forem muitos, o modelo pode acabar ficando com poucas amostras. Além disso, se apenas uma feature tem um valor faltando entre várias features, vale a pena excluir a amostra inteira? Essa é a questão
@robertowagnerdacosta2508 3 ปีที่แล้ว
@ Entendi. Vlw
@sheillinyoliveira8900 4 ปีที่แล้ว
Quando fui utilizar a função "fillna" apareceu um erro:
NameError: name 'fillna' is not defined
Alguém sabe me dizer o que aconteceu? Não está definido?!
@hotbull9666 5 ปีที่แล้ว
No caso, como faço pra adicionar um NaN, por exemplo, eu tenho um valor em uma posição, mas analisei e descobri que aquele valor não vai me servir, mas não quero excluir a linha toda, apenas transformar esse valor em NaN, como faço?
5 ปีที่แล้ว ⁺¹
Filtre esse valor e substitua-o por NaN com o numpy. Por exemplo: tabela[filtro]=numpy.nan
@chestergeo ปีที่แล้ว
É possível colocar o link para o dataset, por favor? Eu vim do video que usa esse dataset no curso da HotMart (que também não coloca o link), e aparentemente a expectativa é que eu assista todos os outros 21 videos para achar o link 😡
ปีที่แล้ว ⁺¹
Oi, pedimos desculpas, o dataset foi colocado no primeiro vídeo dessa série, na aula sobre pandas. Mas de fato faltou replicar para facilitar, o link é esse: www.kaggle.com/datasets/heesoo37/120-years-of-olympic-history-athletes-and-results
@daniloarthur3542 4 ปีที่แล้ว
Como faço para alterar a formatação dos itens nas linhas para coluna especifico.
No meu caso eu quero preencher com zero's a esquerda.
Ex: 13245678912
Out: 00012345678912
@jordana9368 4 ปีที่แล้ว ⁺¹
Alguém saberia me dizer a diferença entre Dataset e Dataframe?
@paulo_rogerio22 3 ปีที่แล้ว
data set é um conjunto de dados não consultados, e dataframe é conjunto de dados em movimento. exemplo: quando vc faz uma busca na net sobre algo, aquela busca/interação é um frame.
@jeftelopes5181 4 ปีที่แล้ว ⁺¹
Se alguém teve algum erro com esse código:
"faltantes_percentual = (dados.isnull().sum() / len(dados['ID']))*100"
erro: Não foi possível localizar o número ordinal 242 na biblioteca de vínculo dinâmico
C:\Users\seu_usuario\Anaconda3\Library\bin\mkl_intel_thread.dll.
Solução: Basicamente , há dois arquivos adicionais que precisam ser excluídos: 'System32 \ libiomp5md.dll' e 'SysWOW64 \ libiomp5md.dll'. Após excluir esses dois em suas respectivas pastas, o numpy e outros pacotes são carregados corretamente.
Recomendo fazer o backup dos dois arquivos excluído.
Links para ajudar a entender melhor o erro:
stackoverflow.com/questions/53026985/the-ordinal-242-could-not-be-located-in-the-dynamic-link-library-anaconda3-libra
conda.io/projects/conda/en/latest/user-guide/troubleshooting.html#numpy-mkl-library-load-failed
Pelo menos para mim Funcionou ;)
@francisko369 4 ปีที่แล้ว ⁺¹
Eu gostei, embora, claro eu sei que é uma forma explicativa e um pouco groseira, pois se pensar bem, por exemplo, substituir dados faltantes de pesos e alturas, pela sua média, terminaria misturando os pesos de homens e mulheres, e por lógicas, o certo substituir pela média de seu respectivo sexo, ou seja, como é possível realizar essa analises, considerando o sexo?
4 ปีที่แล้ว
Isso mesmo, você pode (e deve) refinar as substituições o melhor que puder
@SARAHMUZEL88 3 ปีที่แล้ว
@ mas como posso fazer isso?
@mateusguedes9142 5 ปีที่แล้ว
eu to querendo remover 0 as linhas, como eu faço isso.
5 ปีที่แล้ว
Eu mostro isso no vídeo, com o comando dropna
@Vlapstone 2 ปีที่แล้ว
Aguém mais está tendo erro? Já confirmei os comandos inúmeras vezes, já fiz desde o início e ainda com erro.
@Vlapstone 2 ปีที่แล้ว
ACHEEEEI... KKKKK SOU MUITO MANÉ... AO INVÉS DE MEDAL COLOQUEI MEDALS! DDDDUUUUUURRRRRRR ISSO PORQUE FIZ E REFIZ 10 VEZES E NAS 10 VEZES COMETI O MESMO ERRO!!!! FOOOOOOOOGO!
@gabrielsantos-mo2nu 2 ปีที่แล้ว
o que era grátis ficou pago
@gabrielsantos-mo2nu 2 ปีที่แล้ว
NADA mais irritante do que o cara deixar de dizer informação porque vai está no curso

ต่อไป

เล่นอัตโนมัติ

Como instalar o PyCharm em 2019 (Python para machine learning - Aula 23)