Mais um ótimo vídeo. Parabéns! Outra forma de pegar o total de registros do dataframe seria: df.shape[0]. No caso a fórmula poderia ficar assim: faltantes_percentual = (faltantes/dados.shape[0])*100. Valeu!!!
2 ปีที่แล้ว +2
Olá pessoal! Liberamos CERTIFICADO para este curso gratuito. Para solicitar o seu, basta conferir o curso no link abaixo: didatica.tech/curso-de-python-para-machine-learning-e-ciencia-de-dados-gratuito/
Muito bom, fiz de tudo pra substituir dados nulos antes , ainda bem que encontrei seu vídeo, me salvou, Obrigada, vou acompanhar os outros videos, vai me ajudar muito!
Excelente aula professor !!! ... Obrigado por compartilhar seus conhecimentos conosco. São poucos os que são professores de verdade... continue assim e DEUS te abençoe sempre.
Parabéns! Estou acompanhando todas as aulas. Você é um ótimo professor. Explica muito bem. Excelente didática. Obrigado por compartilhar seu conhecimento com todos nós.
VÁRIAS AULAS COM ESSA TABELA QUE SÓ ENSINOU A TRAZER NO PC MANOOOO!!!! OMG! O curso é IRADO, SHOW, TOP, muito obrigado mesmo, de coração! Maaaassss.... faltou ai essa dica de como fazer em um MAC!!!!!!
Consegui!!!!! Fui em finders, lá em cima em GO, dai em Home, e coloquei o arquivo lá. daí ficou "/Users/nomedomeucomp/athlete_events.csv" Espero que ajude outros leigos como eu! :)
Primeiramente gostaria de parabeniza-lo pela qualidade do material produzido que tem me incentivado, aos 50 anos, a aprender programação (conhecimento 0 sobre o assunto) para posteriormente tentar desenvolver modelos destinados a criação d estratégias de investimento e gerenciamento de risco. Agora uma questão técnica: como fazer para substituir ausência d dados por dados gerados por um random entre a media e x desvios padrão? Ainda to mt no inicio do aprendizado e não tenho capacidade para esse tipo d elaboração
3 ปีที่แล้ว +1
Você pode usar a função random.normal do Numpy: stackoverflow.com/questions/58996519/populate-pandas-dataframe-with-normal-distribution
Muito bom o vídeo. Eu gostaria de saber se há uma forma de fazermos o preenchimento dos NaN em relação a uma outra coluna, mas sem usar if, por conta do grande número de dados
como faço para substituir os dados ausentes( NaN) de uma coluna do dataframe por valores já existentes nela, de forma aleatória porém obedecendo a frequência que eles aparecem?
Muito bom o vídeo, mas e se eu quiser substituir, por exemplo a coluna peso, pela media ou mediana, apenas de homens e que sejam praticantes de um determinado esporte?
Porque o NaN ocorre? Tenho lagums planilhas em csv e xlsx mas quando abro elas no Pandas quase todos os campos ficam como NaN tem como evitar essa situação?
Boa tarde ! É possível gerar a media para uma coluna com valores ausentes quando os valore são uma string ? Ou a média é calculada apenas quandos os valores da coluna são numericos ?
4 ปีที่แล้ว
Apenas quando são numéricos. Mas existem técnicas para substituir uma string ausente pela string mais abundante
Boa tarde. Uma pergunta: Quando você usa o drop ou o fillna, os dados originais são também afetados? Ou essas alterações aparecem somente na view do Jupyter?
4 ปีที่แล้ว
Se você usa o parâmetro inplace=True os dados são afetados
Maravilha de vídeo!!! Mas me diz uma coisa, eu poderia simplesmente excluir os dados missing do dataset? Ou isso traria consequências graves pra minha análise?
4 ปีที่แล้ว +1
Se os dados missing representarem menos de 5% do conjunto de dados, não haveria muitas consequências negativas. A decisão sobre o que fazer com os dados missing, quando excluir, etc. depende também da importância das variáveis em questão em relação à sua variável target. Abordamos bastante isso nos módulos I e II: didatica.tech/curso-de-machine-learning-online-com-python/
Dados faltantes nao podem simplesmente serem ignorados? E usarmos uma tabela sem eles?
3 ปีที่แล้ว +1
Se forem poucos, sim. Se forem muitos, o modelo pode acabar ficando com poucas amostras. Além disso, se apenas uma feature tem um valor faltando entre várias features, vale a pena excluir a amostra inteira? Essa é a questão
Quando fui utilizar a função "fillna" apareceu um erro: NameError: name 'fillna' is not defined Alguém sabe me dizer o que aconteceu? Não está definido?!
No caso, como faço pra adicionar um NaN, por exemplo, eu tenho um valor em uma posição, mas analisei e descobri que aquele valor não vai me servir, mas não quero excluir a linha toda, apenas transformar esse valor em NaN, como faço?
5 ปีที่แล้ว +1
Filtre esse valor e substitua-o por NaN com o numpy. Por exemplo: tabela[filtro]=numpy.nan
É possível colocar o link para o dataset, por favor? Eu vim do video que usa esse dataset no curso da HotMart (que também não coloca o link), e aparentemente a expectativa é que eu assista todos os outros 21 videos para achar o link 😡
ปีที่แล้ว +1
Oi, pedimos desculpas, o dataset foi colocado no primeiro vídeo dessa série, na aula sobre pandas. Mas de fato faltou replicar para facilitar, o link é esse: www.kaggle.com/datasets/heesoo37/120-years-of-olympic-history-athletes-and-results
Como faço para alterar a formatação dos itens nas linhas para coluna especifico. No meu caso eu quero preencher com zero's a esquerda. Ex: 13245678912 Out: 00012345678912
data set é um conjunto de dados não consultados, e dataframe é conjunto de dados em movimento. exemplo: quando vc faz uma busca na net sobre algo, aquela busca/interação é um frame.
Se alguém teve algum erro com esse código: "faltantes_percentual = (dados.isnull().sum() / len(dados['ID']))*100" erro: Não foi possível localizar o número ordinal 242 na biblioteca de vínculo dinâmico C:\Users\seu_usuario\Anaconda3\Library\bin\mkl_intel_thread.dll. Solução: Basicamente , há dois arquivos adicionais que precisam ser excluídos: 'System32 \ libiomp5md.dll' e 'SysWOW64 \ libiomp5md.dll'. Após excluir esses dois em suas respectivas pastas, o numpy e outros pacotes são carregados corretamente. Recomendo fazer o backup dos dois arquivos excluído. Links para ajudar a entender melhor o erro: stackoverflow.com/questions/53026985/the-ordinal-242-could-not-be-located-in-the-dynamic-link-library-anaconda3-libra conda.io/projects/conda/en/latest/user-guide/troubleshooting.html#numpy-mkl-library-load-failed Pelo menos para mim Funcionou ;)
Eu gostei, embora, claro eu sei que é uma forma explicativa e um pouco groseira, pois se pensar bem, por exemplo, substituir dados faltantes de pesos e alturas, pela sua média, terminaria misturando os pesos de homens e mulheres, e por lógicas, o certo substituir pela média de seu respectivo sexo, ou seja, como é possível realizar essa analises, considerando o sexo?
4 ปีที่แล้ว
Isso mesmo, você pode (e deve) refinar as substituições o melhor que puder
ACHEEEEI... KKKKK SOU MUITO MANÉ... AO INVÉS DE MEDAL COLOQUEI MEDALS! DDDDUUUUUURRRRRRR ISSO PORQUE FIZ E REFIZ 10 VEZES E NAS 10 VEZES COMETI O MESMO ERRO!!!! FOOOOOOOOGO!
Mais um ótimo vídeo. Parabéns! Outra forma de pegar o total de registros do dataframe seria: df.shape[0].
No caso a fórmula poderia ficar assim: faltantes_percentual = (faltantes/dados.shape[0])*100.
Valeu!!!
Olá pessoal! Liberamos CERTIFICADO para este curso gratuito.
Para solicitar o seu, basta conferir o curso no link abaixo:
didatica.tech/curso-de-python-para-machine-learning-e-ciencia-de-dados-gratuito/
Muito bom, fiz de tudo pra substituir dados nulos antes , ainda bem que encontrei seu vídeo, me salvou, Obrigada, vou acompanhar os outros videos, vai me ajudar muito!
Salvou meu TCC! Obrigado pelos vídeos!
Excelente aula professor !!! ... Obrigado por compartilhar seus conhecimentos conosco. São poucos os que são professores de verdade... continue assim e DEUS te abençoe sempre.
Parabéns! Estou acompanhando todas as aulas. Você é um ótimo professor. Explica muito bem. Excelente didática. Obrigado por compartilhar seu conhecimento com todos nós.
Muito bom, era o que eu estava precisando. Estarei acompanhando esta playlist.
VÁRIAS AULAS COM ESSA TABELA QUE SÓ ENSINOU A TRAZER NO PC MANOOOO!!!! OMG! O curso é IRADO, SHOW, TOP, muito obrigado mesmo, de coração! Maaaassss.... faltou ai essa dica de como fazer em um MAC!!!!!!
Consegui!!!!! Fui em finders, lá em cima em GO, dai em Home, e coloquei o arquivo lá. daí ficou "/Users/nomedomeucomp/athlete_events.csv"
Espero que ajude outros leigos como eu! :)
Cara, primeiramente, parabéns! Você tem uma ótima didática! Em segundo lugar, muito obrigado por esses vídeos!
Q aula excelente, parabéns pelo trabalho!
Parabéns, resolveu um problema que estava tendo com dataset, ótima aula
ótima aula
Primeiramente gostaria de parabeniza-lo pela qualidade do material produzido que tem me incentivado, aos 50 anos, a aprender programação (conhecimento 0 sobre o assunto) para posteriormente tentar desenvolver modelos destinados a criação d estratégias de investimento e gerenciamento de risco.
Agora uma questão técnica: como fazer para substituir ausência d dados por dados gerados por um random entre a media e x desvios padrão? Ainda to mt no inicio do aprendizado e não tenho capacidade para esse tipo d elaboração
Você pode usar a função random.normal do Numpy: stackoverflow.com/questions/58996519/populate-pandas-dataframe-with-normal-distribution
Muito boa explicação !! Valeu
Excelente vídeo! Muito didático
Muito grato!
Muito bom suas aulas, parabéns!!!!
Como eu transformo uma coluna do dataframe que está como object em float?
Muito bom!
Muito bom o vídeo. Eu gostaria de saber se há uma forma de fazermos o preenchimento dos NaN em relação a uma outra coluna, mas sem usar if, por conta do grande número de dados
como faço para substituir os dados ausentes( NaN) de uma coluna do dataframe por valores já existentes nela, de forma aleatória porém obedecendo a frequência que eles aparecem?
Muito bom o vídeo, mas e se eu quiser substituir, por exemplo a coluna peso, pela media ou mediana, apenas de homens e que sejam praticantes de um determinado esporte?
E para substituir todos os campos vazios para uma palavra em específico ? Seria um If com algum método ?
Porque o NaN ocorre? Tenho lagums planilhas em csv e xlsx mas quando abro elas no Pandas quase todos os campos ficam como NaN tem como evitar essa situação?
Um a parte, vc poderia fazer um tutorial em como instalar o Tellurium no Anaconda
Bom dia tem como somar valores duplicado e uma só linha ex pdt x 100,00 pdt x 200
Att, Ademilson
E se o valor de NaN estiver no índice da coluna, como faço para substituir??
Boa tarde ! É possível gerar a media para uma coluna com valores ausentes quando os valore são uma string ? Ou a média é calculada apenas quandos os valores da coluna são numericos ?
Apenas quando são numéricos. Mas existem técnicas para substituir uma string ausente pela string mais abundante
Boa tarde. Uma pergunta: Quando você usa o drop ou o fillna, os dados originais são também afetados? Ou essas alterações aparecem somente na view do Jupyter?
Se você usa o parâmetro inplace=True os dados são afetados
Maravilha de vídeo!!! Mas me diz uma coisa, eu poderia simplesmente excluir os dados missing do dataset? Ou isso traria consequências graves pra minha análise?
Se os dados missing representarem menos de 5% do conjunto de dados, não haveria muitas consequências negativas. A decisão sobre o que fazer com os dados missing, quando excluir, etc. depende também da importância das variáveis em questão em relação à sua variável target. Abordamos bastante isso nos módulos I e II: didatica.tech/curso-de-machine-learning-online-com-python/
Dados faltantes nao podem simplesmente serem ignorados? E usarmos uma tabela sem eles?
Se forem poucos, sim. Se forem muitos, o modelo pode acabar ficando com poucas amostras. Além disso, se apenas uma feature tem um valor faltando entre várias features, vale a pena excluir a amostra inteira? Essa é a questão
@ Entendi. Vlw
Quando fui utilizar a função "fillna" apareceu um erro:
NameError: name 'fillna' is not defined
Alguém sabe me dizer o que aconteceu? Não está definido?!
No caso, como faço pra adicionar um NaN, por exemplo, eu tenho um valor em uma posição, mas analisei e descobri que aquele valor não vai me servir, mas não quero excluir a linha toda, apenas transformar esse valor em NaN, como faço?
Filtre esse valor e substitua-o por NaN com o numpy. Por exemplo: tabela[filtro]=numpy.nan
É possível colocar o link para o dataset, por favor? Eu vim do video que usa esse dataset no curso da HotMart (que também não coloca o link), e aparentemente a expectativa é que eu assista todos os outros 21 videos para achar o link 😡
Oi, pedimos desculpas, o dataset foi colocado no primeiro vídeo dessa série, na aula sobre pandas. Mas de fato faltou replicar para facilitar, o link é esse: www.kaggle.com/datasets/heesoo37/120-years-of-olympic-history-athletes-and-results
Como faço para alterar a formatação dos itens nas linhas para coluna especifico.
No meu caso eu quero preencher com zero's a esquerda.
Ex: 13245678912
Out: 00012345678912
Alguém saberia me dizer a diferença entre Dataset e Dataframe?
data set é um conjunto de dados não consultados, e dataframe é conjunto de dados em movimento. exemplo: quando vc faz uma busca na net sobre algo, aquela busca/interação é um frame.
Se alguém teve algum erro com esse código:
"faltantes_percentual = (dados.isnull().sum() / len(dados['ID']))*100"
erro: Não foi possível localizar o número ordinal 242 na biblioteca de vínculo dinâmico
C:\Users\seu_usuario\Anaconda3\Library\bin\mkl_intel_thread.dll.
Solução: Basicamente , há dois arquivos adicionais que precisam ser excluídos: 'System32 \ libiomp5md.dll' e 'SysWOW64 \ libiomp5md.dll'. Após excluir esses dois em suas respectivas pastas, o numpy e outros pacotes são carregados corretamente.
Recomendo fazer o backup dos dois arquivos excluído.
Links para ajudar a entender melhor o erro:
stackoverflow.com/questions/53026985/the-ordinal-242-could-not-be-located-in-the-dynamic-link-library-anaconda3-libra
conda.io/projects/conda/en/latest/user-guide/troubleshooting.html#numpy-mkl-library-load-failed
Pelo menos para mim Funcionou ;)
Eu gostei, embora, claro eu sei que é uma forma explicativa e um pouco groseira, pois se pensar bem, por exemplo, substituir dados faltantes de pesos e alturas, pela sua média, terminaria misturando os pesos de homens e mulheres, e por lógicas, o certo substituir pela média de seu respectivo sexo, ou seja, como é possível realizar essa analises, considerando o sexo?
Isso mesmo, você pode (e deve) refinar as substituições o melhor que puder
@ mas como posso fazer isso?
eu to querendo remover 0 as linhas, como eu faço isso.
Eu mostro isso no vídeo, com o comando dropna
Aguém mais está tendo erro? Já confirmei os comandos inúmeras vezes, já fiz desde o início e ainda com erro.
ACHEEEEI... KKKKK SOU MUITO MANÉ... AO INVÉS DE MEDAL COLOQUEI MEDALS! DDDDUUUUUURRRRRRR ISSO PORQUE FIZ E REFIZ 10 VEZES E NAS 10 VEZES COMETI O MESMO ERRO!!!! FOOOOOOOOGO!
o que era grátis ficou pago
NADA mais irritante do que o cara deixar de dizer informação porque vai está no curso