Este ano estou entrando em ciência de dados, em agosto começo a faculdade. Mas eu queria começar mais cedo para aprender. Até agora tudo que vi, você é a pessoa que melhor explica, você faz tudo parecer muito fácil, muito obrigado por compartilhar seu conhecimento. Abraço da Argentina
Estou amando isto, so com o meu PC sentado directamente de Mocambique, irei mi tornar um cientista de dados neste canal. Porque daqui ja nao vou parar ate estar maduro.🥰🥰🥰
uauuu ainda nem terminei de assistir a aula e foi tudo que eu buscava , professor o senhor está de parabéns , ja entendi um pouco de programação e almejava algo mais pratico , almeso ser um cientista de dados porem queria alguem que poderia me ajudar e a sua aula , foi a melhor que assisti até agora
Que bom que você gostou e que está sendo útil. Não deixe de assitir a segunda aula e nunca, nunca deixe de praticar. Boa sorte no seu futuro como Cientista de Dados!
@@marcosvafg aula incrível realmente! Excelente didática. Foi a melhor que encontrei até agora tb. É um muito difícil encontrar material para iniciantes do zero e vc alcançou o objetivo com maestria! Parabéns e muito obrigada!
Eu comecei a estudar python a 2 semanas e a mexer com bibliotecas de análise da dados a 2 dias, e eu estou gostando muito, e desse curso tbm, incrível dms, tenta continuar, é muito bom mesmo
Nossa, como disseram alguns amigos aí, só tenho que agradecer!! Sabe a luz no fim do túnel?! Já fiz 4 cursos de python. Aprendi desde lógica de programação até classes/POO e RE. Me interessei pela análise de dados, mas não conseguia algo didático pra dar o 'start' com os arquivos csv. A parte de 'encoding' ajudou demais! No google tem bastante coisa, mas sem a mesma clareza. Com o conhecimento que venho adquirindo, essa aula está sendo ultra complementar, pois é justamente a parte onde ninguém fala, apenas nos cursos mais específicos, onde não havia chegado até então. Sendo que, relativamente falando, isso é muito, muito mais simples, pelo menos inicialmente, do que recursão, métodos, classes, objetos, expressões regulares e por aí vai. Chegar aqui e entender tudo que o professor fala da muita alegria. Sentido de recompensa. ps... Falta agora descobrir como conseguir emprego na área.
Conseguir emprego na área é fácil, basta ter uma graduação em matemática, phd em estatística, conhecimentos em R, Scala, Python e todas as suas libs cientificas, se possível uma pós em gestão empresarial e marketing e pelo menos 5 anos de experiencia nessas áreas é super de boas!!!!
Charles, eu concordo com sua crítica de que as empresas estão exigindo demais, e posso te dizer que nem elas sabem o que estão pedindo. Minha dica: mande seu currículo e tente a vaga mesmo que você não preencha todos os requisitos descritos. Como eu falei, nem eles sabem o quanto é impossível o que estão pedindo.
muito obrigada pelo curso mesmo pelo primeira vez eu aprendi python agora ninguém me segura mais.... muito obrigada mesmo . excelente aula professor nota 10.
Amei as aulas!!! Assisti uma aula do professor no Open Class e gostei tanto da aula que vim aqui fazer o curso integral no canal. Parabéns aula de muita qualidade e professor didático. Ansiosa por outras aulas!!
Estou gostando muito da sua aula professor ,olha que eu sou formado em sistema da informação e não tinha interesse em ir para área da programação .Porém a forma que o senhor esta administrando a aula e mostrando o tratamento de dados isto tem muita relação com o meu trabalho e vai me ajudar muito em tomada de decisões .
Marcos Vinícius A F Guimarães professor estou analisando um arquivo do meu trabalho e precisava colocar no gráfico as colunas e não consegui identificar o código para isto!
Boas professor Marcos Vinícius, falou em efectuar o reset do index, não resolve logo o seu problema. Se fizer o reset no DataFrame com o método reset_index() o seu index actual passará a ser uma nova coluna ou variável do DataFrame, e panda irá adicionar um novo index começando por zero. O ideal será a utilização do atributo index do DataFrame, ele recebe uma lista pura python. Aí joga uma lista usando um gerador de intervalos como o range. df.index = list( range(df.shape[0]) ) aí sim fica tudo como se espera. Grato. Muito boa aula e didática.
Após o intervalo, percebi que da para trabalhar com simultâneos data framer. Interessante! Tem que tomar cuidado para nao se confundir na hora da análise. 2:03:23
MEU DEUS DO CÉU, que conteúdo incrível cara, em um vídeo de 3 horas aprendi coisas que nem em 3 dias eu aprendi, fora que é muito mais didático. Gostaria de saber se existe alguma chance de voltarem a fazer essas aulas ou que, não sei tipo, eu conseguir aprender tendo a ajuda de você...
Excelente vídeo! É raro encontrar no TH-cam uma aula com uma qualidade dessa em português. Meu muito obrigada!! Eu quero dividir um conjunto de dados em dados de treinamento, validação e teste pelo método holdout, para aprendizado de máquina. Eu sou iniciante em Python e em programação, e gostaria de saber se é possível usar o pandas para esse propósito.
Luana, para usar só o pandas pra isso você vai ter que criar uma função em Python que faça essa divisão. Para Machine Learning usando o dataframe do pandas a opção mais usada é a biblioteca sckit-learn. Dá uma olhada nela. O site oficial tem uma documentação muito boa.
Excelente aula. Fico muito agradecido. Baixei os dados pelo GitHub e estou assistindo e fazendo todos os comandos passo-a-passo. Só uma curiosidade: os meus gráficos não estão coloridos. Tem algum recurso que não instalei?
Marcelo, aqui também as vezes os gráficos ficam coloridos, as vezes ficam com uma cor só. Deve ter uma configuração pra forçar isso mas nunca corri atrás pra saber. Valeu pelo feedback!
Opa, mais uma dica. Quando precisou obter os dados dos maior valores agrupados e usou o loc. O ideal é usar o iloc quando se pretende lidar com índices. Ai a solução poderia ser assim também. valores_agrupos_seriegroupby = dados_df.groupby('nome')['valor'] dados_df.iloc[ valores_agrupos_max.idxmax().values ] A objecto Series possui dois atributos interessantes o index para obter os índices e o values quando pretendemos chegar até aos valores.
Eu vi mesmo que infelizmente o GDF tirou o arquivo do ar, mas além do endereço citado, todos os códigos e arquivos também estão no Github do Observatório Social de Brasília - github.com/OSBrasilia/Curso_Analise_Dados_Publicos_Online
Dimas, o curso se chama Curso de Análise de Dados em Python para Iniciantes. A segunda aula está no canal do Labhacker , mas também pode ser acessada pela página educativa do Portal da Transparência do Senado Federal.
Pois é... não falei meu nome né!? Hehehe. Mas agora vai: Marcos Vinicius Amorim Ferreira Guimarães, sou formado em Ciência da Computação com Mestrado em Gestão do Conhecimento. Trabalho com desenvolvimento de sistemas, análise de dados etcs, e sou professor de programação Python e Machine Learning.
52:03 - Entendendo um pouco mais sobre CODIFICAÇÃO DE CARACTERES; 52:03 - Um editor que considero ajudar bastante seria esse: notepad-plus-plus.org/resources.html;
Jerônimo, com certeza o Notepad++ é um excelente editor e ajuda bastante. Eu gosto bastante do Atom também, mas aí já acaba virando preferência pessoal. Obrigado pela dica!
Excelente aula de data science. Parabéns Marcos, pela didática, os dados e exemplos reais selecionados para essa aula, realmente. todos muito interessantes, a tal ponto para que eu queira aprender pandas, fantástico. Conhecia Python e os módulos numpy, matplotilib, entre outros, mas não sabia das ferramentas que agilizam a manipulação com volume de dados. Bacana Demais!!! Estou interessado que procuro por um livro de referência em análise de dados com python e pandas. Poderia me sugerir uma? E aproveitando, é possível escrutinar arquivos no formato PDF ao invés de CSV com o pandas? Desde já agradeço qualquer esclarecimento.
Humberto, obrigado pelo feedback. Sobre o livro, a principal referência é o "Python para análise de dados" do Wes McKinney, que é o criador do pandas. E sobre arquivos PDF, é possível sim, mas é um tanto mais complicado. Procure pelas bibliotecas Tabula e Rows. Essa última é de um brasileiro, o Turicas.
@@marcosvafg Opa!!! Maravilha pelo retorno Marcos! Bem quanto ao livro me antecipei antes de teu reorno, e acabei comprando o livro do Chen (Análise de Dados com Python e Pandas). Estou curtindo muito! Vou ver se acho o material do Turicas, realmente gostaria de manipular dados contidos em PDF. Eu ainda não consegui assistir todas as aulas, que pela pegada das duas primeiras aulas, são incríveis! Sensacional mesmo Marcos. Palavra do momento: Agradecimento! Que você sempre tenha para compartilhar conhecimento e disseminando incentivos para quem gosta de programação, é a formula da motivação! Parabéns!
Parabéns aos envolvidos pela iniciativa de produzir e compartilhar um conteúdo tão rico como este! Estou terminando a aula 01, mas assistirei todas! Uma dúvida, ao repetir a plotagem dos gráficos por aqui notei que ao invés das barras ficarem multicoloridas, como as do exemplo, ficaram todas azuis. Há algum comando específico ou configuração para corrigir isso?
Josimar, que bom que está te ajudando. Isso do gráfico vir todo em azul as vezes acontece comigo também e ainda não busquei a resposta pra isso. Mas vou procurar e informo aqui.
Boa tarde !! Estou tentando rodar o csv no Pycharm, ele da tudo certo porém não aparece a planilha ao executar, você sabe se tenho que fazer alguma configuração no Pycharm?
Tem uma pequena diferença sim Jessica. O encoding tem a ver com os caracteres especiais que a linguagem vai conseguir interpretar ao ler aquele arquivo. Mas a diferença nesse caso é pouca e "latin1' vai funcionar também
Comentários no geral significam que seu código é ruim, um código bom tem de ser entendido sem comentários e por qualquer um, fora que muitos comentários deixam a estrutura poluída.
Gabriel, obrigado pelo feedback. Eu concordo com você, mas nesse caso a ideia de encher de comentários é a pessoa poder voltar depois e entender o porque daquele código. O curso é voltado para leigos, pessoas que não dominam a programação, então eu acho que nesse caso os comentários ajudam muito.
O conjuntos de dados "CIRURGIAS ELETIVA E DE EMERGENCIA JANEIRO 2017" não está mais disponível. Infelizmente. Alguém tem esse arquivo csv para disponibilizar? Muito obrigado!
Eu vi mesmo que infelizmente o GDF tirou o arquivo do ar, mas além do endereço citado, todos os códigos e arquivos também estão no Github do Observatório Social de Brasília - github.com/OSBrasilia/Curso_Analise_Dados_Publicos_Online
Caros colegas. A base de dados "Cirurgia" nao esta mais disponivel para acesso publico, ate essa data. Alguem poderia disponibilizar a base de dados no Github ?
Infelizmente eu vi que o GDF tirou essa base do ar, mas todo o material do curso, incluindo os arquivos, estão no Github do Observatório Social de Brasília - github.com/OSBrasilia/Curso_Analise_Dados_Publicos_Online
Opa, comigo ocorreu, bastar criar uma variavel cores, e colocar dentro de um array as cores em ingles, por exemplo: cores = ['green', 'red','black','blue'] df['uf_busca'].value_counts().plot.bar(color=cores) Espero ter ajudado.
Muito bacana o curso, mas tive um probleminha. Importei um arquivo do excel para treinar os mesmos comandos e tecnicas, so que na parte onde vc fez um recorte do dataframe para so incluir os registros contendo o hospitaldebase, fiz o mesmo com um outro campo do meu dataframe e ele criou um novo dataframe apenas com o cabeçalho (colunas) do original, mas ficou com todos os registros vazios mesmo eu tendo colocado o criterio certinho e sem acusar qualquer erro, nao consigo descobrir porque ele nao trouxe os valores dos campos. Alguma dica ?
Alexandre, se não deu erro e não retornou dados, a primeira suspeita é no critério mesmo. Refaz do zero, presta atenção nos detalhes, que acaba dando certo!
Luiz, você consegue ver toda a documentação de um método se você colocar o "?" antes do nome dele (?str.replace()) ou se você apertar "Shift + TAB" depois do nome dele. Tenta aí!
Boa noite professor, tudo bem? O meu Jupyter Notebook não está dando os resultados. Depois que eu clico em "Run" ele abre outra caixa "In" em branco, em vez de dar a resposta. Vc sabe por que isso está acontecendo? Chegou até a aparecer uma msg de erro.
Eu tive algum problema com o anaconda, pois eu baixei um arquivo de instalação direto no portal, mas ao instalar, por alguma razão, o anaconda navigator não foi instalado. Contudo, eu instalei o python3.8. É possível baixar e acessar o jupyter por outro meio?
para quem ta assistindo em 2020 o separador ja esta em ","(virgula), e caso renomeie o arquivo que inseriu no jupyiternotebook, faça uma atualização no símbolo de reciclagem, próximo de "upload", o meu tava dando erro... por não encontrar o arquivo csv
Olá, Simone! Infelizmente, neste modelo não temos como emitir um certificado, pois não há um teste online a ser feito para avaliação e não temos como confirmar se as pessoas participaram. Ë diferente dos presenciais ou com lista de inscrição, em que isso se torna possível.
Eduardo, a primeira parte é fácil, basta chamar seu dataframe com um nome de coluna que não existe e ele vai entender que vc quer criar uma coluna com aquele nome. df['nome_novo']. Mas vc precisa preencher essa coluna com dados né? De onde eles viriam?
@@cordoba712 em tese é isso mesmo. Suspeito até que não precisaria ser do mesmo tamanho, e o pandas vai colocar null no resto. Dá também para preencher com um valor único ou com um valor igual ao de outra coluna, por exemplo. Também dá pra fazer uma operação com as colunas que já existem para criar essa nova, como por exemplo pra calcular um índice per capita.
Hilton, os gráficos no matplotlib as vezes ficam multicoloridos e as vezes ficam com uma cor só. Eu sempre vi isso mas acabei nunca indo pesquisar o motivo. Vou fazer isso e tentar descobrir como direcionar a questão das cores.
59:20 Quando tentei chamar dtypes apareceu o erro 'Series' object is not callable Mas o arquivo que estou analisando é diferente do arquivo usado na aula, pois estou fazendo a aula anos depois. Podem me ajudar? Erro completo: TypeError Traceback (most recent call last) in ----> 1 df.dtypes() TypeError: 'Series' object is not callable
O dtypes não é uma função, é uma característica. Por isso não funciona como os parênteses (). Ou seja, dtypes() está errado, o certo é dtypes apenas. (Desulpa a demora em responder!)
Otimo video, alguem sabe me dizer como altero o tamanho do gráfico ? depois do plot.bar Uso o comando rcParams['figure.figsize'] = que ajusto tamanho do eixo x e y quando uso somente o matplotlib, aqui nao funcionou ou coloquei na linha errada, se alguem souber como alterar o tamanho agradeço mt Edit: Eu uso o comando rcparams para grafico em linha, não sei se é o mesmo para em barras talvez seja isso por não esta dando certo
Marcio, o caminho é esse mesmo mas eu sempre mudei o tamanho do figsize antes de gerar o gráfico e não como um parâmetro geral. Mas o caminho é esse, o seu gráfico está pequeno pq a área que o Jupyter destinou a ele está pequena
Oi meu nome é vinicius e sou cadeirante (tetraplégico só mexo do pescoço para cima) e gostaria de fazer o curso mas tenho umas duvidas você pode me ajuda? A lembrando que eu mexo no computador normal.
Olá Vinicius! Você gostaria de mandar suas dúvidas por aqui mesmo para que outros cadeirantes interessados possam aproveitar as respostas do professor Marcos Vinícius?
@@vinioliveira8863 Você precisa antes instalar o Anaconda, cujo vídeo de instrução está disponível aqui no canal também. Depois é seguir a ordem dos dois vídeos do professor Marcos Vinicius. Durante as duas aulas online, o pessoal foi perguntando e muitas dessas dúvidas foram esclarecidas. Mas se mesmo assim você ficar com alguma dúvida específica sobre o conteúdo é só incluir aqui que a gente tenta ajudar... ;-)
@@vinioliveira8863 Instale o Anaconda conforme instruções em vídeo neste mesmo canal. Assista a aula 1 e faça as atividades paralelamente no seu computador. Depois, no seu tempo, assista a aula 2 e continue desenvolvendo as atividades propostas pelo professor. Se houver alguma dúvida específica, a gente esclarece por aqui.
novembro de 2020, nem os dados de cirurgia estão mais diponíveis, ao menos, não achei, mas usei outros dados para aprender. Os dados do vídeo estão no github de qualquer modo. apenas escolhi pegar dados novos.
Lucas, não precisa do Pycharm não. Ele é outra ferramenta né? Refaça a instalação e veja se funciona. A tempos atrás eu vi que a versão 64bits do Anaconda estava com problema no Windows, mas a versão 32bits estava funcionando bem.
Rodrigo, se ainda não tiver conseguido, tente baixar outra versão do Anaconda. Pelo que eu vi a versão 64bits está com problema, tente a versão 32bits.
Stephanie, parece que o MacOS, ou o navegador no Mac, tem problema em baixar os arquivos. Na realidade parece que ele fica salvo em outro formato. Tente clicar com o botão direito e pedir pra fazer o download, aí você pode escolher o lugar pra baixar e o tipo do arquivo. Isso deve funcionar.
Assistindo em 03/06/2023. Excelente conteúdo e didática! Muito obrigado
Agradeço a iniciativa da Câmara dos Deputados!
Muito bem explicado, vou continuar acompanhado as próximas aulas, obrigado professor.
Este ano estou entrando em ciência de dados, em agosto começo a faculdade. Mas eu queria começar mais cedo para aprender.
Até agora tudo que vi, você é a pessoa que melhor explica, você faz tudo parecer muito fácil, muito obrigado por compartilhar seu conhecimento.
Abraço da Argentina
Que bom que gostou! Fico feliz! Bons estudos!
Estou amando isto, so com o meu PC sentado directamente de Mocambique, irei mi tornar um cientista de dados neste canal. Porque daqui ja nao vou parar ate estar maduro.🥰🥰🥰
Abrao, que legal saber que esse conhecimento está te ajudando aí em Moçambique! Muito bom!
Chorando de emoção !!!! achei alguém para aprender de verdade !!
Obrigado pelo feedback, Wilson. Ótimo saber que te ajudou
uauuu ainda nem terminei de assistir a aula e foi tudo que eu buscava , professor o senhor está de parabéns , ja entendi um pouco de programação e almejava algo mais pratico , almeso ser um cientista de dados porem queria alguem que poderia me ajudar e a sua aula , foi a melhor que assisti até agora
Que bom que você gostou e que está sendo útil. Não deixe de assitir a segunda aula e nunca, nunca deixe de praticar. Boa sorte no seu futuro como Cientista de Dados!
@@marcosvafg aula incrível realmente! Excelente didática. Foi a melhor que encontrei até agora tb. É um muito difícil encontrar material para iniciantes do zero e vc alcançou o objetivo com maestria! Parabéns e muito obrigada!
@@polyannesouza6946 Obrigado pelo feedback!
Essas 14 pessoas que deram deslike só podem ter clicado errado...não pode! Professor, Parabénsssssssssssssssssssssss Obrigada!
Lais, obrigado pelo feedback!
que videooooo, obrigadooo.. o melhor que já vi no youtube até hoje
Mateus, que bom que gostou. Valeu!
Cheguei agora, bora aprender.
Bora!
Eu comecei a estudar python a 2 semanas e a mexer com bibliotecas de análise da dados a 2 dias, e eu estou gostando muito, e desse curso tbm, incrível dms, tenta continuar, é muito bom mesmo
Ramon, valeu pelo feedback!
Nossa, como disseram alguns amigos aí, só tenho que agradecer!! Sabe a luz no fim do túnel?!
Já fiz 4 cursos de python. Aprendi desde lógica de programação até classes/POO e RE. Me interessei pela análise de dados, mas não conseguia algo didático pra dar o 'start' com os arquivos csv. A parte de 'encoding' ajudou demais! No google tem bastante coisa, mas sem a mesma clareza. Com o conhecimento que venho adquirindo, essa aula está sendo ultra complementar, pois é justamente a parte onde ninguém fala, apenas nos cursos mais específicos, onde não havia chegado até então. Sendo que, relativamente falando, isso é muito, muito mais simples, pelo menos inicialmente, do que recursão, métodos, classes, objetos, expressões regulares e por aí vai. Chegar aqui e entender tudo que o professor fala da muita alegria. Sentido de recompensa.
ps... Falta agora descobrir como conseguir emprego na área.
Que bom que o curso te ajudou Mauricio! Não pare de estudar e praticar, que o emprego na área vai chegar!
Conseguir emprego na área é fácil, basta ter uma graduação em matemática, phd em estatística, conhecimentos em R, Scala, Python e todas as suas libs cientificas, se possível uma pós em gestão empresarial e marketing e pelo menos 5 anos de experiencia nessas áreas é super de boas!!!!
Charles, eu concordo com sua crítica de que as empresas estão exigindo demais, e posso te dizer que nem elas sabem o que estão pedindo. Minha dica: mande seu currículo e tente a vaga mesmo que você não preencha todos os requisitos descritos. Como eu falei, nem eles sabem o quanto é impossível o que estão pedindo.
@@charlesmontilla , hahahaha, muito bom seu comentário.
muito obrigada pelo curso mesmo pelo primeira vez eu aprendi python agora ninguém me segura mais.... muito obrigada mesmo . excelente aula professor nota 10.
Ana Paula, muito feliz por poder te ajudar nessa conquista!!
Estou fazendo o curso superior em ciência de dados e já salvei todas as aulas de phyton sua,parabéns esta ajudando muito.
Que legal! Sucesso no curso!
Amei as aulas!!! Assisti uma aula do professor no Open Class e gostei tanto da aula que vim aqui fazer o curso integral no canal. Parabéns aula de muita qualidade e professor didático. Ansiosa por outras aulas!!
Obrigado, Sandra!
Bom demais!!! Gratidão à bilhão!!!! Aprendi a cada palavra desse mestre!!!! Parabéns aos envolvidos!!!
Obrigado, Luiz! Fico feliz que tenha te ajudado.
Estou gostando muito da sua aula professor ,olha que eu sou formado em sistema da informação e não tinha interesse em ir para área da programação .Porém a forma que o senhor esta administrando a aula e mostrando o tratamento de dados isto tem muita relação com o meu trabalho e vai me ajudar muito em tomada de decisões .
Elcio, que bom que você se encontrou dentro da área. Tomara que dê tudo certo por aí! Abraços!
Marcos Vinícius A F Guimarães professor estou analisando um arquivo do meu trabalho e precisava colocar no gráfico as colunas e não consegui identificar o código para isto!
@@fuscaelite Não entendi bem o seu problema.
Nota 10000
Estou adorando, mesmo chegando tarde muito bom
Que bom que gostou! Abraços!
Boas professor Marcos Vinícius, falou em efectuar o reset do index, não resolve logo o seu problema. Se fizer o reset no DataFrame com o método reset_index() o seu index actual passará a ser uma nova coluna ou variável do DataFrame, e panda irá adicionar um novo index começando por zero. O ideal será a utilização do atributo index do DataFrame, ele recebe uma lista pura python. Aí joga uma lista usando um gerador de intervalos como o range. df.index = list( range(df.shape[0]) ) aí sim fica tudo como se espera.
Grato. Muito boa aula e didática.
Edilson, valeu pela dica!
Link dos códigos utilizados no Curso de Análise de Dados em Python github.com/OSBrasilia/Curso_Analise_Dados_Publicos_Online
Vou comecar a aprender data science e esse curso esta me ajudando demais...
Rodrigo, valeu pelo feedback! Sucesso na sua empreitada!
@@marcosvafg Muito obrigado, é nois!
Curti demais. Você é muito top ensinando.
Obrigado!
Muito Bom . Esta de Parabéns .
Valeu, Renan! Assista depois as outras aulas
Boa tarde, As aulas, parabéns pela iniciativa, está sendo de grande proveito para todos.
Valeu, Ocean!
13/10/2022 começando do zero a programar !
Aposto que já está fera! Parabéns pela iniciativa!
como esta hoje??? ja se passaram 1 ano.
Procurei muito por aulas desse tipo. PARABÈNS
Obrigado pelo feedback, Alex!
Incrível, parabéns a todos os envolvidos.
Valeu, Vitor!
Parabéns! Aula excelente, muito difícil encontrar aulas tão boas assim aqui no youtube.
João Vitor, obrigado pelo feedback!
Bastante interessante, análise de dados + python é sensacional, Parabens.
Valeu!
Muito útil apesar de já se ter passado algum tempo, porém ajudava-me muito se tivesse a disposição o arquivo da aula na descrição do vídeo
Que aula massa! Grato!
Rodolfo, obrigado pelo feedback! Bons estudos!
Após o intervalo, percebi que da para trabalhar com simultâneos data framer. Interessante! Tem que tomar cuidado para nao se confundir na hora da análise. 2:03:23
Isso, Carla! Dá pra abrir quantos dataframes você quiser, depende da memória da sua máquina. E tem que tomar cuidado pra não se perder.
Pessoal, nesta quinta-feira (25/4) teremos a terceira aula com o professor Marcos. Participem! bit.ly/pythonaula3
MEU DEUS DO CÉU, que conteúdo incrível cara, em um vídeo de 3 horas aprendi coisas que nem em 3 dias eu aprendi, fora que é muito mais didático.
Gostaria de saber se existe alguma chance de voltarem a fazer essas aulas ou que, não sei tipo, eu conseguir aprender tendo a ajuda de você...
Ramon, fico feliz que o curso tenha te ajudado. Por enquanto não estamos pensando em mais aulas, mas nunca se sabe... :)
Excelente, professor... vamos seguindo aprendendo em Python
Valeu, Claudiomar!
Gostei muito a iniciativa Professor! Parabéns!!
Valeu, Jozias!
parabéns pelo projeto
Obrigado pelo feedback!
Aprendi muito
Kitty, obrigado pelo feedback! Fico feliz de ter ajudado!
Excelente vídeo! É raro encontrar no TH-cam uma aula com uma qualidade dessa em português. Meu muito obrigada!!
Eu quero dividir um conjunto de dados em dados de treinamento, validação e teste pelo método holdout, para aprendizado de máquina. Eu sou iniciante em Python e em programação, e gostaria de saber se é possível usar o pandas para esse propósito.
Luana, para usar só o pandas pra isso você vai ter que criar uma função em Python que faça essa divisão.
Para Machine Learning usando o dataframe do pandas a opção mais usada é a biblioteca sckit-learn. Dá uma olhada nela. O site oficial tem uma documentação muito boa.
Professor Marcos! Muito boa a sua aula e material! Estava procurando por algo explicado em português! Muito obrigado pelo vídeo!
Valeu.
Valeu Klemer! Muito obrigado e bons estudos!
ajudou de mais muito boa a aula
Eduardo, valeu pelo retorno!
Excelente aula. Fico muito agradecido. Baixei os dados pelo GitHub e estou assistindo e fazendo todos os comandos passo-a-passo. Só uma curiosidade: os meus gráficos não estão coloridos. Tem algum recurso que não instalei?
Marcelo, aqui também as vezes os gráficos ficam coloridos, as vezes ficam com uma cor só. Deve ter uma configuração pra forçar isso mas nunca corri atrás pra saber. Valeu pelo feedback!
Abordagem excelente e direta no Notebook. Só encontrei problemas para pegar as tabelas do Pronatec (colunas diferentes) e Cirurgias (não encontrei)
Onde fica esse curso pela amor de DEUS ? que professor mara
Valeu pelo feedback!
Opa, mais uma dica. Quando precisou obter os dados dos maior valores agrupados e usou o loc. O ideal é usar o iloc quando se pretende lidar com índices. Ai a solução poderia ser assim também.
valores_agrupos_seriegroupby = dados_df.groupby('nome')['valor']
dados_df.iloc[ valores_agrupos_max.idxmax().values ]
A objecto Series possui dois atributos interessantes o index para obter os índices e o values quando pretendemos chegar até aos valores.
Excelente dica, Edilson! Valeu!!
Excelente o conteúdo e ótima didática! "Não encontrei o banco de dados das CIRURGIAS" ; muito obrigado!
Eu vi mesmo que infelizmente o GDF tirou o arquivo do ar, mas além do endereço citado, todos os códigos e arquivos também estão no Github do Observatório Social de Brasília - github.com/OSBrasilia/Curso_Analise_Dados_Publicos_Online
@@marcosvafg Valeu! Não estava encontrando esse CSV também.
Excelente material. Prático e objetivo.
Obrigado por compartilhar o conhecimento!
Vlw ! Obrigado ...
Good Job !
Parabéns, pelo Tutorial,
Como só fui conhecer este tutorial em 2020, gostaria de saber, é possível tirar algumas duvidas:
Grato
Wilton
Excelente !!!
Valeu, Derick!
Espetacular. Parabéns ao professor pela excelência da didática. Faltou só o nome na apresentação.
Aguardo a sequência do treinamento avidamente.
Dimas, o curso se chama Curso de Análise de Dados em Python para Iniciantes. A segunda aula está no canal do Labhacker , mas também pode ser acessada pela página educativa do Portal da Transparência do Senado Federal.
Obrigado. Todavia, estou dizendo que não houve a apresentação do professor. Ao longo do curso, descobri.
Pois é... não falei meu nome né!? Hehehe. Mas agora vai: Marcos Vinicius Amorim Ferreira Guimarães, sou formado em Ciência da Computação com Mestrado em Gestão do Conhecimento. Trabalho com desenvolvimento de sistemas, análise de dados etcs, e sou professor de programação Python e Machine Learning.
52:03 -
Entendendo um pouco mais sobre CODIFICAÇÃO DE CARACTERES;
52:03 - Um editor que considero ajudar bastante seria esse: notepad-plus-plus.org/resources.html;
Jerônimo, com certeza o Notepad++ é um excelente editor e ajuda bastante. Eu gosto bastante do Atom também, mas aí já acaba virando preferência pessoal. Obrigado pela dica!
Simplismente excelente aula
Leonardo, obrigado pelo feedback!
obrigado pela aula!
Valeu!
Obrigado pela oportunidade de aprender mais ;)
Valeu, Gil!
excelente curso!!!
Alexandre, obrigado pelo feedback!
assistindo em 2024. aprendendo muito.
Gostaria de saber quando será novo curso de análises de dados para o ano de 2020!
Dgeison, não temos ainda previsão de gravar mais aulas!
@@marcosvafg a :(
Muito BOA ESTA AULA , 31/07/2024 Alexandre IFSP-Itaquaquecetuba
Vcs farão o mesmo curso em R ?? Seria muito bom mesmo!
Gostaria de agradecer o professor do curso. Alguém o conhece??
É só deixar a mensagem aqui que o professor Marcos responde e lê tudo, Walter ;-)
Walter, valeu pelo retorno! Bons estudos!
Excelente aula de data science. Parabéns Marcos, pela didática, os dados e exemplos reais selecionados para essa aula, realmente. todos muito interessantes, a tal ponto para que eu queira aprender pandas, fantástico. Conhecia Python e os módulos numpy, matplotilib, entre outros, mas não sabia das ferramentas que agilizam a manipulação com volume de dados. Bacana Demais!!!
Estou interessado que procuro por um livro de referência em análise de dados com python e pandas. Poderia me sugerir uma?
E aproveitando, é possível escrutinar arquivos no formato PDF ao invés de CSV com o pandas?
Desde já agradeço qualquer esclarecimento.
Humberto, obrigado pelo feedback.
Sobre o livro, a principal referência é o "Python para análise de dados" do Wes McKinney, que é o criador do pandas.
E sobre arquivos PDF, é possível sim, mas é um tanto mais complicado. Procure pelas bibliotecas Tabula e Rows. Essa última é de um brasileiro, o Turicas.
@@marcosvafg
Opa!!!
Maravilha pelo retorno Marcos!
Bem quanto ao livro me antecipei antes de teu reorno, e acabei comprando o livro do Chen (Análise de Dados com Python e Pandas). Estou curtindo muito!
Vou ver se acho o material do Turicas, realmente gostaria de manipular dados contidos em PDF. Eu ainda não consegui assistir todas as aulas, que pela pegada das duas primeiras aulas, são incríveis!
Sensacional mesmo Marcos. Palavra do momento: Agradecimento!
Que você sempre tenha para compartilhar conhecimento e disseminando incentivos para quem gosta de programação, é a formula da motivação!
Parabéns!
Parabéns pela ótima vídeo aula!
Valeu, Igor!
Parabéns aos envolvidos pela iniciativa de produzir e compartilhar um conteúdo tão rico como este! Estou terminando a aula 01, mas assistirei todas! Uma dúvida, ao repetir a plotagem dos gráficos por aqui notei que ao invés das barras ficarem multicoloridas, como as do exemplo, ficaram todas azuis. Há algum comando específico ou configuração para corrigir isso?
Josimar, que bom que está te ajudando. Isso do gráfico vir todo em azul as vezes acontece comigo também e ainda não busquei a resposta pra isso. Mas vou procurar e informo aqui.
Blz, Marcos! Obrigado!
@@marcosvafg , que preguiçoso.
Opa...
Pode repetir aqui a biblioteca para raspar dados não estruturados, que foi citada em 2:38:07??
Rodrigo, a biblioteca se chama BeautifulSoup.
Boa tarde !! Estou tentando rodar o csv no Pycharm, ele da tudo certo porém não aparece a planilha ao executar, você sabe se tenho que fazer alguma configuração no Pycharm?
em 51:50, na parte da leitura do arquivo csv, usei encoding = "latin1" e deu certo. Há alguma diferença entre latin1 e cp1252?
Tem uma pequena diferença sim Jessica. O encoding tem a ver com os caracteres especiais que a linguagem vai conseguir interpretar ao ler aquele arquivo. Mas a diferença nesse caso é pouca e "latin1' vai funcionar também
Comentários no geral significam que seu código é ruim, um código bom tem de ser entendido sem comentários e por qualquer um, fora que muitos comentários deixam a estrutura poluída.
Gabriel, obrigado pelo feedback. Eu concordo com você, mas nesse caso a ideia de encher de comentários é a pessoa poder voltar depois e entender o porque daquele código. O curso é voltado para leigos, pessoas que não dominam a programação, então eu acho que nesse caso os comentários ajudam muito.
Qual seria o formato melhor para disponibilizar dados abertos?
Marcelo, a princípio, arquivo CSV é uma boa, mas dá uma olhada nas 5 estrelas dos Dados Abertos, que é uma proposta do Tim Burnes-Lee
Esses encontros voltaram a acontecer? Como posso ingressar?
Os encontros não voltaram não. Dê uma olhada aqui no canal que gravamos outra aula durante a pandemia.
O conjuntos de dados "CIRURGIAS ELETIVA E DE EMERGENCIA JANEIRO 2017" não está mais disponível. Infelizmente. Alguém tem esse arquivo csv para disponibilizar? Muito obrigado!
Alguém teve a boa vontade de disponibilizar o material no GitHub:
github.com/rodolfoghi/curso-labhacker-analise-dados-com-python/tree/master
Eu vi mesmo que infelizmente o GDF tirou o arquivo do ar, mas além do endereço citado, todos os códigos e arquivos também estão no Github do Observatório Social de Brasília - github.com/OSBrasilia/Curso_Analise_Dados_Publicos_Online
Caros colegas. A base de dados "Cirurgia" nao esta mais disponivel para acesso publico, ate essa data. Alguem poderia disponibilizar a base de dados no Github ?
Olá, Douglas. Acompanhei a aula utilizando a base de dados Atendimento.
O insight é o mesmo.
Espero ter ajudado.
Infelizmente eu vi que o GDF tirou essa base do ar, mas todo o material do curso, incluindo os arquivos, estão no Github do Observatório Social de Brasília - github.com/OSBrasilia/Curso_Analise_Dados_Publicos_Online
Muito boa a aula. Fui aplicando com outra base. Só que meu gráfico de barras não ficou colorido. Alguém sabe por que?
Ido, já aconteceu comigo também. Coisas do python. Dizem que informática não é uma ciência 100% exata :)
Opa, comigo ocorreu, bastar criar uma variavel cores, e colocar dentro de um array as cores em ingles, por exemplo:
cores = ['green', 'red','black','blue']
df['uf_busca'].value_counts().plot.bar(color=cores)
Espero ter ajudado.
Muito bacana o curso, mas tive um probleminha. Importei um arquivo do excel para treinar os mesmos comandos e tecnicas, so que na parte onde vc fez um recorte do dataframe para so incluir os registros contendo o hospitaldebase, fiz o mesmo com um outro campo do meu dataframe e ele criou um novo dataframe apenas com o cabeçalho (colunas) do original, mas ficou com todos os registros vazios mesmo eu tendo colocado o criterio certinho e sem acusar qualquer erro, nao consigo descobrir porque ele nao trouxe os valores dos campos. Alguma dica ?
Alexandre, se não deu erro e não retornou dados, a primeira suspeita é no critério mesmo. Refaz do zero, presta atenção nos detalhes, que acaba dando certo!
pode usar ecoding ou engine='python' para evitar os avisos
Vinicius, valeu pela dica!
Tem como saber todos os parametros disponiveis de uma determinada biblioteca?
Luiz, você consegue ver toda a documentação de um método se você colocar o "?" antes do nome dele (?str.replace()) ou se você apertar "Shift + TAB" depois do nome dele. Tenta aí!
Show
Valeu, Cleuber!
Boa noite professor, tudo bem? O meu Jupyter Notebook não está dando os resultados. Depois que eu clico em "Run" ele abre outra caixa "In" em branco, em vez de dar a resposta. Vc sabe por que isso está acontecendo? Chegou até a aparecer uma msg de erro.
Natália, tenta pegar essa mensagem de erro e jogar na busca do Google. É mais fácil assim, você acaba achando alguém com o mesmo problema.
Verificando agora os vídeos, fazer alguns cursos de base, fica mais fácil a compreensão
Kleber, bons estudos!
Assistindo em 13/02/2024
Que legal! Seja bem vindo!
Eu tive algum problema com o anaconda, pois eu baixei um arquivo de instalação direto no portal, mas ao instalar, por alguma razão, o anaconda navigator não foi instalado. Contudo, eu instalei o python3.8. É possível baixar e acessar o jupyter por outro meio?
Alex, você já resolveu usando a versão 32 bits do Anaconda, ao invés da versão 64 bits, certo?
@@marcosvafg sim, resolvi desta forma, instalando a versão 32 bits.
para quem ta assistindo em 2020 o separador ja esta em ","(virgula), e caso renomeie o arquivo que inseriu no jupyiternotebook, faça uma atualização no símbolo de reciclagem, próximo de "upload", o meu tava dando erro... por não encontrar o arquivo csv
Matheus, valeu pela dica!
Eu li o csv com a URL/link do arquivo no seu Github...
Dessa forma n precisei baixar o arquivo só copiei o link! É nois!
É isso aí, Roque!! 👏👏👏
Como eu faço para conseguir o certificado de curso?
Olá, Simone! Infelizmente, neste modelo não temos como emitir um certificado, pois não há um teste online a ser feito para avaliação e não temos como confirmar se as pessoas participaram. Ë diferente dos presenciais ou com lista de inscrição, em que isso se torna possível.
1:00:00
gostaria de saber como faço para add uma coluna nesta planilha importada?
Pelo pandas usando dicionário talvez funcione ! df = { ‘Nova_Coluna’ : [ x1 , x2 , x3 , x4,...] } mas nao tenho ctz..
Eduardo, a primeira parte é fácil, basta chamar seu dataframe com um nome de coluna que não existe e ele vai entender que vc quer criar uma coluna com aquele nome. df['nome_novo']. Mas vc precisa preencher essa coluna com dados né? De onde eles viriam?
@@marcosvafg teria que definir uma lista antes, que corresponda as linhas dessa nova coluna, com o mesmo numero de linha do dataframe?
@@cordoba712 em tese é isso mesmo. Suspeito até que não precisaria ser do mesmo tamanho, e o pandas vai colocar null no resto. Dá também para preencher com um valor único ou com um valor igual ao de outra coluna, por exemplo. Também dá pra fazer uma operação com as colunas que já existem para criar essa nova, como por exemplo pra calcular um índice per capita.
Quando será realizada a segunda aula?
Oi, Wilson. Será nesta quinta - feira, dia 30 de agosto!
Wilson a segunda aula foi hoje e já está disponível no canal do LabHacker
Estou vendo em 2023 ... como eu consigo este arquivo csv?
muito boa aula!, porem o ultimo saiu só com as uma unica cor. como eu mudo a cor do gráfico?
Hilton, os gráficos no matplotlib as vezes ficam multicoloridos e as vezes ficam com uma cor só. Eu sempre vi isso mas acabei nunca indo pesquisar o motivo. Vou fazer isso e tentar descobrir como direcionar a questão das cores.
59:20
Quando tentei chamar dtypes apareceu o erro 'Series' object is not callable
Mas o arquivo que estou analisando é diferente do arquivo usado na aula, pois estou fazendo a aula anos depois. Podem me ajudar?
Erro completo:
TypeError Traceback (most recent call last)
in
----> 1 df.dtypes()
TypeError: 'Series' object is not callable
O dtypes não é uma função, é uma característica. Por isso não funciona como os parênteses (). Ou seja, dtypes() está errado, o certo é dtypes apenas. (Desulpa a demora em responder!)
Otimo video, alguem sabe me dizer como altero o tamanho do gráfico ? depois do plot.bar
Uso o comando rcParams['figure.figsize'] = que ajusto tamanho do eixo x e y quando uso somente o matplotlib, aqui nao funcionou ou coloquei na linha errada, se alguem souber como alterar o tamanho agradeço mt
Edit: Eu uso o comando rcparams para grafico em linha, não sei se é o mesmo para em barras talvez seja isso por não esta dando certo
Marcio, o caminho é esse mesmo mas eu sempre mudei o tamanho do figsize antes de gerar o gráfico e não como um parâmetro geral. Mas o caminho é esse, o seu gráfico está pequeno pq a área que o Jupyter destinou a ele está pequena
refazendo curso
Opa!! Que bom! Espero que a segunda vez seja ainda melhor!
Oi meu nome é vinicius e sou cadeirante (tetraplégico só mexo do pescoço para cima) e gostaria de fazer o curso mas tenho umas duvidas você pode me ajuda? A lembrando que eu mexo no computador normal.
Olá Vinicius! Você gostaria de mandar suas dúvidas por aqui mesmo para que outros cadeirantes interessados possam aproveitar as respostas do professor Marcos Vinícius?
Como eu faço para fazer o curso ? e posso fazer online.
@@vinioliveira8863 Você precisa antes instalar o Anaconda, cujo vídeo de instrução está disponível aqui no canal também. Depois é seguir a ordem dos dois vídeos do professor Marcos Vinicius. Durante as duas aulas online, o pessoal foi perguntando e muitas dessas dúvidas foram esclarecidas. Mas se mesmo assim você ficar com alguma dúvida específica sobre o conteúdo é só incluir aqui que a gente tenta ajudar... ;-)
Sim eu quero saber como faço para fazer o curso?
@@vinioliveira8863 Instale o Anaconda conforme instruções em vídeo neste mesmo canal. Assista a aula 1 e faça as atividades paralelamente no seu computador. Depois, no seu tempo, assista a aula 2 e continue desenvolvendo as atividades propostas pelo professor. Se houver alguma dúvida específica, a gente esclarece por aqui.
No meu retorna: "name 'pandas' is not defined". Por que será? Alguém poderia me ajudar?
Vc instalou o pandas? Tem que instalar e depois escrever " import pandas" no começo do programa
@@LopesVEVO pandas instalado
novembro de 2020, nem os dados de cirurgia estão mais diponíveis, ao menos, não achei, mas usei outros dados para aprender. Os dados do vídeo estão no github de qualquer modo. apenas escolhi pegar dados novos.
Richell, que bom que deu certo, de qualquer forma. Mas os dados as vezes ficam velhos mesmo, o código e as dicas não!
Aqui não funcionou, no final da instalação apareceu uma msg sobre Pycharm, porém tenho ele instalado aqui!
Lucas, não precisa do Pycharm não. Ele é outra ferramenta né? Refaça a instalação e veja se funciona. A tempos atrás eu vi que a versão 64bits do Anaconda estava com problema no Windows, mas a versão 32bits estava funcionando bem.
alguém aí pode ajudar com a instalação do anaconda? Não consigo concluir a instalação, aparece a mensagem: "failed to create menus"
Rodrigo, se ainda não tiver conseguido, tente baixar outra versão do Anaconda. Pelo que eu vi a versão 64bits está com problema, tente a versão 32bits.
Alguém tendo problema com o csv no MacBook?
Stephanie, parece que o MacOS, ou o navegador no Mac, tem problema em baixar os arquivos. Na realidade parece que ele fica salvo em outro formato. Tente clicar com o botão direito e pedir pra fazer o download, aí você pode escolher o lugar pra baixar e o tipo do arquivo. Isso deve funcionar.
@@marcosvafg obrigada. Vou tentar
alguem assistindo em 2020 ?
Bora aprender né Jonathan!
alguem em 2020 encontrou os dados das cirurgias do df ?
No Github do Observatório Social de Brasília tem todo o material do curso - github.com/OSBrasilia/Curso_Analise_Dados_Publicos_Online