Muito bom. Parabéns. No início do vídeo (tempo 2:49) ao ler as tabelas deu erro, pedindo para instalar lxml (biblioteca para manipular dados XML e HTML). Instalei e funcionou. (Estou usano diretório virtual - .venv)
Augusto, é possível referenciar uma coluna sem ser pelo nome dela ? Por exemplo, quero referenciar a coluna de Diretor(a), posso usar um número de índice ? Estou em dúvida porque penso que o administrador da página pode mudar o nome da coluna.
@@rodrigomatias4005 ah sim! É porque estou usando um jupyter notebook para programar. Nele, só preciso chamar o nome da variável para ele mostrar o resultado dela. Tente algo do tipo: print(tabelas) no seu código e veja se consegue ter acesso às informações armazenadas nessa variável "tabelas".
Ai você terá que usar a biblioteca selenium para criar um bot simples que faz o login de maneira automática para você. Porém, podem haver algumas complicações no caminho: - Caso o site precise de reCaptcha, vai impedir tua automação. Antes existiam maneiras de contornar, mas está ficando cada vez + difícil. - Caso o site precise de um código via e-mail, dá para automatizar, mas ai deixa o código um pouco + complicado. - Caso tenha autenticação de 2 fatores, sugiro seguir por e-mail que, como disse, dá para automatizar essa coleta do código enviado. Esses links podem te ajudar, enquanto não temos vídeos pronto para isso: tohidhaghighi.medium.com/use-selenium-for-test-login-page-with-python-85639fe24dae www.geeksforgeeks.org/gmail-login-using-python-selenium/ stackoverflow.com/questions/67528971/how-to-login-to-a-website-using-selenium-in-python
@@EDINARDOLINHARES Obrigado. Resolveu. Estou começando a estudar, vendo vários vídeos. Este vídeo foi bastante esclarecedor. Até outra pesquisa. Muito Obrigado.
Tem sim, mas provavelmente você terá que montar um código para ler direto de um arquivo PDF, ao invés da web. E confesso que mexer em PDFs com python é um pouco chato. Porém, vamos trazer um vídeo tutorial de PDFs por aqui e espero que lhe ajude.
NameError Traceback (most recent call last) Cell In[4], line 1 ----> 1 tabelas = pd.read_html("pt.wikipedia.org/wiki/Lista_de_filmes_de_maior_bilheteria") 2 tabelas NameError: name 'pd' is not defined Sabe porque esta dando esse erro ?
Opa, você deve importar a biblioteca pandas e abreviá-la como "pd" logo no início do código, assim como eu fiz. O primeiro passo do teu código deve ser esta importação: import pandas as pd
Vc explica muito bem irmão, parabéns de vdd
Parabéns pela didática! Muito bom!
Fico feliz que gostou, meu amigo! Espero ter ajudado nos seus estudos!
didática melhor do que muitos aí, você ensina de verdade. Parabéns mano, mais um inscrito.
Opa, ficamos muito felizes em saber que a didática tá boa! Isso facilita demais o ensino! Obrigado e seja bem-vindo ao canal
Muito bom.
Parabéns.
No início do vídeo (tempo 2:49) ao ler as tabelas deu erro, pedindo para instalar lxml (biblioteca para manipular dados XML e HTML).
Instalei e funcionou. (Estou usano diretório virtual - .venv)
Bem notado! Ótimo saber que está usando ambientes virtuais, esta é uma ótima prática, parabéns!
Augusto, é possível referenciar uma coluna sem ser pelo nome dela ?
Por exemplo, quero referenciar a coluna de Diretor(a), posso usar um número de índice ?
Estou em dúvida porque penso que o administrador da página pode mudar o nome da coluna.
Pode sim!!! você pode usar o método ".iloc" do pandas e pesquisar colunas ou linhas pelo seus respectivos índices!
Ótimo video. Uma dúvida: No meu vscode não aparece as informações do site. Qual extensão você usa?
opa, como assim as informações do site? Pode explicar melhor para que eu possa te ajudar?
@ parte do vídeo 2:50 . Nessa parte vc inseri o link e digita depois tabelas e as informações do site aparece
@@rodrigomatias4005 ah sim! É porque estou usando um jupyter notebook para programar. Nele, só preciso chamar o nome da variável para ele mostrar o resultado dela. Tente algo do tipo: print(tabelas) no seu código e veja se consegue ter acesso às informações armazenadas nessa variável "tabelas".
como faço para pegar os dados de uma tabela que estão dentro de um site que precisa de login?
Ai você terá que usar a biblioteca selenium para criar um bot simples que faz o login de maneira automática para você. Porém, podem haver algumas complicações no caminho:
- Caso o site precise de reCaptcha, vai impedir tua automação. Antes existiam maneiras de contornar, mas está ficando cada vez + difícil.
- Caso o site precise de um código via e-mail, dá para automatizar, mas ai deixa o código um pouco + complicado.
- Caso tenha autenticação de 2 fatores, sugiro seguir por e-mail que, como disse, dá para automatizar essa coleta do código enviado.
Esses links podem te ajudar, enquanto não temos vídeos pronto para isso:
tohidhaghighi.medium.com/use-selenium-for-test-login-page-with-python-85639fe24dae
www.geeksforgeeks.org/gmail-login-using-python-selenium/
stackoverflow.com/questions/67528971/how-to-login-to-a-website-using-selenium-in-python
@@eficienciaprogramada muito obrigado mesmo!
O "astype" não realiza a conversão. Help me!
Opa, meu amigo! Acredito que resolvemos no outro thread de comentário seu! Se ainda tiver dúvida, pode mandar!
Vídeo muito bom e intuitivo. Parabéns! Não encontrei o link com a gravação informado no final da aula.
Opa, que bom que gostou! Verdade, esqueci do link! Acabei de disponibilizar na descrição, meu amigo. Espero que goste!
ValueError: invalid literal for int() with base 10: '1.308.497.944', no último não é feita a conversão do "object" para "int64" . Não entendi.
tabela_filtrada["Bilheteria (US$)"] = tabela_filtrada["Bilheteria (US$)"].str.replace(" ", "").str.replace(".", "").astype('int64)
Isso deverá resolver!!!
a inclusão de mais um replace, substituindo o ponto, pois nesse campo tem um ponto em vez de espaço.
@@EDINARDOLINHARES Obrigado. Resolveu. Estou começando a estudar, vendo vários vídeos. Este vídeo foi bastante esclarecedor. Até outra pesquisa. Muito Obrigado.
Perfeita colocação, meu amigo! Esta linha de código que devemos inserir para resolver o problema.
Fico feliz que conseguiu resolver o problema e que o vídeo lhe ajudou nos estudos!
Tem como resgatar as citações de artigos científicos com Python e colocar em forma de tabela ?
Tem sim, mas provavelmente você terá que montar um código para ler direto de um arquivo PDF, ao invés da web. E confesso que mexer em PDFs com python é um pouco chato. Porém, vamos trazer um vídeo tutorial de PDFs por aqui e espero que lhe ajude.
NameError Traceback (most recent call last)
Cell In[4], line 1
----> 1 tabelas = pd.read_html("pt.wikipedia.org/wiki/Lista_de_filmes_de_maior_bilheteria")
2 tabelas
NameError: name 'pd' is not defined
Sabe porque esta dando esse erro ?
Opa, você deve importar a biblioteca pandas e abreviá-la como "pd" logo no início do código, assim como eu fiz.
O primeiro passo do teu código deve ser esta importação:
import pandas as pd