COMO LER ARQUIVO PDF COM PYTHON

Nerd dos Dados

มุมมอง 20 198

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 17 ธ.ค. 2024

ความคิดเห็น • 64

@TheBialbino หลายเดือนก่อน ⁺¹
Parabéns pelo canal. Sua didática é excelente, especialmente para novatos como eu. Muito obrigado
@luisaldodecarvalho8081 10 หลายเดือนก่อน ⁺³
Show de bola, simples e objetivo!
@josepereiradossantosneto5156 หลายเดือนก่อน ⁺¹
Topzera o vídeo ein. Muito bom.
@rodrigoniederauer ปีที่แล้ว ⁺²
Excelente! Ganhou um inscrito. Direto ao ponto, sem novelinha de YT, mas mantendo uma boa didática.
@gilissantos6532 2 ปีที่แล้ว ⁺³
Ótimo conteúdo como sempre, vamos ajudar compartilhando para aumentar essa rede de ensino.
@irkbailoni 10 หลายเดือนก่อน
Muito obrigado por tudo irmão, vive salvando
@nerddosdados 10 หลายเดือนก่อน
Já voltei rs essa semana já teve vídeo novo
@AmadeusRockBand ปีที่แล้ว ⁺²
Excelente Conteúdo! Parabéns
@venancioblack 10 หลายเดือนก่อน
Ótimas explicações. obrigado
@carlucioassuncao1746 หลายเดือนก่อน ⁺²
Preciso fazer uma análise de dados em arquivos de pdf que são imagens. Os dados que devo fazer são de valores monetários de uma tabela de imagem, extrato bancário e recibos. Devo comparar para verificar possíveis inconsistências entre transações. Há uma forma de extrair esses dados para comparação "lado a lado" e fazer essa apuração?
@pedrovic12 2 ปีที่แล้ว ⁺³
Excelente vídeo!!!! Muito bom seu conteúdo! 🌠
@mauriciobarreto1553 ปีที่แล้ว
Excelente aula. Parabéns.
@NorBeSil 11 หลายเดือนก่อน
Excelente conteúdo...! 😃👍
@vaniaformagio385 2 ปีที่แล้ว ⁺¹
Excelente conteúdo. Gostara de saber se vc tem video explicando como ler arquivo PPT com Python.
@nerddosdados 2 ปีที่แล้ว ⁺¹
Olá Vania, no canal não tenho ainda mas pretendo fazer em breve, porém não sei se te ajudaria mas existe uma biblioteca que é para leitura de arquivos PPT. o nome dela é aspose.slides
@limkf2009 ปีที่แล้ว ⁺¹
Ganhou um inscrito, conteudo top
@raphaelignacio6956 9 หลายเดือนก่อน
Muito bom o vídeo parabéns, já tô inscrito, me tira uma dúvida ao importar o PDF, como eu apresentaria os dados específicos que eu preciso em uma tabela, ex a data, o título, o assunto.
@nerddosdados 9 หลายเดือนก่อน ⁺¹
Você pode inserir os dados em um dataframe e depois salvar em Excel por exemplo
@pedrindosprograma1289 หลายเดือนก่อน ⁺¹
Bom professor, e no caso se eu tiver um grafico de curva, como posso fazer para o py reconhecer?
@nerddosdados หลายเดือนก่อน
Não entendi sua pergunta….
@PabloVianna-q7f ปีที่แล้ว
Top o conteúdo, já me ajudou muito!
Uma dúvida, como eu pego os dados de uma coluna e como eu pego um dados específico tipo da linha 2 coluna 3. Seria possível?
@marcao8820 ปีที่แล้ว
Gostei muito do seu vídeo. Eu gostaria de saber se é possível extrair dados de uma parte específica do PDF. Tipo de algum título de seção, por exemplo
@nerddosdados ปีที่แล้ว
E possível você extrair o pdf completo depois filtrar somente os dados que você precisa
@julialeal6090 10 หลายเดือนก่อน
@@nerddosdados como fazer isso?
@unpoditalia5437 ปีที่แล้ว
Olá.
Como transfomo material impresso, com campos a serem preenchidos, em editável, onde eu consiga tanto digitar na tela do PC, como imprimir e preencher à mão?
Pode ser em PDF, quanto docx.
@nerddosdados ปีที่แล้ว
Dessa forma que você questionou não consegui entender muito bem o que você precisa, se puder detalhar mais tento te ajudar
@jonathanrodriguessales6391 2 ปีที่แล้ว ⁺¹
Excelente vídeo, como sempre! Fiquei apenas com uma dúvida, quando usei o tabula para abrir uma tabela em um pdf, ele pegou somente as linhas, portanto a primeira linha se tornou o nome das colunas. Tem alguma forma, mesmo que com pandas, de transformar o nome de colunas na primeira linha? Pois se eu conseguir descer esses dados para primeira linha, posso só acrescentar um título para as linhas normalmente.
@nerddosdados 2 ปีที่แล้ว ⁺²
Olá Jonathan, tente utilizar a opção para não incluir um header e depois você inclui o nome das colunas de forma separada.
Exemplo:
tabelas = tabula.read_pdf(nome_arquivo, pages='all', pandas_options={'header': None})
@conexaorobson ปีที่แล้ว
Excelente vídeo porém eu consegui alterar um texto com o comando em python replace só que o arquivo não fica salvo a alteração como faço para salvar o arquivo PDF?
@nerddosdados ปีที่แล้ว
Pra salvar o arquivo pode utilizar o save_pdf
@pauloxavier8473 5 หลายเดือนก่อน
Bom dia, o comando "tabula.read_pdf" não funciona mais no meu computador. recebe o mensagem de que: AttributeError: module 'tabula' has no attribute 'read_pdf''. Consegue me ajudar?
@nerddosdados 5 หลายเดือนก่อน
Tenta reinstalar o pacote pode ser algum bug desse pacote
@pauloxavier8473 5 หลายเดือนก่อน ⁺¹
@@nerddosdados ótima lembrança. Eu tinha tentando dar outro pip install por cima e não deu certo. Agora dei o uninstall e RESOLVEU! Obrigado.
@rodrigofernandes1212 3 หลายเดือนก่อน
tentei executar e ocorre o seguinte erro AttributeError: module 'tabula' has no attribute 'read_pdf', já removi o pacote e reinstalei novamente, mas o erro continua.
@nerddosdados 3 หลายเดือนก่อน
Que estranho pode ser algum problema da versão do anaconda…muita gente já utilizou sem dar erro…o meu também não deu erro naon
@nelson8483 7 หลายเดือนก่อน
fiquei com uma Dúvida.
qual o caminho pra ele buscar o arquivo e ler não vi isso
estou tentando fazer um programa que vai, buscar uma falha um uma apostila em pdf e retornar com a descrição do defeito e a sua solução essa apostila de 3000 pg me ajuda ai
@nerddosdados 7 หลายเดือนก่อน
Ele busca por padrão no diretório que está seu Jupyter notebook mas você pode indicar o caminho também
@nelson8483 7 หลายเดือนก่อน
@@nerddosdados consegui me mostrar como faço isso, não sei muita coisa estou aprendendo ainda, tenho em meu computador um arquivo em PDF e estou tentando fazer ele buscar, mais o ideia seria melhor colocar esse arquivo dentro do Python e fazer o programa buscar. Me ajude por favor se puder.
@tiobjetivacontabilidade ปีที่แล้ว
Não roda, aparece erro a seguir: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.
@nerddosdados ปีที่แล้ว ⁺¹
Nesse caso pode ser que quando configurou o JVM vc não tenha marcado a opção de atualizar as variáveis de ambiente
@tiobjetivacontabilidade ปีที่แล้ว
Obrigado@@nerddosdados
@brunolimatabet3570 ปีที่แล้ว
E como fazer isso?@@nerddosdados
@fabiodosanjos2310 ปีที่แล้ว
Amigo, dai-me uma luz. Pode me dar um caminho para ler uma imagem dinâmica, por exemplo: O Vídeo de um relógio. Queria pegar os dados desse relógio e tratar depois. Identificar os caracteres. Obrigado.
@nerddosdados ปีที่แล้ว
Olá Fábio.
Nesse caso você poderia tentar usar a biblioteca OpenCV essa biblioteca do Python tem muitos recursos para trabalhar com imagens dinâmicas
@maoliveira80 ปีที่แล้ว
Ganhou mais um inscrito para a lista... Excelente vídeo. É possível replicar esse método no google colab? Pergunto, pois, a empresa que trabalho tem um TI jurássico que parou no MS Dos, tudo que vamos pedir não pode instalar, ou ainda, se houver abertura tem que pedir autorização para uns 25 níveis distintos e a aprovação sair em um eclíse lunar ou alinhamento dos planetas.
Pergunto, pois, se for possível, posso implementar umas soluções que facilitarão o meu trabalho de baixar e transferir informações de PDFs para uma planilha e subir diretamente para o sistema
@nerddosdados ปีที่แล้ว
E possível fazer pelo Google colab sim
@gilcimarmatias ปีที่แล้ว
Tenho um PDF com questões de física, é possível usar esse pacote, para buscar o número de cada questão para separar elas no PDF e montar um banco de dados para formulação de provas?
@nerddosdados ปีที่แล้ว
E possível sim
@Miguel3091 5 หลายเดือนก่อน
E is códigos fontes como você passa?
@nerddosdados 4 หลายเดือนก่อน
Link está na descrição do vídeo
@Miguel3091 5 หลายเดือนก่อน
Outra coisa como juntar dois ou maus arquivos de restos em PDF?
@nerddosdados 4 หลายเดือนก่อน
Pode utilizar o merge tem um vídeo no canal explicando sobre merge
@LuizCarlosUriarte ปีที่แล้ว
Minha duvida é quando o arquivo PDF tem texto e tabelas. Há um método que consegue extrair os dois?
@nerddosdados ปีที่แล้ว ⁺¹
Nesse caso você precisa fazer o tratamento diferente utilizando de forma separada
@LuizCarlosUriarte ปีที่แล้ว
@@nerddosdados Obrigado, irei fazer alguns testes levando isso em conta. Há alguma maneira de otimizar este processo?
@alexzidani ปีที่แล้ว
Excelente vídeo, mas no PyCharm o display não funciona!
@nerddosdados ปีที่แล้ว ⁺¹
Nesse caso pode ser alguma configuração do pycharm mesmo
@feliperodrigues1549 ปีที่แล้ว
Parabéns pelo video meu amigo, sabe me dizer se funciona com notas fiscais ? tentei mas não funcionou :(
@nerddosdados ปีที่แล้ว
Olá Felipe, obrigado.
Com notas fiscais nunca tentei, porém se o PDF tiver a mesma estrutura de documento com tabelas e textos deve funcionar sim.
@romainesantos1825 10 หลายเดือนก่อน
o problema é ler arquivo grande, trava
@nerddosdados 10 หลายเดือนก่อน
Pode ler por páginas e assim separar o arquivo em partes
@romainesantos1825 10 หลายเดือนก่อน
@@nerddosdados eu tentei dessa forma de 100 em 100 mais deu problema de strings. são 3000 paginas
@m0132273719 5 หลายเดือนก่อน
Parabéns

ต่อไป

เล่นอัตโนมัติ