Preciso fazer uma análise de dados em arquivos de pdf que são imagens. Os dados que devo fazer são de valores monetários de uma tabela de imagem, extrato bancário e recibos. Devo comparar para verificar possíveis inconsistências entre transações. Há uma forma de extrair esses dados para comparação "lado a lado" e fazer essa apuração?
Olá Vania, no canal não tenho ainda mas pretendo fazer em breve, porém não sei se te ajudaria mas existe uma biblioteca que é para leitura de arquivos PPT. o nome dela é aspose.slides
Muito bom o vídeo parabéns, já tô inscrito, me tira uma dúvida ao importar o PDF, como eu apresentaria os dados específicos que eu preciso em uma tabela, ex a data, o título, o assunto.
Top o conteúdo, já me ajudou muito! Uma dúvida, como eu pego os dados de uma coluna e como eu pego um dados específico tipo da linha 2 coluna 3. Seria possível?
Olá. Como transfomo material impresso, com campos a serem preenchidos, em editável, onde eu consiga tanto digitar na tela do PC, como imprimir e preencher à mão? Pode ser em PDF, quanto docx.
Excelente vídeo, como sempre! Fiquei apenas com uma dúvida, quando usei o tabula para abrir uma tabela em um pdf, ele pegou somente as linhas, portanto a primeira linha se tornou o nome das colunas. Tem alguma forma, mesmo que com pandas, de transformar o nome de colunas na primeira linha? Pois se eu conseguir descer esses dados para primeira linha, posso só acrescentar um título para as linhas normalmente.
Olá Jonathan, tente utilizar a opção para não incluir um header e depois você inclui o nome das colunas de forma separada. Exemplo: tabelas = tabula.read_pdf(nome_arquivo, pages='all', pandas_options={'header': None})
Excelente vídeo porém eu consegui alterar um texto com o comando em python replace só que o arquivo não fica salvo a alteração como faço para salvar o arquivo PDF?
Bom dia, o comando "tabula.read_pdf" não funciona mais no meu computador. recebe o mensagem de que: AttributeError: module 'tabula' has no attribute 'read_pdf''. Consegue me ajudar?
tentei executar e ocorre o seguinte erro AttributeError: module 'tabula' has no attribute 'read_pdf', já removi o pacote e reinstalei novamente, mas o erro continua.
fiquei com uma Dúvida. qual o caminho pra ele buscar o arquivo e ler não vi isso estou tentando fazer um programa que vai, buscar uma falha um uma apostila em pdf e retornar com a descrição do defeito e a sua solução essa apostila de 3000 pg me ajuda ai
@@nerddosdados consegui me mostrar como faço isso, não sei muita coisa estou aprendendo ainda, tenho em meu computador um arquivo em PDF e estou tentando fazer ele buscar, mais o ideia seria melhor colocar esse arquivo dentro do Python e fazer o programa buscar. Me ajude por favor se puder.
Amigo, dai-me uma luz. Pode me dar um caminho para ler uma imagem dinâmica, por exemplo: O Vídeo de um relógio. Queria pegar os dados desse relógio e tratar depois. Identificar os caracteres. Obrigado.
Ganhou mais um inscrito para a lista... Excelente vídeo. É possível replicar esse método no google colab? Pergunto, pois, a empresa que trabalho tem um TI jurássico que parou no MS Dos, tudo que vamos pedir não pode instalar, ou ainda, se houver abertura tem que pedir autorização para uns 25 níveis distintos e a aprovação sair em um eclíse lunar ou alinhamento dos planetas. Pergunto, pois, se for possível, posso implementar umas soluções que facilitarão o meu trabalho de baixar e transferir informações de PDFs para uma planilha e subir diretamente para o sistema
Tenho um PDF com questões de física, é possível usar esse pacote, para buscar o número de cada questão para separar elas no PDF e montar um banco de dados para formulação de provas?
Parabéns pelo canal. Sua didática é excelente, especialmente para novatos como eu. Muito obrigado
Show de bola, simples e objetivo!
Topzera o vídeo ein. Muito bom.
Excelente! Ganhou um inscrito. Direto ao ponto, sem novelinha de YT, mas mantendo uma boa didática.
Ótimo conteúdo como sempre, vamos ajudar compartilhando para aumentar essa rede de ensino.
Muito obrigado por tudo irmão, vive salvando
Já voltei rs essa semana já teve vídeo novo
Excelente Conteúdo! Parabéns
Ótimas explicações. obrigado
Preciso fazer uma análise de dados em arquivos de pdf que são imagens. Os dados que devo fazer são de valores monetários de uma tabela de imagem, extrato bancário e recibos. Devo comparar para verificar possíveis inconsistências entre transações. Há uma forma de extrair esses dados para comparação "lado a lado" e fazer essa apuração?
Excelente vídeo!!!! Muito bom seu conteúdo! 🌠
Excelente aula. Parabéns.
Excelente conteúdo...! 😃👍
Excelente conteúdo. Gostara de saber se vc tem video explicando como ler arquivo PPT com Python.
Olá Vania, no canal não tenho ainda mas pretendo fazer em breve, porém não sei se te ajudaria mas existe uma biblioteca que é para leitura de arquivos PPT. o nome dela é aspose.slides
Ganhou um inscrito, conteudo top
Muito bom o vídeo parabéns, já tô inscrito, me tira uma dúvida ao importar o PDF, como eu apresentaria os dados específicos que eu preciso em uma tabela, ex a data, o título, o assunto.
Você pode inserir os dados em um dataframe e depois salvar em Excel por exemplo
Bom professor, e no caso se eu tiver um grafico de curva, como posso fazer para o py reconhecer?
Não entendi sua pergunta….
Top o conteúdo, já me ajudou muito!
Uma dúvida, como eu pego os dados de uma coluna e como eu pego um dados específico tipo da linha 2 coluna 3. Seria possível?
Gostei muito do seu vídeo. Eu gostaria de saber se é possível extrair dados de uma parte específica do PDF. Tipo de algum título de seção, por exemplo
E possível você extrair o pdf completo depois filtrar somente os dados que você precisa
@@nerddosdados como fazer isso?
Olá.
Como transfomo material impresso, com campos a serem preenchidos, em editável, onde eu consiga tanto digitar na tela do PC, como imprimir e preencher à mão?
Pode ser em PDF, quanto docx.
Dessa forma que você questionou não consegui entender muito bem o que você precisa, se puder detalhar mais tento te ajudar
Excelente vídeo, como sempre! Fiquei apenas com uma dúvida, quando usei o tabula para abrir uma tabela em um pdf, ele pegou somente as linhas, portanto a primeira linha se tornou o nome das colunas. Tem alguma forma, mesmo que com pandas, de transformar o nome de colunas na primeira linha? Pois se eu conseguir descer esses dados para primeira linha, posso só acrescentar um título para as linhas normalmente.
Olá Jonathan, tente utilizar a opção para não incluir um header e depois você inclui o nome das colunas de forma separada.
Exemplo:
tabelas = tabula.read_pdf(nome_arquivo, pages='all', pandas_options={'header': None})
Excelente vídeo porém eu consegui alterar um texto com o comando em python replace só que o arquivo não fica salvo a alteração como faço para salvar o arquivo PDF?
Pra salvar o arquivo pode utilizar o save_pdf
Bom dia, o comando "tabula.read_pdf" não funciona mais no meu computador. recebe o mensagem de que: AttributeError: module 'tabula' has no attribute 'read_pdf''. Consegue me ajudar?
Tenta reinstalar o pacote pode ser algum bug desse pacote
@@nerddosdados ótima lembrança. Eu tinha tentando dar outro pip install por cima e não deu certo. Agora dei o uninstall e RESOLVEU! Obrigado.
tentei executar e ocorre o seguinte erro AttributeError: module 'tabula' has no attribute 'read_pdf', já removi o pacote e reinstalei novamente, mas o erro continua.
Que estranho pode ser algum problema da versão do anaconda…muita gente já utilizou sem dar erro…o meu também não deu erro naon
fiquei com uma Dúvida.
qual o caminho pra ele buscar o arquivo e ler não vi isso
estou tentando fazer um programa que vai, buscar uma falha um uma apostila em pdf e retornar com a descrição do defeito e a sua solução essa apostila de 3000 pg me ajuda ai
Ele busca por padrão no diretório que está seu Jupyter notebook mas você pode indicar o caminho também
@@nerddosdados consegui me mostrar como faço isso, não sei muita coisa estou aprendendo ainda, tenho em meu computador um arquivo em PDF e estou tentando fazer ele buscar, mais o ideia seria melhor colocar esse arquivo dentro do Python e fazer o programa buscar. Me ajude por favor se puder.
Não roda, aparece erro a seguir: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.
Nesse caso pode ser que quando configurou o JVM vc não tenha marcado a opção de atualizar as variáveis de ambiente
Obrigado@@nerddosdados
E como fazer isso?@@nerddosdados
Amigo, dai-me uma luz. Pode me dar um caminho para ler uma imagem dinâmica, por exemplo: O Vídeo de um relógio. Queria pegar os dados desse relógio e tratar depois. Identificar os caracteres. Obrigado.
Olá Fábio.
Nesse caso você poderia tentar usar a biblioteca OpenCV essa biblioteca do Python tem muitos recursos para trabalhar com imagens dinâmicas
Ganhou mais um inscrito para a lista... Excelente vídeo. É possível replicar esse método no google colab? Pergunto, pois, a empresa que trabalho tem um TI jurássico que parou no MS Dos, tudo que vamos pedir não pode instalar, ou ainda, se houver abertura tem que pedir autorização para uns 25 níveis distintos e a aprovação sair em um eclíse lunar ou alinhamento dos planetas.
Pergunto, pois, se for possível, posso implementar umas soluções que facilitarão o meu trabalho de baixar e transferir informações de PDFs para uma planilha e subir diretamente para o sistema
E possível fazer pelo Google colab sim
Tenho um PDF com questões de física, é possível usar esse pacote, para buscar o número de cada questão para separar elas no PDF e montar um banco de dados para formulação de provas?
E possível sim
E is códigos fontes como você passa?
Link está na descrição do vídeo
Outra coisa como juntar dois ou maus arquivos de restos em PDF?
Pode utilizar o merge tem um vídeo no canal explicando sobre merge
Minha duvida é quando o arquivo PDF tem texto e tabelas. Há um método que consegue extrair os dois?
Nesse caso você precisa fazer o tratamento diferente utilizando de forma separada
@@nerddosdados Obrigado, irei fazer alguns testes levando isso em conta. Há alguma maneira de otimizar este processo?
Excelente vídeo, mas no PyCharm o display não funciona!
Nesse caso pode ser alguma configuração do pycharm mesmo
Parabéns pelo video meu amigo, sabe me dizer se funciona com notas fiscais ? tentei mas não funcionou :(
Olá Felipe, obrigado.
Com notas fiscais nunca tentei, porém se o PDF tiver a mesma estrutura de documento com tabelas e textos deve funcionar sim.
o problema é ler arquivo grande, trava
Pode ler por páginas e assim separar o arquivo em partes
@@nerddosdados eu tentei dessa forma de 100 em 100 mais deu problema de strings. são 3000 paginas
Parabéns