파이썬으로 PDF 텍스트 원하는대로 뽑아내기
ฝัง
- เผยแพร่เมื่อ 10 ก.พ. 2025
- 생성형 AI 활용의 핵심은 데이터 수집 및 준비 단계에서 제대로 된 데이터를 가져오는 것인데요,
특히 많이 활용되는 PDF 문서는 텍스트를 다루는 것 자체가 많이 까다롭습니다.
이번 영상에서는 직접 파이썬으로 정교하게 PDF데이터를 원하는 기준에 따라서 뽑아내는 방법을 알아보겠습니다.
📂 활용 링크 :
네이버 2023년 사업보고서 : www.navercorp....
예제코드 : github.com/dab...
PyMuPDF : pymupdf.readth...
#파이썬 #PDF활용 #PyMuPDF
항상 잘보고 있습니다 ^^
감사합니다!
박스형태로된 내용을 어떻게 추출할수 있을까요?
getTextbox(rect) 를 이용하면 가져올 수 있다고 합니다!
아래 링크 참고해보셔도 좋을 것 같습니다.
github.com/pymupdf/PyMuPDF/discussions/776