파이썬으로 PDF 텍스트 원하는대로 뽑아내기

แชร์
ฝัง
  • เผยแพร่เมื่อ 10 ก.พ. 2025
  • 생성형 AI 활용의 핵심은 데이터 수집 및 준비 단계에서 제대로 된 데이터를 가져오는 것인데요,
    특히 많이 활용되는 PDF 문서는 텍스트를 다루는 것 자체가 많이 까다롭습니다.
    이번 영상에서는 직접 파이썬으로 정교하게 PDF데이터를 원하는 기준에 따라서 뽑아내는 방법을 알아보겠습니다.
    📂 활용 링크 :
    네이버 2023년 사업보고서 : www.navercorp....
    예제코드 : github.com/dab...
    PyMuPDF : pymupdf.readth...
    #파이썬 #PDF활용 #PyMuPDF

ความคิดเห็น • 4

  • @faeqsu10
    @faeqsu10 3 หลายเดือนก่อน +1

    항상 잘보고 있습니다 ^^

    • @dabidstudio08
      @dabidstudio08  3 หลายเดือนก่อน

      감사합니다!

  • @QMr-d5i
    @QMr-d5i 2 หลายเดือนก่อน

    박스형태로된 내용을 어떻게 추출할수 있을까요?

    • @dabidstudio08
      @dabidstudio08  2 หลายเดือนก่อน

      getTextbox(rect) 를 이용하면 가져올 수 있다고 합니다!
      아래 링크 참고해보셔도 좋을 것 같습니다.
      github.com/pymupdf/PyMuPDF/discussions/776