【15分で習得】PythonでPDF文字認識・抽出の実装をわかりやすく解説(日英対応)

แชร์
ฝัง
  • เผยแพร่เมื่อ 2 ก.พ. 2025

ความคิดเห็น • 30

  • @kt8651
    @kt8651 3 ปีที่แล้ว +1

    いつもありがとうございます。
    色々参考にさせてもらっています。
    今後もPythonについて発信をお願いします。

  • @ハムスターハムスター-b2h
    @ハムスターハムスター-b2h 2 ปีที่แล้ว +1

    すごく丁寧で分かりやすいです!!!
    他のpython動画もたくさん参考にさせていただいてます~💛☆

  • @gunkokusakaba3406
    @gunkokusakaba3406 3 ปีที่แล้ว +4

    今回も分かりやすい動画ありがとうございます!
    とても、勉強になりました!!

    • @imanyu_programming
      @imanyu_programming  3 ปีที่แล้ว

      そのようにおっしゃっていただき非常に嬉しいです!!!
      こちらこそご視聴いただきありがとうございます!!!!!!

  • @supernature1577
    @supernature1577 2 ปีที่แล้ว +1

    ありがとうございます。😊
    仕事に使えるか挑戦してみます。

  • @freestylekayaker9825
    @freestylekayaker9825 3 ปีที่แล้ว +1

    毎回、解り易くて良いですね。
    楽しみにしています。

    • @imanyu_programming
      @imanyu_programming  3 ปีที่แล้ว

      そのように言っていただき非常に嬉しいです!!
      ありがとうございます!!

  • @pichi3687
    @pichi3687 3 ปีที่แล้ว +1

    すごいですね!Pythonってなんでもできるんですね!(機械学習でR使ってましたが、Pythonも機械学習に優れていると聞き去年からPythonも学び始めました。機械学習以外の用途も多くて驚いてます)

    • @imanyu_programming
      @imanyu_programming  3 ปีที่แล้ว +1

      コメントありがとうございます!!
      RとPythonの大きな違いはこの汎用性です、、、
      なんでもできます!笑

  • @ちはや-g9n
    @ちはや-g9n 3 ปีที่แล้ว +1

    Python初心者です!
    とても素晴らしい動画をありがとうございます!実際に言われた通りしてみたらPDFのテキスト化が自分にもできました!そこで質問なのですが、テキスト化できた結果をテキストマイニングするにはどのようにしたら良いのでしょうか?いまにゅさんのどの動画を見れば良いのでしょうか?

  • @PON-do9fo
    @PON-do9fo 3 ปีที่แล้ว +4

    参考になる動画をありがとうございます。
    10:40秒の時点で同じコードのはずなのにPDFを読み取れず「Python」とのみ表示されます…。
    少ない情報で恐縮ですが、この時点でわかる解決方法がございましたら教えていただけないでしょうか…。

    • @PON-do9fo
      @PON-do9fo 3 ปีที่แล้ว +1

      参考になる動画をありがとうございます。
      どうやら「!python3 pdf2……」やネコ画像収集の際の「!zip - .......」の「!」のせいで思うようにいかないかもしれません。この「!」は何を表しているのですか?教えていただけますと幸いです。

    • @keikei3163
      @keikei3163 3 ปีที่แล้ว +2

      私も同じ現象になりました。python3の3をつけないで実行してみたら成功しました。

    • @PON-do9fo
      @PON-do9fo 3 ปีที่แล้ว

      @@keikei3163 ありがとうございます!私も試してみます!

  • @55bonbon54
    @55bonbon54 2 ปีที่แล้ว +1

    非常にわかりやすい説明ですね! 
    ちょっとご質問よろしいでしょうか。
    業務で図面というものを使用しています。その中にCAD寸法というものが表記されています。例えば幅5.000・R3.000・φ4.530 等々です。ちなみに手書きの①②•••のようなナンバーも含まれています。
    手書きとCAD文字が混在していますが、このようなPDFから数値やR・φ・手書き数値(①②・・・)は抽出できるのでしょうか?
    基本的な知識に乏しく、何かヒントをいただけると助かります。
    宜しくお願い申し上げます。

  • @ずぼら-w5n
    @ずぼら-w5n 2 ปีที่แล้ว +1

    gcpのvision apiと比較して、どちらが精度が高いですかね?

  • @kt8651
    @kt8651 3 ปีที่แล้ว +1

    先程投稿したものです。実行すると「python3: can't open file 'pdf2txt.py': [Errno 2] No such file or directory」とエラー表示されます。データのアップロード先はどこにすればよいか、ご教示願います。何分Pythonの初心者ですので・・・・

  • @俊老師
    @俊老師 3 ปีที่แล้ว +2

    いつも非常に有益な情報有難う御座います。PDFやweb上からデイリーで数値データを取得し、既存のエクセルデータの表に追加していた業務をしておりますので、早速業務レベルで実装したく思っております。 今回の講座でご教示頂いたPDFデータを読み取って、その内容の一部データを取得することはできたのですが、既存のexcelの表に、それを自動転記する方法をご教示頂きたいです。pandasを利用して、既存excelの表を読み込み、それに新規データを追加して再度Excelに吐き出すのがいいでしょうか。よりスマートな方法があればご教示頂けると幸いです。

    • @imanyu_programming
      @imanyu_programming  3 ปีที่แล้ว

      コメントありがとうございます!!!
      はい、下記のやり方が良いと思います!!
      >pandasを利用して、既存excelの表を読み込み、それに新規データを追加して再度Excelに吐き出すのがいいでしょうか。

  • @akktat2
    @akktat2 3 ปีที่แล้ว +2

    これはOCRが出来るモジュールではないのですね。PDF2ImageとPyOCRの組み合わせが必要なのでしょうね。

  • @hiromotsu5949
    @hiromotsu5949 3 ปีที่แล้ว +1

    いつもありがとうございます!
    参考にさせていただいています!
    普通の文字に対しては、読み込むことができるのですが、PDF中に数式や行列などが出てくると”UnicodeEncodeError”が出てしまうのですが、対処法などあれば教えて頂きたいです。
    もしない場合、エラーをとばして、その続きから読み込みを行うことは可能なのでしょうか。
    もしよろしければ返信お願い致します。

  • @toshishibuya5384
    @toshishibuya5384 3 ปีที่แล้ว +1

    本チャンネルを知り勉強させて頂いております。
    VSCodeで用いているのですが、10:00秒からのpdfminerを用いたところから、動画通り行えませんでした。
    この場合、どのように行えば良いのでしょうか?
    お時間がありましたら、ご返信頂ければ幸いです。

  • @youchan728
    @youchan728 3 ปีที่แล้ว +1

    分かり易すぎます!!!
    簡単に実装できました!ありがとうございます😭
    ちなみに、抽出したテキストをPDFファイルに埋め込むことも出来たりするんですか???

    • @imanyu_programming
      @imanyu_programming  3 ปีที่แล้ว +1

      そのようにおっしゃっていただき非常に嬉しいです!!
      ちょい面倒ですが、この辺り使えばできると思います!
      qiita.com/mototoke/items/7fc4c65305c4180521e4

    • @youchan728
      @youchan728 3 ปีที่แล้ว

      @@imanyu_programming ありがとうございます😊
      試してみます!

  • @kt8651
    @kt8651 3 ปีที่แล้ว +2

    ググってアップロードできました。お騒がせしました。

  • @てんまるチャンネル
    @てんまるチャンネル ปีที่แล้ว

    どなたか以下エラー文の解決方法を教えてください。。
    Traceback (most recent call last):
    File "/Users/miuraryogo/ocr-test/pdf2txt.py", line 8, in
    import pdfminer.high_level
    ModuleNotFoundError: No module named 'pdfminer'

    • @坂本かな-o3p
      @坂本かな-o3p ปีที่แล้ว

      もう解決されているかもですが、module not found errorは読み込んだモジュールが見つからない時にでます
      パワーシェルでpip list とコマンドを入力するとインストールされている外部ライブラリの一覧が表示されますので、てんまるさんの場合はpdfminerがリストに載っているか確認してみてください
      私もたまにやらかしますが、似たような名前の別のライブラリインストールしていたりとかかもしれません