どれが良い?PDF読み取りツール(LlamaParse, Unstructured, FireCrawl)比較してみた

แชร์
ฝัง
  • เผยแพร่เมื่อ 2 ต.ค. 2024

ความคิดเห็น • 21

  • @aivtuber2866
    @aivtuber2866  3 หลายเดือนก่อน +12

    Sonnet3.5の速報は
    痛恨の外出中で撮れませんでしたっ‥!
    (期待していた方申し訳ないです🙇)

  • @shintarooashi1045
    @shintarooashi1045 3 หลายเดือนก่อน +14

    複雑なPDFを読み取るのは、marpやAzureのdocument-intelligenceもいい感じなので、使ってます。

    • @aivtuber2866
      @aivtuber2866  3 หลายเดือนก่อน +1

      ありがとうございます!
      他の方からも教えていただきましたが
      document-intelligenceいい感じなんですね😲
      marpは知らなかったので調べてみます!ありがとうございます!

    • @shintarooashi1045
      @shintarooashi1045 3 หลายเดือนก่อน

      すみません。PDFを読み取るのは、marpではなく、markerでした。

  • @riho-u5g
    @riho-u5g 3 หลายเดือนก่อน +7

    AzureのDocument Intelligenceを使ってますが、セマンティックチャンキングや表をマークダウンに変換したりして、割と精度が上がってる感があります。

    • @aivtuber2866
      @aivtuber2866  3 หลายเดือนก่อน

      Document Intelligence今回紹介してなかったのですが
      精度良い感じになってるんですね😲
      教えていただき、ありがとうございます!

  • @mjolnir501
    @mjolnir501 หลายเดือนก่อน +1

    あまり関係ないですが、行政資料 markdownでつくること義務付けたら国力あがりそうとか妄想しました。

    • @aivtuber2866
      @aivtuber2866  หลายเดือนก่อน

      確かに複雑なPDF自体が無くなったら一番良いですね・・・!🤔

  • @patoru_patr
    @patoru_patr 3 หลายเดือนก่อน +3

    見たかった検証!画面右側の出力結果はなんというツールで表示させていますか?
    官公庁の資料は列のラベルが縦書になっていることが多いので困っていましたがファイアークロールはいけるのですね。
    Azure Form Recognizerとかも使えますよね。

    • @aivtuber2866
      @aivtuber2866  3 หลายเดือนก่อน

      ありがとうございます!
      右側は、GitHubでMarkdown形式のファイルを作成して表示させてます!
      Azure Form Recongnizerというサービスがあるんですね😲
      AzureのサービスAzureOpenAI以外ノータッチだったので、少し調べてみます!
      ありがとうございます😄

  • @Radioman0990
    @Radioman0990 หลายเดือนก่อน +1

    PDFに対応したAIを開発するのより、PDFを禁止するほうが筋がいい気がしてた
    数年前までは

  • @kyakyakua
    @kyakyakua 3 หลายเดือนก่อน +1

    firecrowl(OS版)をどうやってdifyと連携するか教えて欲しいです…!

  • @soladona4228
    @soladona4228 3 หลายเดือนก่อน +3

    いつもありがとうございます!会社で使うとなるとオープンソースじゃないとハードル高いですね。。。

    • @soladona4228
      @soladona4228 3 หลายเดือนก่อน +2

      Azureみたいにエンタープライズ向けのサービスであれば普通に使えそうです。

    • @aivtuber2866
      @aivtuber2866  3 หลายเดือนก่อน

      @@soladona4228
      コメントありがとうございます!
      確かに会社の規則的に大手のベンダーじゃないと
      導入のハードル高いですよね😢

  • @tamorika111
    @tamorika111 3 หลายเดือนก่อน +1

    投稿ありがとうございます!firecrawlでどうやったらpdf読めるかの動画是非おねがいします!!!サイト見てもwebscrapeだけしかわからず、、

    • @aivtuber2866
      @aivtuber2866  3 หลายเดือนก่อน +1

      ありがとうございます!(返信遅れました🙇‍♂️)
      > firecrawlでどうやったらpdf読めるかの動画是非おねがいします!!
      こちらは、動画で説明できておらずすみません・・・!
      単純に公開ページであったのでURLを入力して抽出しています🙇‍♂️
      ローカルでできる方法があったら(OSS版だとできる?)紹介したいと思います!

    • @tamorika111
      @tamorika111 3 หลายเดือนก่อน +1

      @@aivtuber2866 ご返信ありがとうございます!なるほど!コメントにあるazure系試してみます!