How to Train Tesseract OCR Engine 5 on Custom Data

แชร์
ฝัง
  • เผยแพร่เมื่อ 22 ม.ค. 2025

ความคิดเห็น • 20

  • @SL7Tech
    @SL7Tech  3 หลายเดือนก่อน +1

    Important: The name of your image and ground truth file must match without the extension while preparing the dataset. Otherwise the trainer will throw an error.

  • @Arun-ku7kq
    @Arun-ku7kq 5 วันที่ผ่านมา

    By far the best explanation of tesseract training.. 👌🏼

  • @ArT-yt3ng
    @ArT-yt3ng 6 ชั่วโมงที่ผ่านมา

    Thanks a lot bro. You are literally my savior for today. Thanks a bunch.

  • @aritradeb1935
    @aritradeb1935 หลายเดือนก่อน

    MOst of my data has two lines. What to do in that case?

  • @DangKhang2811
    @DangKhang2811 14 วันที่ผ่านมา

    can i use file png and box in data bro ?

  • @appsscope2487
    @appsscope2487 2 หลายเดือนก่อน

    If I need to train in Arabic numbers, can I do it in the same way? because there is no Arabic number dataset to download!!

    • @SL7Tech
      @SL7Tech  2 หลายเดือนก่อน

      @appsscope2487 you can create dataset yourself and yes follow this procedure for fine tuning. remember to pass language type as RTL.

  • @inkmaze
    @inkmaze 2 หลายเดือนก่อน

    I got combine_tessdata failed at 12:39 pls help

    • @SL7Tech
      @SL7Tech  2 หลายเดือนก่อน +1

      @@inkmaze can you share the log

    • @inkmaze
      @inkmaze 2 หลายเดือนก่อน

      @@SL7Tech Sure
      You are using make version: 4.4.1
      combine_tessdata -u ../tessdata//deu_latf.traineddata data/deu_latf/engplus
      process_begin: CreateProcess(NULL, combine_tessdata -u ../tessdata//deu_latf.traineddata data/deu_latf/engplus, ...) failed.
      make (e=2): The system cannot find the file specified.
      make: *** [Makefile:207: data/deu_latf/engplus.lstm-unicharset] Error 2

    • @inkmaze
      @inkmaze 2 หลายเดือนก่อน +1

      @@SL7Tech Oh I forgot to add Tesseract to path LOL

  • @SidhuOp
    @SidhuOp 3 หลายเดือนก่อน

    Since pytesseract is terrible with alphanumeric words, can we train it with those kind of datasets

    • @st1np
      @st1np 3 หลายเดือนก่อน

      true, I've been trying for a long time to train for the Consolas alphanumeric font, but tesseract it's very inaccurate. HELP

  • @markmacharia5187
    @markmacharia5187 2 หลายเดือนก่อน

    I ran into this error"$ make training MODEL_NAME=kernsys START_MODEL=eng TESSDATA=../tessdata/ MAX_ITERATIONS=2000 LEARNING_RATE=0.001
    You are using make version: 4.4.1
    tesseract "data/kernsys-ground-truth/image_001.png" data/kernsys-ground-truth/image_001 --psm 13 lstm.train
    No box data found in 'data/kernsys-ground-truth/image_001.box'.
    Failed to read boxes from data/kernsys-ground-truth/image_001.png
    Error during processing.
    make: *** [Makefile:248: data/kernsys-ground-truth/image_001.lstmf] Error 1
    "

    • @SL7Tech
      @SL7Tech  2 หลายเดือนก่อน

      make sure that ground truth file is not empty

    • @markmacharia5187
      @markmacharia5187 2 หลายเดือนก่อน

      @SL7Tech it is not empty

    • @paulp4061
      @paulp4061 หลายเดือนก่อน

      Ran into same error. In my case it was an empty (zero bytes) file with .box extension which was apparently created during one of the previous failed attempts to run the command. After deleting the file it worked.