Automate Voice Dataset Creation Using Whisper AI

แชร์
ฝัง
  • เผยแพร่เมื่อ 28 ก.ย. 2024

ความคิดเห็น • 33

  • @bwheldale
    @bwheldale 2 หลายเดือนก่อน

    This is nice and saves a lot of time. Even so, while most audio segments are nicely split some are not. E.g., some may be cut off at the end. In such cases, it may be beneficial to implement a secondary process specifically designed to identify and eliminate those 'rejects' from the dataset. I'm finding it's a delicate balance of adjusting the parameters specific to a particular dataset but rejects may still occur and are best removed if possible for improved training.

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน +1

      Thanks for your feedback 😊. Yes, it's a little bit try'n error to adjust parameters to find best way that sentences are split correctly. But in most cases it will require manual control and adjust afterwards. But it's way better than doing the whole process manually 🙃.

    • @bwheldale
      @bwheldale 2 หลายเดือนก่อน

      Thanks for explaining. It's definitely way better than manual. Also, I don't know if my thoughts on removal of rejects was wise as in cases those chunks may form part of a sentence. I'm still trying to understand the how and why.

  • @hikmetemre6837
    @hikmetemre6837 2 หลายเดือนก่อน

    Cheers that is a brilliant video! I have a question could I prepare a dataset for singing voice dataset too ?

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน

      Thanks for your kind feedback 😊. A singing voice dataset is sounding like a interesting use case 👍. But i don't have any experience with that (yet).

  • @capitalcleaning
    @capitalcleaning 2 หลายเดือนก่อน

    please focus and zoom the area that you are talking about. that will not be fancy. thank you.

  • @RaminAssadollahi
    @RaminAssadollahi 6 วันที่ผ่านมา

    So in principle, I can record German and English sentences since Whisper will recognise both. How does Piper handle two languages at once? Will it be able to learn German and English phonetics together?

    • @ThorstenMueller
      @ThorstenMueller  3 วันที่ผ่านมา +1

      For whisper: yes
      For piper: imho this will not work perfectly right now. As german every day talk uses lots of english words switching phoneme language is important. But imho this does not work perfectly out of the box. Maye you preprocess the text before running tts.

  • @Wissens-Lounge
    @Wissens-Lounge 2 หลายเดือนก่อน

    Thx for sharing. Like

  • @oleksandr5700
    @oleksandr5700 2 หลายเดือนก่อน

    hi, but how can I invoke the cuda usage?

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน

      IMHO CUDA should be automatically be detected/used by whisper? Is it installed in your (venv) environment?

  • @VulcanOnWheels
    @VulcanOnWheels 2 หลายเดือนก่อน

    5:16 This size is good enough for me.

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน

      Thanks for your feedback to the font size / scale 😊

  • @vickyrajeev9821
    @vickyrajeev9821 2 หลายเดือนก่อน

    Thanks, can I run on CPU because i don't have GPU

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน

      Yes, that's possible. It's just slower than with GPU.

  • @sonnyad
    @sonnyad 2 หลายเดือนก่อน

    Cool! Does it work With other languages than English?

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน +2

      Yes, whisper automatically discovers the spoken language. It works for all languages supported by whisper. I tried it with german too and it really worked very well 😊.

    • @sonnyad
      @sonnyad 2 หลายเดือนก่อน

      @@ThorstenMueller ok thanks for the info

  • @BatoolKassem-i7d
    @BatoolKassem-i7d 23 วันที่ผ่านมา

    Does it work on other than English recordings? Like Arabic for example?

    • @ThorstenMueller
      @ThorstenMueller  20 วันที่ผ่านมา +1

      Hi, this should work for all languages that are supported by whisper stt.

  • @bwheldale
    @bwheldale 2 หลายเดือนก่อน

    Also, I'm curious about the most recently added "3rd column with cleaned/lowered text" what you have planned?

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน +1

      According to original LJSpeech (keithito.com/LJ-Speech-Dataset/) dataset the 3rd column is "Normalized Transcription" and is required by some tts projects. Normally you would replace strings like "mr." to "mister" and "2" to "two". I just made it to lowercase and think on how i can integrate text cleaners that work for multiple languages.

    • @bwheldale
      @bwheldale 2 หลายเดือนก่อน

      Ahh, I see. I recall different datasets e.g., having in one case "2" and in another "two". Interresting, much appreciated.

  • @werneroi
    @werneroi 2 หลายเดือนก่อน

    Thank you so much for the video! it helps so much to automate the process and saves lot's of time. As you are running on a mac... Do you have any video planned on how to use the dataset on a mac to create the voice as well? Or any updated tutroials how to use it in an updated google colab or lightning studio (this will be amazing, as google colab is a pain in the butt these days :). )

    • @ThorstenMueller
      @ThorstenMueller  13 วันที่ผ่านมา

      Thanks for your comment 😊. Mostly i use linux to train a tts voice model on a voice dataset. Did not know about lightning studio but looks promising on a first look. Thanks for pointing out 👍.

  • @aneerpa8384
    @aneerpa8384 2 หลายเดือนก่อน

    Informative ❤

  • @CodeByCradle
    @CodeByCradle 2 หลายเดือนก่อน

    The video is exactly what I need :) Thank you so much!

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน

      Happy to hear that, you're welcome 😊.

  • @amaarboss2115
    @amaarboss2115 2 หลายเดือนก่อน

    really I love your surprised❤

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน

      Thank you, since I am not a native English speaker, I am sometimes surprised at what I say 😅.

  • @DrFukuro
    @DrFukuro 2 หลายเดือนก่อน

    Ein Folge-Video,was nun genau mit dem generierten Dataset gemacht werden kann und wie man vorgeht, wäre super. Falls es das schon irgendwo gibt, bitte verlinkten.

    • @ThorstenMueller
      @ThorstenMueller  2 หลายเดือนก่อน +1

      Mit einem eigenen LJSpeech Sprachdatensatz kannst du deine Stimme klonen:. Entweder mit Coqui TTS oder (bevorzugt) mit Piper TTS.
      * Coqui: th-cam.com/video/4YT8WZT_x48/w-d-xo.html
      * Piper: th-cam.com/video/b_we_jma220/w-d-xo.html