Finally good open-source TTS: Kokoro ♥️

The Morpheus Tutorials

มุมมอง 17 809

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 4 ก.พ. 2025

ความคิดเห็น • 81

@supremus1305 27 วันที่ผ่านมา ⁺²⁶
Sehr nice. Hoffentlich kommt deutsch bald dazu.
@WeAreCameron 24 วันที่ผ่านมา ⁺¹⁵
The irony of the quality of the English auto-dub here is hilarious.
@Npdias 22 วันที่ผ่านมา
Thinking the same thing - I'm just going to listen to the german and infer what he's saying at this rate
@heiko4297 27 วันที่ผ่านมา ⁺²⁶
Drücken wir mal unsere deutschen Däumchen.
@Skizobar 27 วันที่ผ่านมา ⁺²
Ja, so das eine oder andere schöne Buch das man zwar gelesen hat aber Nachts auch gern als Hörbuch laufen lassen möchte.... dafür wäre ein TTS echt hübsch... :-)
@heiko4297 27 วันที่ผ่านมา ⁺¹
@@Skizobar Ganz genau!
@MeinDeutschkurs 12 วันที่ผ่านมา
Sehr vielversprechend. Danke Cedric. Wenn ich auf macOS bin, lasse ich das von say und der Siri-Stimme sagen. Geht erstaunlich schnell und klingt auch nicht übel. Wenn ich längere Texte habe, nutze ich content splitting (mit Pausen am Ende, und füg es dann wieder zam.
@theminecraft690 26 วันที่ผ่านมา ⁺⁵
Für alle die es deutsch wollen gibt es thosten voice auch open source von nem dude der seine Stimme komplett für ein tts Model geklont hat hört sich auch sehr gut und realistisch an
@irvingzamora1837 10 วันที่ผ่านมา
Kennen Sie den Repository-Namen auf GitHub?
@CodingLuckyClover 17 วันที่ผ่านมา
Hab gerade(erst) entdeckt, dass man den Audiotrack zu dem Video auf Englisch umschalten kann 😳- cool!
@japorto100 27 วันที่ผ่านมา ⁺²⁸
Richtig schade, dass es nicht in Deutsch geht
@Darkwing8707 24 วันที่ผ่านมา ⁺³
At first I thought it was some kind of joke because I guess youtube is auto-dubbing now and I didn't notice. So the video is playing with a super robotic English dub.
@LG-yi2vh 27 วันที่ผ่านมา ⁺¹⁰
Ich hoffe, dass mehr offene/lokale TTS kommen und bald Deutsch supported wird. Ich hab 0 Probleme mit Englisch, aber wenigstens in meinen 4 Räumen und private Dinge will ich mal Deutsch reden können 😂
Aber TTS ist noch viel zu underrated. Bringt mir ja nichts wenn ich zwar losplappern kann, aber genauso viel Rückmeldung bekomme wie von einer Wand
@mechadense 24 วันที่ผ่านมา
Wow! Welten besser als bisherige nicht AI basierte gespeaker TTS robovoice.
@mechadense 24 วันที่ผ่านมา ⁺¹
Halt alles noch weit entfernt von einem einfachen one click install Prozess für Systemintegration wie es bei gespeaker ist.
@rizzwan-42069 24 วันที่ผ่านมา ⁺²
wait this video was recorded in german i was wondering why the comments were german lol. sehr gut video.
@RenderingUser 24 วันที่ผ่านมา
i was surprised to see this video itself translated to english by youtube itself lol
@Remigrator 27 วันที่ผ่านมา
Na endlich. Das + Futo Voice + HeliBoard 🤗
@MeinDeutschkurs 12 วันที่ผ่านมา ⁺¹
Das sind „ALDI-Kategorien“? Red doch deinen RSS-Feed nicht so runter!!!! 😂😂😂 Sorry, Cedric! Ich konnte nicht anders. 🤣🤣🤗🤗
@monotyc6085 26 วันที่ผ่านมา
es ist krass wie gut chatgpt tts ist. da liegen wirklich Welten dazwischen. Sogar mit Atemgeräuschen, Pausen und allem.
@Philpanse 27 วันที่ผ่านมา ⁺¹
Oha. Von so etwas habe ich noch nie gehört. Ich habe eine starke Sehbehinderung und bin wirklich genervt davon wenn meine Zoom und Reader Programme für die neueste Windows Version niccht unterstüzt werden. Dann heißt es erstmal immer wieder bei der Krankenkasse für Kostenübernahme betteln. Die Dinger sind nämlich verdammt teuer. Dann könnte ich das ja mal auf meinem Linuxsystem testen. Danke für das Video.
@5ergius 27 วันที่ผ่านมา ⁺²
Doch Cedric, ich brauche deine Hilfe auch bei Linux! 😉
Bin seit nem Jahr auf Linux unterwegs und finde es schade dass mein lieblings Tutorial-Creator auf Windows ist...
Und TTS ist für mich ein Thema sowie die Unterstützung der Deutschen Sprache, gib bescheid wenn's da was gibt 😁
@TheMorpheusTutorials 27 วันที่ผ่านมา ⁺⁴
Linux ist genau gleich, abgesehen von der Installation von espeak, das ist in den offiziellen Paketquellen (apt install) 😁
Und dann brauchst du das mit den Umgebungsvariablen nicht 🌝
@SebastianZehner 27 วันที่ผ่านมา ⁺¹
Ich nutze F5-TTS ❤
@SomeOne-mw8zl 26 วันที่ผ่านมา
danke!
@healthywealthyqueen 27 วันที่ผ่านมา ⁺²
wie geht das bei MacBooks?
@Hofer2304 27 วันที่ผ่านมา ⁺¹
Ich habe auf meinem Handy espeak-ng installiert. Die Qualität hängt von der Sprache ab. Leider weiß ich nicht, wie man es optimal nutzt. Was bewirken die einzelnen Optionen genau? Wie liest man die Lautschrift? Es ist schon hilfreich, wenn man bei einen isländischen Vulkan auch nachlesen kann, wie er heißt und nicht nur die Audioausgabe hat. Ich gehe einmal davon aus, dass die Aussprache einigermaßen richtig ist.
@matsahm 27 วันที่ผ่านมา ⁺⁵
Bitte ein Update-Video rausbringen, wenn dies in Deutsch verfügbar ist 🙂
@reddragonka 24 วันที่ผ่านมา
Hey, cooles Video! Derzeit sind aber nur 30 Sekunden ausgeben möglich, oder sehe ich das falsch?
@HP-qc7cq 27 วันที่ผ่านมา ⁺¹
Hast du schon von whisper und thorsten voice gehört? Ich finde es ist einer der besten tts in deutsch.
@TheMorpheusTutorials 27 วันที่ผ่านมา ⁺¹
Whisper ist aber die andere Richtung 🤔 ist stt.
@HP-qc7cq 27 วันที่ผ่านมา ⁺²
@TheMorpheusTutorials oh ich meinte piper 😅. Nutze beide immer zusammen und habe da was durcheinander gebracht. Jedoch möchte ich nochmal auf Thorsten voice aufmerksam. Wer das noch nicht kennt, wird überrascht sein, wie gut deutsches tts ist.
@Monobrot 26 วันที่ผ่านมา
@@HP-qc7cq Stimmt. Das deutsche Thorsten Modell hört sich ziemlich gut an und Piper läuft auch am PI3/PI4 sehr performant.
@ikitikat 27 วันที่ผ่านมา
Danke für die Anleitung. Ich musste allerdings noch zusätzlich ffmpeg installieren (choco install ffmpeg). Danach ging es. Für einen Satz vielleicht okay, aber Satzzeichen werden noch nicht so recht interpretiert meine ich. Bei zwei drei Sätzen rast die Stimme da ganz schön durch, ohne mal Luft zu holen. Zumindest gilt das für die Standard-Stimme. Habe gerade noch af_nicole getestet und dies funktioniert schon sehr viel besser.
Allerdings besteht wohl noch eine Limitierung bei der Textlänge. Bei zu langem Text wird abgeschnitten und "Truncated to 510 tokens" ausgegeben. Das waren im Testtext ca. 450 Zeichen. Das kann vermutlich aktuell nicht weiter erhöht werden, oder?
@why_do_i_need_this_new_nicknam 25 วันที่ผ่านมา
Wirklich schönes Projekt, hab spaßeshalber eine GUI mit python gemacht (zusammen mit erst ChatGPT dann ClaudeAI) in die ich mehrere Texte einfügen kann, die es dann zum generieren aufsplittet (soweit möglich am Komma oder Punkt um Pausen im Satz zu vermeiden), mp3 dateien generiert und wieder zusammenfügt, so das ich am ende eine mp3 datei pro text habe :D
Darf man die generierten dateien eigentlich frei nutzen (solange natürlich durch den inhalt kein recht beeinträchtigt wird)?
Kenne da ein paar Anleitungsvideos an einer hochschule denen ein neues audio sehr gut tuen würde. ^^
(Die Deutsche Anleitung müsste dann aber leider noch etwas warten)
@LeSchurke 26 วันที่ผ่านมา
Warum nutzt du kein venv? Dachte das muss man machen.
@thFaust 24 วันที่ผ่านมา ⁺²
Muss man generell nicht unbedingt. Man kann solche sachen auch global installieren. Aber wird schwierig, wenn man unterschiedliche Versionen von gewissen Paketen braucht, daher würde ich es schon empfehlen. Hätte er auch besser in dem Video so gemacht.. Sonst kriegt man probleme, sobald eine andere Installation irgendwas überschreibt, geht vllt das ursrüngliche Programm nicht mehr.
@TxBase 23 วันที่ผ่านมา
Bei Kokoro muss ich sofort an das japanische Wort こころ denken, was Herz bedeutet. Gesprochen wird das ro mehr wie ein lo. Genauer eine Mischung.
Verwundern tut es mich nicht. Sind schon lange führend in der Gesangssynthese.
Kann mir gut vorstellen, dass für Deutsch die entsprechenden Stimmproben fehlen.
@andromeda2144 27 วันที่ผ่านมา ⁺²
import sounddevice as sd
import numpy as np
# Ensure audio is numpy array
audio_data = np.array(audio)
# Play the audio
sd.play(audio_data, 24000)
# Wait until the audio is finished playing
sd.wait()
@ikitikat 27 วันที่ผ่านมา
genial. Danke. ;-) Die Audioqualität ist hier auch um einiges besser, wenn es so direkt abgespeilt wird, als wenn man es per mp3 speichert. In der mp3 ist irgendwie ein leichter Hall, oder es ist dumpfer. Klingt nicht so gut. Ne Idee dazu?
@pylotlight 24 วันที่ผ่านมา
What about via streaming like a live assistant with live instant voice?
@mikebyron4092 27 วันที่ผ่านมา
Kannst du meine Gedanken lesen. Hab gestern gerade versucht auf win 10 TTS zu installieren - ist so lala.. LG und Danke
@lystic9392 20 วันที่ผ่านมา
May require ffmpeg to be installed to be able to convert to mp3.
@jsxjohannes 25 วันที่ผ่านมา
Könntes du mal Videos über die Plattform hugging Face machen?
@runtime_error211 27 วันที่ผ่านมา ⁺¹
letztens bei Golem im podcast wer, der sein Model für deutsch vorgestellt hat, auch open und lokal nutzbar. bei hugging spaces Thorsten-Voice TTS.
@guido_aka_guy 27 วันที่ผ่านมา ⁺²
Ich finde die Stimme immer noch sehr unnatürlich, aber dennoch ein gutes Video. Es wird sicher noch Fortschritte geben und wenn die Software Deutsch spricht dann wird es noch einmal interessanter.
@pixelcatcher123 24 วันที่ผ่านมา
ich finde grad weil es sich so off anhoert hat es seinen charm
@crowATlinux 27 วันที่ผ่านมา ⁺²
Auf Windows nützt mir das leider nüx ^^
@TheMorpheusTutorials 27 วันที่ผ่านมา
Auf linux brauchst noch weniger zu tun 😂
@crowATlinux 26 วันที่ผ่านมา
@@TheMorpheusTutorials Und deshalb war der Aufwand so groß die Linux installation zu zeigen? ^^
@GoodSoulGermany 27 วันที่ผ่านมา ⁺¹
"Support English, French, Japanse, Korean, and Chinese" - Hmpf ...
@RainerK. 27 วันที่ผ่านมา ⁺¹
Wäre ja mal was gewesen, wenn es unter Windows gleich funktionieren würde :) Tut es nicht.
@RainerK. 27 วันที่ผ่านมา
Wohl noch ein prerequisite.
warn("Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work", RuntimeWarning)
@RainerK. 27 วันที่ผ่านมา
Hachja... ffmpeg.exe braucht man noch im Pfad.
@RainerK. 27 วันที่ผ่านมา
ffmpeg muss noch im Pfad sein.
@psyche1322 27 วันที่ผ่านมา ⁺¹
Tausend mal den Namen Kokoro gehört. 😢
@sèdnuvès 14 วันที่ผ่านมา
Verstehe die Begeisterung nicht.
Unterstützt kein IPA.
Ist nicht phonetisch.
Die Stimmen nutzen schon etliche andere TTS. (vermutlich die Mozilla TTS-Daten?!)
Der Sprachfluss ist extrem künstlich.
Da gibt es schon etliche OS-TTS für Linux, die deutlich besser sind und zudem Deutsch anbieten.
@howling-wolf 27 วันที่ผ่านมา ⁺¹²
Bitte mach auto dubbing aus! Meine Geräte sind auf english eingestellt und ich ekomme diesen digitalen Müll automatisch.
@bwabbel 27 วันที่ผ่านมา
Ja same. Gucke das jetzt deshalb mit newpipe, die stimme kann man sich einfach nicht geben
@feuerwolle 26 วันที่ผ่านมา ⁺¹
Genau, und bitte die Videos zukünftig im Hochformat, dann muss ich das Smartphone nicht drehen. :)
@minotaurusrpg 27 วันที่ผ่านมา ⁺⁴
Morpheus! Denkfehler!
Warum hat sich Windoof den Markt gekrallt?
Ursache: Alle machen Anwendungen für Windows: Willste das Programm, musst du Windoof.
Ich will auf die Denke hinaus: Hier, ich biete Hilfe / Anwendung XY, aber ihr MÜSST dann Linux User sein.
Es benutzen ja die Meisten Windows muss aus dem Bewusstsein gelöscht werden, auch wenn es erst mal aus der Komfortzone holt. EDIT: Sich interessant machen, Umkehr: Alle guten Tutorials / programme etc. gibt es ja nur für Linux. Dümpelt kurz- und mittelfristig, bereichert alle langfristig.
@RainerK. 27 วันที่ผ่านมา
Pythonkram ist eigentlich plattformunabhängig.
@coondog7934 27 วันที่ผ่านมา
Linu. wird erst dann für die Masse attraktiv, wenn es endlich an seiner Benutzerfreundlichkeit arbeitet. Nicht jeder möchte eigenständig in Foren auf Fehlersuche gehen um fundamentalle Probleme zu lösen. Bis dahin brauchst du dir groß keine Hoffnung machen. Wenn es ein OS für DAUs werden soll, na dann muss man es eben auch für DAUs entwickeln. Und solange bleibt eben Win. das go to OS für die Mehrheit.
Du machst dir deine Argumentation etwas zu einfach, denn für das aktuelle Nutzungsverhalten auf dem Markt gibt es auch immer Gründe und ein einfaches 'willste das, musst du Win' ist mit Sicherheit nicht die wirkliche Ursache, das ist eher die Konsequenz daraus, dass Lin. nicht hinterher kommt.
@coondog7934 27 วันที่ผ่านมา
Linu. wird erst dann für die Mehrheit attraktiv, wenn es endlich an seiner Benutzerfreundlichkeit arbeitet. Nicht jeder möchte eigenständig im Netz auf Fehlersuche gehen um fundamentalle Probleme zu lösen. Bis dahin brauchst du dir groß keine Hofnung machen. Wenn es ein OS für DAUs werden soll, na dann muss man es eben auch für DAUs entwickeln. Und solange bleibt eben Win. das go to OS für die Mehrheit.
Du machst dir deine Begründung etwas zu einfach, denn für die aktuelle Nutzung auf dem Markt gibt es auch immer Gründe und ein einfaches 'willste das, musst du Win' ist mit Sicherheit nicht die wirkliche Ursache, das ist eher die Konsequenz daraus, dass Lin. nicht hinterher kommt.
@minotaurusrpg 26 วันที่ผ่านมา
@@coondog7934 Wie gesagt, mit anderen Worten: Monetär macht es Sinn sich nach DAUs zu richten, aber eben nicht bei Menschen mit Denkvermögen. Zudem ist es auch nicht vernunftbasiert die breite Masse bloß nicht aus der Komfortzone zu holen. Je nach Distribution ist Linux nun schon wirklich sehr benutzerfreundlich. Ja, man muss sich 1-2 Wochen umgewöhnen, aber wenns funktioniert dann zuvelässig. Nicht wie bei Windows, das aus heiterem Himmel plötzlich irgendwas nicht mehr funktioniert -zumindest nicht in der eklatanten Häufigkeit wie bei Windoof.
@coondog7934 26 วันที่ผ่านมา
@@minotaurusrpg Nein, das stimmt so nicht. Wie oft ich schon Probleme mit irgendwelchen Treibern hatte, welche unter Lin. einfach nicht laufen wollten (oder erst gar nicht zu Verfügung standen).
Klar sind da die jeweiligen Hersteller in der Pflicht aber du kannst die nunmal nicht zwingen für eine Randgruppe (1-2 Prozent) Aufwand zu betreiben.
Die Masse hat sich nunmal auf das am einfachsten zu bedienende OS geeinigt und genau für dieses stellen die meisten Hersteller eben ihre Treiber und Programme bereit. Ich habe hier äußerst selten Probleme mit Win und falls doch, findet sich sehr schnell Hilfe im Netz.
@Pummelfee81 27 วันที่ผ่านมา
Pied
@badmax7319 7 วันที่ผ่านมา
Sag Bescheid, wenn es auf Deutsch kommt 😅
@coondog7934 27 วันที่ผ่านมา ⁺²
Bisschen weniger restriktive Kommentarregeln wäre mal was für diesen Kanal. Ständig wird irgendwas ausgeblendet, weil anscheinend irgendein Wort nicht konform ist, wirklich nervig.
Das ist einfach nur demotivierend, da kann man es auch gleich lassen seine Meinung zu teilen. Da unterstütze ich dann doch lieber etwas liberalere Kanäle.
@sw0xpitt706 26 วันที่ผ่านมา
Man kann auch den Google-Übersetzer benutzen, um sich etwas vorlesen zu lassen, ohne Installation und in vielen Sprachen verfügbar.
@hirnlager 27 วันที่ผ่านมา
ja toll ich lebe in deutschland, bin geborenn in deutschlanbd, warum soll ich english haben wollen oder können? ich möchte in deutschland arbeiten, leben.
@Seba557 27 วันที่ผ่านมา
dann programmiere es doch auf deutsch. Wo ist das Problem?
@hirnlager 27 วันที่ผ่านมา
@@Seba557 ok, welche ki ist da am besten geieignet zum programmierren???
@hirnlager 27 วันที่ผ่านมา
was brauche ich alles dafür???
@Seba557 26 วันที่ผ่านมา
@@hirnlager wenn du es nicht weißt, solltest du dich nicht beschweren, dass andere es so machen, wie sie es brauchen und es für sie am interessantesten ist. Die leben und arbeiten wohl nicht in Deutschland.
@rocko.smoderninvest6590 27 วันที่ผ่านมา
buh da gibt es bedeutetnet besser modele seit mindestens 8 monaten kann aber sein oder ist so das die auch bedeutent mehr leistung bracuhen also nicht böse gemeint aber buuhhh ^^.
@TheVisitorX 26 วันที่ผ่านมา
import soundfile as sf
from kokoro_onnx import Kokoro
import onnxruntime
from onnxruntime import InferenceSession
ONNX_PROVIDER = "CUDAExecutionProvider"
OUTPUT_FILE = "output.wav"
VOICE_MODEL = "af_bella"
session = InferenceSession("kokoro-v0_19.onnx", providers=[ONNX_PROVIDER])
kokoro = Kokoro.from_session(session, "voices.json")
samples, sample_rate = kokoro.create(text="This is a test", voice=VOICE_MODEL, speed=1.0, lang="en-us")
sf.write(OUTPUT_FILE, samples, sample_rate)
Benötigt allerdings Kokoro onnx

ต่อไป

เล่นอัตโนมัติ

Pinokio Computer: App Store for Open-Source AI [Tutorial]