Lo estuve probando la semana pasada, pero mientras siga sin soporte para español seguiré usando XTTS2. Y la calidad de audio tampoco me pareció tan espectacular después de haber oído lo que pueden hacer modelos como GPT-SoVITS V2.
Esta muy buena, y si además después lo traducís a español, o a cualquier otro idioma, con Filmora 14, queda buenísimo. Y podés poner o sacar y editar subtítulos, así que si unimos F5-TTS con Filmora 14, es un golazo. (Hay tutoriales de esta funcionalidad de Filmora 14, y es facilísimo, hasta yo lo pude hacer, ja ja ja 🤣).
Está muy bueno para ser un prototipo base, se escucha que el tono es mas agudo en cada Output, supongo que es por como está construido el modelo, pero aún asi conserva el estilo del hablante, muy bueno.
Gracias, gracias, gracias por Pinokio!!!! Para mi siempre ha sido difícil entender cómo instalar programas de IA, no siempre me funcionan, algunos como Sable diffusion para AMD han sido difíciles, pero lo he conseguido, pero otros? Imposible, algo siempre falla. Con este programa, todo se vuelve fácil!!
Me leíste la mente. Estaba ayer buscando algo así y estaba a punto de instalar Coqui tts pero ahora voy a probar este. PD: oh no está en español. Pues toca esperar 😢
buenas! Aca un argentino, estuve jugando con Coqui TTS, y salvo que seas español, no clona bien la voz para este idioma. Estuve probando puntualmente XTTS, que es lo mas "sencillo" de entender a la hora de leer e implementar la documentacion que tienen.
@@rincondepython en realidad estaba buscando algo que mejore la voz en locuciones para que suene más profesional y con mejor modulación. Igual creo que no me servía jaja
Genial, muchas gracias es una super herramienta, lamentablemente en local usando Pinokio no tiene soporte aun para español, crees que se actualice esta caracteristica en pinokio?
Que piensas sobre los doblajes? Parece simple con estas herramientas traducir a cualquier idioma. Meta tambien parece estar trabajando en algo de esto, dijeron que doblarian todos los videos de instagram a todos los idiomas.
Es algo que va a llegar antes o después (creo que ya hay alguna cosa por ahí, vaya) La cuestión es cómo manejarán los cambios de cadencia y ritmo entre distintos idiomas
Ayer justo lei un post, donde varios actores de dobaljes, locutores y demás que son freenlancer, decían que le había bajado las ofertas de trabajo por la IA un 80% y que muchos ya no son ofrecen sus servicios, y se dedican a otros proyectos mas estables. Pero hay que dejar claro, que el que sepa manejar las IA, fácilmente va poder crear un ministudio. Y con lo potente que se están volviendo las pc y el trabajo de la comunidad open source, va ser una locura en unos años.
Para mí el problema con el doblaje siempre ha sido el contexto. Es como la traducción de libros, pero peor. A mi me deja un poco fuera de onda, y peor cuando ultimamente hay doblajes mal hechos.
@@aokin1999 es verdad pero si te fijas el nuevo video que ha subido al canal ya se lo han traducido automaticamente a ingles, asi que parece que hay poco que debatir 😂
Dejo esto por aquí por si alguien quiere probar. He usado la clonación de mi voz con el chino. Le he pedido a ChatGPT que me diese un texto fonético en chino de unas 50 palabras (tal y como se lee con nuestras letras). Me he grabado los 15 segundos de rigor. Luego le he pedido un texto en chino a ChatGPT nivel A-1 o A-2 con caracteres chinos y le he plantado eso al modelo. Y bueno, sí ha funcionado. No he usado el de Pinokio, sino el de Hugging Face.
Jeje 15 segundos con ka GPU de la NASA que tiene Carlos, lo probe con una RX 6600 y demora 40mins con un audio nuevo, y al rededor de 10 minutos con el audio precargado, aún así, los resultados son espectaculares, mi novia es abogada y le hice una pequela broma, le pedi que me mandara un audio leyendo un parrafo en ingles que le mande, para evaluar su progreso en dualingo, luego clone su voz e hice una cesión de derechos verbal de sus bienes a mi persona jajaja
En mi caso está ejecutado en un Mac con un M2, no es un mal procesador pero no debería de generar tantas diferencias, así que revisa si tienes algo mal configurado
las IAs no funcionan bien con graficas AMD, todas se hacen especificamente para su uso en graficas de Nvidia, si quieres usar IAs en local tenes que comprar una grafica de Nvidia
@ tampoco es taaan asi, no desinformes. Hay muchos modelos que si corren en amd, pero es cierto el rendimiento y compatibilidad todavía esta muy lejos. Pero no es siempre asi como decis. Stable diffusions por ejemplo corre en ATI a aproximadamente un 0.7 de rendimiento
Yo estoy esperando un modelo opensource que nos permita hacer esto mismo pero no con texto sino con voz. En plan yo digo algo con mi voz y suena con la tuya.
Eso ya existe hace rato. ¿Cómo crees que hacen los covers de canciones con voces de artistas famosos? Investigá por ese lado, cómo hacer covers con IA y voces de famosos. Es de código y abierto, los odelos están principalmente en GitHub.
Esto que pides es muy facil de hacer, hay que pasar de voz a texto y de texto a voz... el unico problema por ahora es el delay de pasar de texto a voz porque no se podria hacer algo con sensacion de realtime como seguro que te gustaría
Sería interesante mejorar la calidad del audio con alguna herramienta como adobe podcast. Es bastante bueno el modelo, pero la voz suena robótica o como una voz con poco bitrate como la de llamadas telefónicas.
Al instalar e2-f5-tts en pinokio en local ¿con una tarjeta de 4gb gtx 1650 y 8 de ram es suficiente o que se necesita? porque al ejecutar e2-f5-tts en pinokio no me deja y se que se instalo bien pero me sale un link de nvidia y no el programa.
Hola estoy por comprarme un equipo con gpu, y aunque mi primera opción en mente es una Mac, quisiera saber si alguien ya usa la aplicación de Pinokio en un dispositivo de Apple y qué tal le va❔
Creo que habria un vacio legal, ya que si usas una voz de otra persona, la otra persona no estaria accediendo al uso de su voz ni como input ni como entrenamiento para un modelo de IA.
lo que no se puede hacer tambien es en publicacion, clona las voces que quieras como si son de famosos o conocidos, pero no lo subas o pubiques porque eso si es ilegal, la persona de la voz puede denunciar
ya hoy x hoy, podemos casi clonar a una persona en video haciendo lo que sea, si parece peligroso la parte de editar voces, vamos mal, el uso esta en la responsablidad de cada uno
sueño con el día que mediante una video llamada se traduzca mi audio en tiempo real y la de la persona con la que hablo para no tener mas barreras en el idioma
esto si seria un gamechanger tio, te imaginas hablar con un nativo aleman, y que te entienda el español sin pedo, y que tu le entiendas a el en una llamada por meet por ejemplo
No, Pinokio es una suite de herramientas de IA, LLM Studio de Google es una herramienta para crear Podcast con IA. Para mayor información pregunta a Chat Gpt xD
@@elmegapeluco Te columpiaste llm studio es algo similar a pinokio que permite descargar y ejecutar modelos de IA, pero va mas enfocados a llms, lo que tu hablas es notebookllm de google
@elmegapeluco Hola gracias por tu respuesta! Pero si no estoy mal me parece q llm studio no es de google, si lo es Notebook LLM, llm studio se instala en tu pc para poder correr diferentes AI de forma local. Por eso preguntaba la diferencia. Ya que El siempre lo promocionaba por eso qieria ssber la diferencia para El. Muchas gracias! Salidos atte.
Este hombre como puede estar en la GitHub Universe con Midudev y grabar un video chulísimo al mismo tiempo, un Crack!!
lo mismo me lo pregunté
@@luisfernanadoperezalvarado👀
Usa IA, se ha clonado y ahora hay varios Carlos Santanas dando charlas del uso de IA
@@XaviIntheHouse Eso mismo pensé, mueve las manos con un patrón repetitivo, está usando un avatar? xD
quien es midudev?
Porque lo grabó antes...
11:15 Suenas a scammer indú
eso mismo pensé
tal cual jaja
lo probé y no hay manera parezco actor indio de wooliwood
12:37 ...
No conocía pinokio ni ninguna herramienta de esta, menudo descubrimiento... gracias!
Descubriste a América (es broma)
Lo estuve probando la semana pasada, pero mientras siga sin soporte para español seguiré usando XTTS2. Y la calidad de audio tampoco me pareció tan espectacular después de haber oído lo que pueden hacer modelos como GPT-SoVITS V2.
ya esta en español
@@lamascara8080 Como se pone en español o es automatico?
@@lamascara8080 mm yo lo acabo de instalar, sigue chino y ingles nomas
@@lamascara8080 En pinokio sigue diciendo que los checkpoints solo soportan actualmente Inglés y Chino. Por qué dices que ya está en español?
@@pharry777 yo probe este y funcina bien en español
Gracias Carlos, esperaré a que salga en español. Ojalá publiques un video nuevo cuando eso suceda. Abrazo
no lo va a hacer. ya lo dijo en un twiter
@@rodrigov.9252 por?
Muchas Gracias por poner una tarea! me parece muy interesante ponerla en mi TODO list!
Que loco!!! y seria justo lo que necesito cuando uno de mis colegas anda de vacaciones y tiene que grabar jajaja!!!
Esta muy buena, y si además después lo traducís a español, o a cualquier otro idioma, con Filmora 14, queda buenísimo. Y podés poner o sacar y editar subtítulos, así que si unimos F5-TTS con Filmora 14, es un golazo. (Hay tutoriales de esta funcionalidad de Filmora 14, y es facilísimo, hasta yo lo pude hacer, ja ja ja 🤣).
Siempre que publicas un nuevo vídeo me sacas una sonrisa ❤❤
Se me hace loquísimo esto. Muchas gracias. Estudio linguistica y me encanta.
MUCHAS GRACIAS, esta buenisimo el ejemplo, saludos desde Guatemala.
Está muy bueno para ser un prototipo base, se escucha que el tono es mas agudo en cada Output, supongo que es por como está construido el modelo, pero aún asi conserva el estilo del hablante, muy bueno.
Gracias, gracias, gracias por Pinokio!!!! Para mi siempre ha sido difícil entender cómo instalar programas de IA, no siempre me funcionan, algunos como Sable diffusion para AMD han sido difíciles, pero lo he conseguido, pero otros? Imposible, algo siempre falla. Con este programa, todo se vuelve fácil!!
Muchas gracias por nombrarme!
Ansioso por el video de flow matching ❤
Como siempre excelente contenido y explicacion, super fluido y entretenido y claro lo mas importante. Saludos!
Gran vídeo. Esto avanza muy rápido, es apasionante!
Me leíste la mente. Estaba ayer buscando algo así y estaba a punto de instalar Coqui tts pero ahora voy a probar este.
PD: oh no está en español. Pues toca esperar 😢
😂
buenas! Aca un argentino, estuve jugando con Coqui TTS, y salvo que seas español, no clona bien la voz para este idioma. Estuve probando puntualmente XTTS, que es lo mas "sencillo" de entender a la hora de leer e implementar la documentacion que tienen.
@@rincondepython en realidad estaba buscando algo que mejore la voz en locuciones para que suene más profesional y con mejor modulación. Igual creo que no me servía jaja
¡Al fin! he estado esperando esto desde hace mucho :y
Genial, muchas gracias es una super herramienta, lamentablemente en local usando Pinokio no tiene soporte aun para español, crees que se actualice esta caracteristica en pinokio?
Que piensas sobre los doblajes? Parece simple con estas herramientas traducir a cualquier idioma. Meta tambien parece estar trabajando en algo de esto, dijeron que doblarian todos los videos de instagram a todos los idiomas.
Es algo que va a llegar antes o después (creo que ya hay alguna cosa por ahí, vaya)
La cuestión es cómo manejarán los cambios de cadencia y ritmo entre distintos idiomas
Ayer justo lei un post, donde varios actores de dobaljes, locutores y demás que son freenlancer, decían que le había bajado las ofertas de trabajo por la IA un 80% y que muchos ya no son ofrecen sus servicios, y se dedican a otros proyectos mas estables.
Pero hay que dejar claro, que el que sepa manejar las IA, fácilmente va poder crear un ministudio. Y con lo potente que se están volviendo las pc y el trabajo de la comunidad open source, va ser una locura en unos años.
Para mí el problema con el doblaje siempre ha sido el contexto. Es como la traducción de libros, pero peor. A mi me deja un poco fuera de onda, y peor cuando ultimamente hay doblajes mal hechos.
@@aokin1999 es verdad pero si te fijas el nuevo video que ha subido al canal ya se lo han traducido automaticamente a ingles, asi que parece que hay poco que debatir 😂
Ufff, clonación de muy buena calidad.
Se puede guardar en archivos de audio la voz clonada leyendo el texto?
Genial vídeo.
Todo muy claro. Gracias
Dejo esto por aquí por si alguien quiere probar. He usado la clonación de mi voz con el chino. Le he pedido a ChatGPT que me diese un texto fonético en chino de unas 50 palabras (tal y como se lee con nuestras letras). Me he grabado los 15 segundos de rigor. Luego le he pedido un texto en chino a ChatGPT nivel A-1 o A-2 con caracteres chinos y le he plantado eso al modelo. Y bueno, sí ha funcionado. No he usado el de Pinokio, sino el de Hugging Face.
Muchas gracias, excelente vídeo como siempre
muy interesante la herramienta, gracias! hay algun modelo de audio para Stable Diffusion?
Jeje 15 segundos con ka GPU de la NASA que tiene Carlos, lo probe con una RX 6600 y demora 40mins con un audio nuevo, y al rededor de 10 minutos con el audio precargado, aún así, los resultados son espectaculares, mi novia es abogada y le hice una pequela broma, le pedi que me mandara un audio leyendo un parrafo en ingles que le mande, para evaluar su progreso en dualingo, luego clone su voz e hice una cesión de derechos verbal de sus bienes a mi persona jajaja
En mi caso está ejecutado en un Mac con un M2, no es un mal procesador pero no debería de generar tantas diferencias, así que revisa si tienes algo mal configurado
@DotCSVLab wow, no esperaba respuesta, te sigo desde hace años, revisaré la configuración, gracias!, saludos desde Sinaloa.
@@angelbarraza3224 en una 3090 sencillita tarda solo 20 segundos... Quiza solo acepta CUDA y como tienes AMD te esta procesando con CPU?
las IAs no funcionan bien con graficas AMD, todas se hacen especificamente para su uso en graficas de Nvidia, si quieres usar IAs en local tenes que comprar una grafica de Nvidia
@ tampoco es taaan asi, no desinformes. Hay muchos modelos que si corren en amd, pero es cierto el rendimiento y compatibilidad todavía esta muy lejos. Pero no es siempre asi como decis. Stable diffusions por ejemplo corre en ATI a aproximadamente un 0.7 de rendimiento
Está super interesante la tecnología, con sus riesgos, pero interesante.
Increible! Eres un grande!
Brutaaaaal !!!
Muchas gracias por todo. Maestro!
Buenísimo!
Excelente! Lo quiero probar! Pero que salga Español Latam !
Me ha dado error de instalación pinokio y me faltan 3 paquetes de 8 he repetido dos veces la instalación Gracias Carlos.
Hay alguna IA que traduzca un audio de un idioma a otro, algo tipo voice2voice? Manteniendo ya sabes la entonación pausas etc...
Me viene. Al pelo para mí trabajo
buenisimoooooo, pero de que tarjeta de video mínimo estamos hablando????
Yo estoy esperando un modelo opensource que nos permita hacer esto mismo pero no con texto sino con voz. En plan yo digo algo con mi voz y suena con la tuya.
Da mal rollo tanto lo que quieres como tú foto
Eso ya existe hace rato. ¿Cómo crees que hacen los covers de canciones con voces de artistas famosos? Investigá por ese lado, cómo hacer covers con IA y voces de famosos. Es de código y abierto, los odelos están principalmente en GitHub.
Esto que pides es muy facil de hacer, hay que pasar de voz a texto y de texto a voz... el unico problema por ahora es el delay de pasar de texto a voz porque no se podria hacer algo con sensacion de realtime como seguro que te gustaría
@@bobobo1673 Si quiero hacer que DotCSV cante, con el texto no puedo.
@@jordirivero No busco realtime, busco grabar mi voz cantando algo, dárselo a la IA y que me lo devuelva con la voz de DotCSV cantando.
Pero me quede con la duda de que requisitos de hardware necesita para ser instalado?
A parte de cuanto texto soporta en una clonacion continua?
Hola amigo pero este programa de la voy puedo utilizar en mis videos de TH-cam sin problema para monetizar puedo
Sería interesante mejorar la calidad del audio con alguna herramienta como adobe podcast. Es bastante bueno el modelo, pero la voz suena robótica o como una voz con poco bitrate como la de llamadas telefónicas.
A ver si entre todos logramos que funcione en español
Estoy en ello ;)
@@jpgallegoar yo ya lo hice no es necesario que lo hagas crack
@@rodrigov.9252 compartelo porfa!
@@rodrigov.9252 comparte crack dale
@@jpgallegoar Que cambios estas haciendo para lograrlo?
Espectacular ⭐️⭐️⭐️⭐️⭐️
Crees que dentro de poco haya algo como el asistente de voz de openAI, pero opensource?
Podría ser este el final del increíble Ryzen 5 5600g. JAJAJA ganas de meterle mano me sobran, pero tampoco estoy tan seguro con la PC🖥.
Maravilloso 🤍✨✨✨
Hola Carlos y a toda la comunidad. Alguno ha podido correr esto en un Google Colab?
Ta chido 😃👍
Que peligro woow
Lo intenté pero no logro que genere un audio, siempre sale vacio. ¿A alguien más le ha pasado?
Yo tampoco lo consigo.
Al instalar e2-f5-tts en pinokio en local ¿con una tarjeta de 4gb gtx 1650 y 8 de ram es suficiente o que se necesita? porque al ejecutar e2-f5-tts en pinokio no me deja y se que se instalo bien pero me sale un link de nvidia y no el programa.
Si tienes pinokio e instalar modelos ia cuales son los requisitos recomendables para estos modelos? ram, tarjeta video etc. soy nuevo en esto
Pregúntale al gpt mi rey
@@Zirulnikoff no
Welcome to The Warning ❤❤❤
Puedes hacer un video cuando haya forma de utilizarlo en Español ??
Hey buenísimo esto
9:40 hazlo con critical drinker
esta bueno
Lo puedo encontrar en pinokio? Y pinokio me puede servir para otros modelos?
Gracias señor
Lo he probado con Pinokio y me muestra el siguiente error:
ENOENT: no such file or directory, stat 'C:\IA\pinokio\api\E2-F5-TTS\{{input.event[0]}}'
Se podrían usar estos modelos para que los usen los bots de tts de twtich?
omaigaaa
gracias joven
Mmmmm q nivel de pc necesitaríamos? Para usar pinokio
embarazosamente
Ojala este pronto en ESPAÑOL
13:00 Eres el estepario siberiano 🤣
Jejeje genial si es mi voz. En español es como si quisiera hablar en español agringado😂😂😂🎉
Se puede utilizar para canto
Hola Dot, que tal funciona en español?
Hay alguno funcional aunque de menor calidad utilizable desde Pinokio pero en español?
Genial
como podria saber para cada modelo dentro de pinokio, si mi hardware es adecuado?
No puedo creer que algo tan 'embarazosamente fácil' sea gratuito. ¿Alguno ya lo probó?
Gracias, aterra!
Es posible mejorar la calidad de audio, suena un poco latoso, imagino porque está muy comprimido
Esaaa
10:27 como crees que hablas ingles. 😎
11:14 como realmente hablas inglés. 🤣
Hola estoy por comprarme un equipo con gpu, y aunque mi primera opción en mente es una Mac, quisiera saber si alguien ya usa la aplicación de Pinokio en un dispositivo de Apple y qué tal le va❔
¿Si clonas la voz y entonces con IA la cambias un poco? no sería la misma voz y no sería ilegal
Creo que habria un vacio legal, ya que si usas una voz de otra persona, la otra persona no estaria accediendo al uso de su voz ni como input ni como entrenamiento para un modelo de IA.
lo que no se puede hacer tambien es en publicacion, clona las voces que quieras como si son de famosos o conocidos, pero no lo subas o pubiques porque eso si es ilegal, la persona de la voz puede denunciar
Este modelo el potencialmente peligrosoo, tengan ojito para las futuras clonaciones de voz... si alguien lo hizo y no lo publica, otro lo hará....
ya hoy x hoy, podemos casi clonar a una persona en video haciendo lo que sea, si parece peligroso la parte de editar voces, vamos mal, el uso esta en la responsablidad de cada uno
no me funciono , el audio que me da como resultado no aparece nada :c
A mi se me ha quedado parado en el punto 6 de 9 al instalar la demo F5-TTS.
Puedo usar tu voz para narrar mis videos?
Cuales son los requerimientos de Hardware? Como se si mi maquina aguanta esta demo
sueño con el día que mediante una video llamada se traduzca mi audio en tiempo real y la de la persona con la que hablo para no tener mas barreras en el idioma
La semana que viene sin falta
esto si seria un gamechanger tio, te imaginas hablar con un nativo aleman, y que te entienda el español sin pedo, y que tu le entiendas a el en una llamada por meet por ejemplo
Avísanos cuando esté disponible en español
Cuanto es el imput maximo de texto a leer. ??
Buenas! he visto que no funciona hacer ningun test en huggingface, te suena por que?
es mejor que whisper??
iguala o mejora a xTTS v2?
Chat GPT [Crea un título super creativo para mi modelo AI de texto a voz]
GPT: [modelo de voz creativa]
Pinokio es lo mismo que LLM STUDIO?
No, Pinokio es una suite de herramientas de IA, LLM Studio de Google es una herramienta para crear Podcast con IA. Para mayor información pregunta a Chat Gpt xD
@@elmegapeluco Te columpiaste llm studio es algo similar a pinokio que permite descargar y ejecutar modelos de IA, pero va mas enfocados a llms, lo que tu hablas es notebookllm de google
@elmegapeluco Hola gracias por tu respuesta! Pero si no estoy mal me parece q llm studio no es de google, si lo es Notebook LLM, llm studio se instala en tu pc para poder correr diferentes AI de forma local. Por eso preguntaba la diferencia. Ya que El siempre lo promocionaba por eso qieria ssber la diferencia para El. Muchas gracias! Salidos atte.
Poco a poco nos acercamos a la clonacion perfecta de las voces y asi poder hacer contenido en diferentes idiomas
Creo que ah{i mismo tenía el entrenamiento para entrenar en español.
El modelo en Higgingface ya no funciona, ahora da error!
Funcionara bien en español? :o
Ojala pronto le pongan español, ya q applio aun no me convence 😅
Cuando esté en español y más idiomas vuelve mostrarlo por favor
Cual era el nombre del narrador que dijo?