Cómo transcribir audio y video gratis usando Whisper y Python | Tutorial paso a paso

Platzi

มุมมอง 61 935

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 15 ม.ค. 2025

ความคิดเห็น • 87

@Dalajaa1Btk ปีที่แล้ว ⁺¹⁶
amigo, muy buen video y en verdad gracias por su tiempo y conocimiento, pero creo que varios tenemos el mismo problema, el repositorio se actualizo y no podemos convertir los archivos a formato srt y demas para subtitulos, le agradeceriamos de corazón que pudiese actualizar el video con esos cambios, feliz día =)
@Лабораторныйприбордляредактиро ปีที่แล้ว ⁺⁹
Hay una parte para identificar voces distintas?
@luisdatec ปีที่แล้ว ⁺¹²
Está bueno !! Habrá algún ejemplo para la transcripción de llamadas ? O alguna manera de identificar cambios de tonos en la voz ? Ya que sería necesario saber que persona está hablando.
@LastMiau ปีที่แล้ว ⁺¹⁴
Interesante, eso me recuerda cuando hice un software donde solo ponías el link de un video y lo transcribía (Creo que lo buscare para mejorarlo con este video :D )
@FelieroIngenieros ปีที่แล้ว ⁺²
tienes el software?
@seyrdz ปีที่แล้ว
la misma pregunta
@juanjosegomez143 9 หลายเดือนก่อน ⁺²
que significa y que puedo hacer? Si me aparece lo siguiente cuandp ejecuto: UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn("FP16 is not supported on CPU; using FP32 instead")
@hectorzavalapalacios6510 หลายเดือนก่อน
Que tu procesador no soporta instrucciones (si me equivoco) FP16 las cuales las soporta los nuevos procesador o las GPU
@yorius96 ปีที่แล้ว ⁺¹²
Actualizaron el repositorio y ahora no están esas utilidades :( alguien me ayuda a obtener el txt, vtt y srt ?
@Лабораторныйприбордляредактиро ปีที่แล้ว
Usa la versión que si las trae
@Dalajaa1Btk ปีที่แล้ว
@@Лабораторныйприбордляредактиро ¿y cómo se hace eso? la verdad soy nuevo y me esta costando mucho trabajo el hacer todo esto xD, llegue hasta esta parte "pd.DataFrame(result['segments'])[['id','start','End','text']]" de ahi en adelante todo mal =(
@benditascolmenas651 9 หลายเดือนก่อน ⁺⁶
Como el repo de whisper cambio, ahora hay que ejecutar el siguiente codigo:
import whisper
!whisper "/content/nombre_del_archivo.mp3" --model medium
Automaticamente se va a guardar el transcript en todos los formatos permitidos por whisper.
@nadietepregunto8890 ปีที่แล้ว ⁺⁷
Cambió todo el github de whisper :c logré importar las utils con: import WriteTXT, WriteVTT, WriteSRT pero para que genere los archivos no pude, no reconoce file=vtt o file=srt
@JuanManchola-f8t 9 หลายเดือนก่อน
th-cam.com/video/AEFeLcnokQw/w-d-xo.html
@miguelangelbelloavila2385 ปีที่แล้ว
Excelente servicio, te agregare a mis favoritos, gracias por el aporte felicidades
@emmanuelbarba2567 ปีที่แล้ว ⁺³
Alguien sabe cómo hace eso de 7:28 la parte donde solo selecciona el espacio para eliminar, a mí se me selecciona todo :(
@yarleinjulio8207 ปีที่แล้ว
Muchas gracias, excelente video.
@dcorralf ปีที่แล้ว ⁺³
Muy buen video !!. me pregunto cómo hace la transcripción Whisper, es decir, importamos el modelo etc., pero para hacer las traducciones entiendo que se conectará a una API de OpenAI no ?, si no no entiendo cómo puede hacer la traducción en cualquier idioma sólo descargándonos el modelo. Alguién lo sabe ?, muy buen video Platzi, genial ! voy a estar pendiente de la escuela de Data Science de Platzi, se vienen cosas muy interesantes !!
@antoniaprado5100 6 หลายเดือนก่อน ⁺¹
Hola! esta es mi primera vez programando, cuando pego los códigos es necesario ponerle el "!" que se ve en el video? Por otro lado, luego de que ejecuto el modelo me aparece este texto:
UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn("FP16 is not supported on CPU; using FP32 instead") Agradecería su ayudita :) gracias!
@Leo-Isaia 28 วันที่ผ่านมา
Buenas... si estás usando un Notebook como el de Google para poder escribir el código de terminal se antepone el !... si lo haces en local en tu pc, no es necesario.
Con respecto a los warnings que indicas, muchas veces son sólo advertencias pero informativas.. a menos que el código falle y debas prestarles atención, quizás sólo te indica que no pudo "cargar" o correr una cierta instrucción pero la reemplazó por otro.. otras veces te indica cuando algo está deprecado o próximo a serlo, pero el código corre igual.
Espero te sirva y suerte con eso.
@javieralvarez1690 ปีที่แล้ว ⁺¹
Gran video! ahora tutorial de texto a voz :D
@lucasdiaz1311 ปีที่แล้ว
En el traductor de google xd
@luis96xd ปีที่แล้ว
Excelente videos, gracias 😄
@juannicolasbaquerocollante3960 ปีที่แล้ว ⁺¹
No entendí eso de colab o dónde es que está metido para hacer esos comandos
@MONJE63 4 หลายเดือนก่อน
Es posible transcribir todos los videos de una pagina de youtube a texto de forma automatica?
@nicolashomez ปีที่แล้ว
bastante interesante este mini proyecto!
@AlbaRStudio23 ปีที่แล้ว ⁺²
Como puedo separar por la persona que habla en una conversación???
@aemauro2616 6 หลายเดือนก่อน
Hola, tambien transcribe mp4?
@danielavila1661 ปีที่แล้ว ⁺²
Chevere y todo, pero algo mas facil es subir el video a youtube y dejar que salgan los subtitulos y descargar el archivo
@JulioEliseoTorres ปีที่แล้ว ⁺³
Pero no queda con la misca exactitud.
@ZepiDragana5783 ปีที่แล้ว
no vi cunado instalaste python? ahi lo estas haciendo desde google cola , no?
@fernandachambi8144 ปีที่แล้ว ⁺¹
Disculpen a mi me salio esto -- UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn("FP16 is not supported on CPU; using FP32 instead") --- Que debo hacer?
@Ramon-jr2ho 11 หลายเดือนก่อน ⁺¹
es un problema de incompatibilidad en el hardware. Whisper utiliza FP16 (punto flotante de 16 bits) y tu CPU FP32 por eso no se ejecuta
@fernandachambi8144 11 หลายเดือนก่อน
muchas gracias@@Ramon-jr2ho
@rodrigoelestudiante683 7 หลายเดือนก่อน ⁺¹
2024 ya no esta txt, vtt, srt. Si alguien sabe otra forma, ayudeme
@felio 2 หลายเดือนก่อน
ejecuto el codigo (en windows, descargue con git e instale la dependencias) pero se congela en 20%, 30%...a alguien mas le pasa?
@felio หลายเดือนก่อน
Descargue directamente los moidelos y ya funciona 🥳😥
@uzielmenaperez8940 ปีที่แล้ว ⁺¹
Si funciona, solo la parte final ya cambio
@TheYoungGuy. 4 หลายเดือนก่อน
Hola. M esale el siguiente error al usar whisper:
import whisper
if '/' in name or '\\' in name:
TypeError: argument of type 'NoneType' is not iterable
que pasa :(?
@Leo-Isaia 28 วันที่ผ่านมา
tendrás espacios en las rutas a los archivos donde están alojados los audios?
@mariostel ปีที่แล้ว ⁺¹
Impresiona el proceso de transcripción de los archivos disponibles en youtube (copiar y pegar), sin embargo, la segmentación de frases todavía le falta exactitud, sobre todo en guiones no redactados previamente. Creo tener ya un proyecto decente para Platzi. Hasta ahora no he encontrado en la literatura recomendada por el curso de NLP nada sobre la distinta entonación de las mismas palabras según su posición en el segmento, es decir si van inmediatamente antes o después de una coma, punto, o signos exclamativos. Ya se por donde ir. Amo python.
@lucasmartinez121 ปีที่แล้ว ⁺²
cuando le doy ejecutar en el ultimo paso para cargar los archivos me sale este error TypeError: __init__() got an unexpected keyword argument 'file' alguien sabe cm arreglarlo?
@alejandroibanez4632 11 หลายเดือนก่อน
que tal? lograste solucionar esto? estoy con lo mismo
@onclicker5857 10 หลายเดือนก่อน
Toda la parte del SRT cambió. Podrías actualizar la info por medio de otro tutorial? Quedé perdido hasta los archivo srt, vtt txt. Ya el video quedó antiguo.
@natalifilms8258 11 หลายเดือนก่อน
me da error cuando pego el segundo codigo
@hectorcortes-s4r ปีที่แล้ว
buena su explicacion.. pero realmente es mucho mas simple de lo que ud explica son solo tres pasos en la pagina gracias
@kilexmo ปีที่แล้ว ⁺⁷
Y como se hace para indenticar los interlocutores. Por ejemplo en una entrevitas. Persona A y persona b?
@carcamofelipe ปีที่แล้ว
siiiiiiiii si alguiens sabe que comparta tengo la misma duda
@edwinpedroza5398 10 หลายเดือนก่อน
Negado, ando en busca de un transcriptor en el que introduzca el archivo de voz y el programa se encargue de transcribirlo sin tanta cháchara ni complicaciones de códigos que son para programadores.
@JuanManchola-f8t 9 หลายเดือนก่อน ⁺¹
aqui uno actualizado para poder guardar los subtítulos th-cam.com/video/AEFeLcnokQw/w-d-xo.html
@ErikaAranda-gi6nx ปีที่แล้ว
algun tutorial para hacerlo en visual studio code?
@garochaarte ปีที่แล้ว ⁺⁴
me sale este error: UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn("FP16 is not supported on CPU; using FP32 instead") si alguien me puede ayudar
@Isaax_63 ปีที่แล้ว ⁺²
Me pasa lo mismo
@solimarrodriguez8863 ปีที่แล้ว
Igual a mi… ¿cómo se arregla el error?
@jesusloor1606 ปีที่แล้ว
import warnings
warnings.filterwarnings("ignore", message="FP16 is not supported on CPU; using FP32 instead")
@jesusloor1606 ปีที่แล้ว
@@solimarrodriguez8863 import warnings
warnings.filterwarnings("ignore", message="FP16 is not supported on CPU; using FP32 instead")
@jesusloor1606 ปีที่แล้ว
import warnings
warnings.filterwarnings("ignore", message="FP16 is not supported on CPU; using FP32 instead")
@RobertoRuiz-bw8ln ปีที่แล้ว
Gracias por compartir. Es.posible transcribir en línea con Whisper.
@edwincolina426 ปีที่แล้ว
Como hago esto en termux
@rafaelalejandrobelalcazarb2081 ปีที่แล้ว ⁺¹
Mire este video y me dieron ganas de tutorial pasando de texto a voz desde colab
@danielavila1661 ปีที่แล้ว
Eso si estaría interesante
@federicoluisperez2965 ปีที่แล้ว
No funciona mas, se actualizo o que?
@nadietepregunto8890 ปีที่แล้ว
Si
@milord229 ปีที่แล้ว
gracias amigo :D
@ZMoriarty22 ปีที่แล้ว ⁺¹
FUNCIONAAAAA!!!
@stephyobandoaquice ปีที่แล้ว
Que capo
@danyr5951 ปีที่แล้ว ⁺¹
Y pensar que azure cobra un ojo de la cara por eso
@oscarquispesuarez3577 ปีที่แล้ว
Creo estudiar ingeniería de software para el futuro,no va Ser rentable chat gpt lo hará.
@comunidadhispanagaming7496 ปีที่แล้ว
le falto mas volumen
@richybambino ปีที่แล้ว
Uy, poco engorroso, creo que la eficiencia en cuanto a tiempo no es la más ideal, hay herramientas como Transkriptor que acepta todo tipo de audios y además videos y lo transcribe a Word, txt y otro formato y en segundos. es muy eficiente, lo malo que debes pagar por esa eficiencia.
@iPollitoR ปีที่แล้ว
De hecho el código fuente, lo sacan de aquí
@Axel-or6lk หลายเดือนก่อน
yo prefiero correrlo en local
@BedoyaEdison ปีที่แล้ว
Necesito una explicación para dummies, no entendí ni forro, no podrían haber hecho algo menos complicado?
@ivanvelez-d5p 7 หลายเดือนก่อน
Super difícil de realizar.Jajajaja Ya se lo aprendieron?
Forget It.😢
@wrangelsuarezmeguillanes1544 5 หลายเดือนก่อน
Mucha vaina el uso
@danielvalencia1981 ปีที่แล้ว
Primer comentario
@chicotemido3647 ปีที่แล้ว
De que sirve eso si no comentas nada? que ridicula gente como tu que solo hacen burradas
@chicotemido3647 ปีที่แล้ว
Hola Carlos, me inicio en esto del Python y me llamo mucho la atención la plataforma que usas para ejecutar el código. Como se llama? Hay algún tutorial para manejarlo? Oye y tengo otra pregunta, si tengo un video en Inglés, hay alguna manera de hacer la transcripción y traducirlo al español? Gracias por toda la ayuda que me puedas facilitar.
Me pareció interesantísimo esta herramienta que usas que definitivamente te tengo que felicitar por esto que nos enseñas y ME SUSCRIBO
@carlosgardellamerino9589 ปีที่แล้ว ⁺¹
Hola! La plataforma se llama Google Colab, es muy potente! te sugiero que busques más info sobre ella en youtube. Básicamente te permite escribir comandos en una hoja en línea ya sea en Python 3 o R, que se guardan en Drive, y ejecutarlos con una terminal prestada por google (tus comandos se envían por internet, se ejecutan en la terminal asignada, y se envía de vuelta el resultado).
Espero te sirva de ayuda!

ต่อไป

เล่นอัตโนมัติ

Cómo crear tu primer videojuego | Tutorial con Scratch