Спасибо за видео, часто приходится транскрибировать сессии. Пользуюсь сложной схемой-заливаю на ютуб и оттуда забираю автоматические субтитры. Попробовала Silero, ничуть не хуже сработало и даже быстрее.
Теплица социальных технологий я благодарю Вас :) и обстоятельства, Ваши рекомендации, советы за то, что они притянули мне такого профессионала разбираюшемся в своей сфере. Желаем Вам. Стрессоустойчивости. Океан энергии. Энергичности. Сердечного света. Мира в душе. Радостных эмоций Вдохновения в жизни и Вашем деле. Великое огромное спасибо за Ваше старания, усилие, многолетний опыт. Поддерживаем Вас искренне. Желаем Вам отличного самочувствия, бодрости тела и духа.Побольше бы таких людей как Вы. Благодарны Вам сильно присильно.Спасибо еще еще раз огромное преогромное. :)
Задался вопросом расшифровки голоса, когда начались проблемы со зрением и за экраном почти нереально стало работать. В дополнение к Whisper я нашел нейронки Vosk и NeMo (от Nvidia), последнюю так и не смог развернуть у себя на ПК. Будет отлично, если по каждой из этих сетей вы выпустите небольшой гайд по установке и скриптом для запуска и потом сравните их результаты.также интересен был кейс распознавания спикеров, но решения так и не нашел. Спасибо за ваш труд!
Не подскажете нейроночку, для перевода моего голоса с русского языка на другие языки (минуя процедуру перевода голоса в текст, а потом текст на другой язык)? Спасибо.
Если реально нужно то можно на своем компе это делать. Распознавать в текст с помощью whisper или vosk, переводить гуглом и озвучивать снова. Для всего по отдельности есть утилиты и можно легко соединить их питоном. Но качество такое себе, и у распознавания, и у перевода.
@@theurs2 коллега,спасибо за совет,но это очень муторно, а я знаю ,что есть возможность такого аудио перевода.Например ,как это делается с видео в браузере Yandex при просмотре,например роликов на TH-cam, Я попробовал залить тестовое видео на TH-cam, но нейросеть не сработала.
Вот лично мне "Гугл документы" вообще не понравились. Т.е. у меня где-то 20-30 % слов распознавались неправильно. При этом неважно, использую я микрофон ноута или гарнитуру. При таком раскладе лично мне проще печатать руками.
Было 666 лайков Я это Исправил. Спасибо буду пробовать. Запускал этот Whisper через Пиноккио Запускается но ничего не делает выдаёт ошибки сообщение Error: Requested float16 compute type, but the target device or backend do not support efficient float16 computation Или Ошибка: CUDA не удалась с ошибкой вне памяти Вроде и ноутбук Достаточно мощный оЗУ 16 Гб И всё равно...... Нет времени всё пробовать И так убил кучу времени. А где бы найти нормальный экзешник без танцев с бубнами Почему раньше всё работало в экзешниках а теперь приходится докачивать кучу библиотек запускать через терминал. Эпоха искусственного интеллекта...
зачем приписывать фразу "нейронка куда то не попадь))))))))))))))), в док документах google было и есть запись голосом текста БЕЗ нейронки и есть БЕЗ нейронки. минус
Голос в текст не, а вот переводить видео с русского на английский свои я имею в виду в более менее нормальном качестве ни как та же самая алиса было бы неплохо.
люди готовы платить 200 - 300 рублей за чашку кофе. Но платить 1-2 рубля за минуту распознавания речи уже жалко. За данными сервисами стоит высокоинтелектуальный труд программистов, работающее высокопроизводительное оборудование , множество других затрат.
Silero - отстой. Профессиональную запись двух людей свалила в кучу. Не понятно кто что говорит, да ещё в Эксель. Фтопку! Teamlogs гораздо лучше справился с этой же задачей.
а мне как раз понравился Silero, есть таймкоды, бесплатно. А у Teamlog -бесплатно только 15 минут первые и свалил двух спикеров одного. Единственное, что удобно- по слову включает аудио
Спасибо за видео, часто приходится транскрибировать сессии. Пользуюсь сложной схемой-заливаю на ютуб и оттуда забираю автоматические субтитры. Попробовала Silero, ничуть не хуже сработало и даже быстрее.
Спасибо! Радует еще то, что вы рекомендуете - сами используете, это внушает доверие. К примеру Perplexity и Vivaldi.
Теплица социальных технологий я благодарю Вас :) и обстоятельства, Ваши рекомендации, советы за то, что они притянули
мне такого профессионала разбираюшемся в своей сфере.
Желаем Вам. Стрессоустойчивости. Океан энергии. Энергичности. Сердечного света. Мира в душе. Радостных эмоций
Вдохновения в жизни и Вашем деле.
Великое огромное спасибо за Ваше старания, усилие, многолетний опыт.
Поддерживаем Вас искренне. Желаем Вам отличного самочувствия, бодрости тела и духа.Побольше бы таких людей как Вы.
Благодарны Вам сильно присильно.Спасибо еще еще раз огромное преогромное.
:)
Задался вопросом расшифровки голоса, когда начались проблемы со зрением и за экраном почти нереально стало работать. В дополнение к Whisper я нашел нейронки Vosk и NeMo (от Nvidia), последнюю так и не смог развернуть у себя на ПК. Будет отлично, если по каждой из этих сетей вы выпустите небольшой гайд по установке и скриптом для запуска и потом сравните их результаты.также интересен был кейс распознавания спикеров, но решения так и не нашел. Спасибо за ваш труд!
Я использую ютуб. Загружаю видео в закрытый доступ. Через пару часов (в зависимости от длительности) залажу в субтитры и забираю готовый текст.
Интересное решение. А еще можно загружать белый шум с зашитом файлом. Значит ютюб еще и файлхрагилище.
Интересно а субтитры сохраняют перевод или есть какой-то механизм?извините я во многом лузер,учусь
@@wnineзачем белый шум если есть модемный шум. Раньше на аудиокассетах программы загружали в древний комп типа поиска или спектрума
Спасибо. Интересен вопрос конфиденциальности, секретности транскрибации. Оффлайн
Гугл очень помог в свое время❤
Спасибо за видео) Сервисы топ
Спасибо за видео! Очень полезно. Вспомнила, то что забыла! Успехов всем нам!
Класс!
Как раз искал что-то такое.
Вот это совпадение 😊
Спасиюбо за интересное и информативное видео!
Спасибо большое, за информацию.
А под Windows что-нибудь есть? Не транскрибация файлов а перевод речи в текст в реальном времени с микрофона.
Не подскажете нейроночку, для перевода моего голоса с русского языка на другие языки (минуя процедуру перевода голоса в текст, а потом текст на другой язык)? Спасибо.
🎉 поздравляю у вас плюс один подписчик
Есть ли приложение дающее синхронный текстовый перевод в виде субтитров в режиме видео созвона, например Майкрософт Тим или Гугл Мит?
Добрый день! Подскажите,можно ли Whisper засунуть в UE5,а потом все упаковать в Vr шлем под андройдом 10 и чтоб еще работало и распознавал?)
Коллега,подскажите пожалуйста,есть ли сервисы ,которые позволяют с аудио на английском языке делать перевод аудио на русский язык?
Если реально нужно то можно на своем компе это делать. Распознавать в текст с помощью whisper или vosk, переводить гуглом и озвучивать снова. Для всего по отдельности есть утилиты и можно легко соединить их питоном. Но качество такое себе, и у распознавания, и у перевода.
@@theurs2 коллега,спасибо за совет,но это очень муторно,
а я знаю ,что есть возможность такого аудио перевода.Например ,как это делается с видео в браузере Yandex при просмотре,например роликов на TH-cam, Я попробовал залить тестовое видео на TH-cam, но нейросеть не сработала.
А с телефона это можно сделать??? Жля особо одаренных подскажите, пжл. 😅
На андроиде в стандартной клавиатуре от гугла есть микрофончик. один раз нажимаешь и через секунду можно диктовать текст в любое приложение.
Только любая пауза останавливает запись
очень полезная информация
Гугл keep не очень работает. Если в речи есть малейшая пауза, то он сразу останавливается.
От гугл есть специальное решение - "прямая расшифровка". Странно, что вместо него Google Kepp. Может в знаки препинания, предложения, абзацы.
@@gerkmp где находится прямая расшифровка?
@@gerkmp От души! Спасибо!
@@samsonprof приложение в Play Market.
От сбербанка есть переводчик. Как на сайте так и в телеге.
А как загрузить в закрытый доступ
огромное спасибо!!!
У гугл кип - качество звука очень плохое
Интересно обратное - текст в голос.
Максиме пжл, если найдёте сервис или приложение🙏
Вот лично мне "Гугл документы" вообще не понравились. Т.е. у меня где-то 20-30 % слов распознавались неправильно. При этом неважно, использую я микрофон ноута или гарнитуру. При таком раскладе лично мне проще печатать руками.
Чел, спасибо, но зачем так метать мышью по экрану, ну за что ты нас так?
Было 666 лайков Я это Исправил. Спасибо буду пробовать. Запускал этот Whisper через Пиноккио Запускается но ничего не делает выдаёт ошибки сообщение Error: Requested float16 compute type, but the target device or backend do not support efficient float16 computation Или Ошибка: CUDA не удалась с ошибкой вне памяти Вроде и ноутбук Достаточно мощный оЗУ 16 Гб И всё равно...... Нет времени всё пробовать И так убил кучу времени. А где бы найти нормальный экзешник без танцев с бубнами Почему раньше всё работало в экзешниках а теперь приходится докачивать кучу библиотек запускать через терминал. Эпоха искусственного интеллекта...
Ещё сам голосовой ввод в гугл клавиатуре
зачем приписывать фразу "нейронка куда то не попадь))))))))))))))), в док документах google было и есть запись голосом текста БЕЗ нейронки и есть БЕЗ нейронки.
минус
Голос в текст не, а вот переводить видео с русского на английский свои я имею в виду в более менее нормальном качестве ни как та же самая алиса было бы неплохо.
Золото!
люди готовы платить 200 - 300 рублей за чашку кофе. Но платить 1-2 рубля за минуту распознавания речи уже жалко. За данными сервисами стоит высокоинтелектуальный труд программистов, работающее высокопроизводительное оборудование , множество других затрат.
Если бы 1-2 рубля, но нет. Эти ироды просят подписки на 1000-2000 рублей в месяц, хотя это тебе один раз нужно, потом нах нужно будет
Ну это люди, а мы кофе не пьем.
Может мне теперь этим программистам трусы последние отдать?
А гже ссилки
Нет переводчика голоса говорящего человека? Обязательно надо в аудио записать....
Silero - отстой. Профессиональную запись двух людей свалила в кучу. Не понятно кто что говорит, да ещё в Эксель. Фтопку! Teamlogs гораздо лучше справился с этой же задачей.
а мне как раз понравился Silero, есть таймкоды, бесплатно. А у Teamlog -бесплатно только 15 минут первые и свалил двух спикеров одного. Единственное, что удобно- по слову включает аудио