У меня тоже была задача выбрать для проекта offline движок для распознавания. Vosk, хоть и медленный, но фактически лучший. Почти все европейские языки, встроенный препроцессинг, возможность адаптации к акустической модели речи. Работает медленно + жрет память похлеще чем хромбраузер, но если поставить обработку в очередь, то норм. Кто-то спрашивал про телефонные записи: Vosk с ними справляется очень хорошо, к тому же он очень робастный к умеренным шумам. В среднем, если речь звучит разборчиво для человека, то Воск справится, если человек не разберет, то Воск тоже не поможет.
Я вот не понимаю эти карпорации google, yandex и др. почему все эти сервисы у меня на Андроид работают абсалютно бесплатно, а для разработчиков почему то платно?
У меня тоже была задача выбрать для проекта offline движок для распознавания. Vosk, хоть и медленный, но фактически лучший. Почти все европейские языки, встроенный препроцессинг, возможность адаптации к акустической модели речи. Работает медленно + жрет память похлеще чем хромбраузер, но если поставить обработку в очередь, то норм. Кто-то спрашивал про телефонные записи: Vosk с ними справляется очень хорошо, к тому же он очень робастный к умеренным шумам. В среднем, если речь звучит разборчиво для человека, то Воск справится, если человек не разберет, то Воск тоже не поможет.
Интересен обратный процесс по text to speech
Я вот не понимаю эти карпорации google, yandex и др. почему все эти сервисы у меня на Андроид работают абсалютно бесплатно, а для разработчиков почему то платно?
На ком-то нужно же заработать)))
Спасибо огромное за ролик! 🤝
Прикольно! А есть продолжение этой темы?
Mozilla DeepSpeech, Coqui надо было попробовать
Добрый день, а текста кода нигде нет?
Подскажите пожалуйста, нашли текст кода?
Спасибо
Хочется халявы😂