Фидбэк по материалу: вы супер, ребята! Лучший контент по DL ever! Организационный фидбэк: С одной стороны понятно стремление sim0nsays сделать лекцию более доступной своими комментариями и вопросами, но такое лучше решать однократным прогоном (возможно он был), местами слишком перетягивал одеяло на себя, лекция выпала в подкаст.
Спасибо вам и всем лекторам, которых вы приглашаете. Но , имхо, это неудачная идея. Сужу по двум занятиям с приглашенными лекторами. Им то ли опыта в чтении лекций не хватает, то ли они переоценивают уровень слушателей, то ли, просто, взаимодействие двух лекторов мешает восприятию. М.б. я один такой неспособный, конечно. Но 10 "ваших" лекций я более менее понял, а с двумя "не вашими" - беда.
Всем остальным: да, забыл сказать. FFT и STFT -- это синонимы, просто FFT более общее название алгоритма ("быстрое преобразование фурье"), а STFT -- специализированное ("краткосрочное временное преобразование фурье").
Уточните, пожалуйста. Все-таки, в алгоритмах используется обычное преобразование фурье или оконное? Т.е. разбивается сигнал на части и каждую часть отдельно переводят в частотную область или переводим весь сигнал сразу в частотно-временную область?
@ Артем Баєв : да, жалко, что я не смотрел на онлайн-чат, мог бы сразу ответить на все вопросы: 1) дополнительные blank-символы в CTC -- абсолютно неважная часть реализации для краткого рассказа об этом алгоритме, а алгоритм ASG примерно так же работает на верхнем уровне, но без них. 2) использование raw audio или stft в wav2letter опять же абсолютно некритично для изложения. Да, в данной научной работе и в реализации wav2letter++ при включении соответствующего флага используется raw waveform, спасибо, в слайдах опишу явно!
@yuribaburov Огромнейшее спасибо за лекцию! Кайфанул! Ту же статью про DeepSpeech2 читал и не мог понять некоторые нюансы, которые Юрий разложил по полочкам. Благодарствую!
Автору на заметку: MFCC это аббревиатура mel frequency cepstral coefficients. Неплохо было бы рассказать, как и зачем это преобразование делается, т.к. оно применяется для препроцессинга фич почти во всех задачах, связанных с речью и со звуком вообще
Какие хорошие способы представления для многоканального временного ряда есть? Я для себя нашел CWT c morl и MTF. Очень неплохо в CNN это работает. Ещё может что-то лучше есть? GAF преимущества не дал дополнительных. Как правильно CNN совместить c LSTM и attention для таких задач, есть ли вообще в них смысл? Как правильно делать агументацию для временного ряда?
Здравствуйте. Спасибо за позновательное видео, правда смотрел его глубокой ночью. Начинаю потихоньку разбираться в теме распознавания речи (пока только теоретическая часть и достаточно поверхносто). Сейчас можно найти датасеты для обучения русской речи. Доступен датасет общей продолжительность примерно 5k часов, в статьях и на форумах пишут от том что для обучения желательно иметь датасет на 10k часов. Вопрос. Если обучить систему на наборе данных в 5k часов, можно ли потом произвести дообучение системы?
Какие-то ляпы на 7 минуте: 1) полоса узкая - как раз шумы-то и убираются (ведь они обычно ВЧ) 2) ухом майор слышит "бомба", а микрофон не слышит? Да ладно, и ухо, и микрофон эту частоту телефона воспринимают одинаково хорошо.
Простите, но эта лекция была просто ужасна, у Юрия не получилось толково и доступно объяснить тему speech recognition, но все остальные лекции просто ТОП, Семен - прекрасный учитель, после каждой лекции пользовался статьями, чужим кодом, сам разбирал каждую тему и все получалось
Фидбэк по материалу: вы супер, ребята! Лучший контент по DL ever! Организационный фидбэк: С одной стороны понятно стремление sim0nsays сделать лекцию более доступной своими комментариями и вопросами, но такое лучше решать однократным прогоном (возможно он был), местами слишком перетягивал одеяло на себя, лекция выпала в подкаст.
Спасибо вам и всем лекторам, которых вы приглашаете. Но , имхо, это неудачная идея.
Сужу по двум занятиям с приглашенными лекторами. Им то ли опыта в чтении лекций не хватает, то ли они переоценивают уровень слушателей, то ли, просто, взаимодействие двух лекторов мешает восприятию.
М.б. я один такой неспособный, конечно. Но 10 "ваших" лекций я более менее понял, а с двумя "не вашими" - беда.
Всем остальным: да, забыл сказать. FFT и STFT -- это синонимы, просто FFT более общее название алгоритма ("быстрое преобразование фурье"), а STFT -- специализированное ("краткосрочное временное преобразование фурье").
Уточните, пожалуйста. Все-таки, в алгоритмах используется обычное преобразование фурье или оконное? Т.е. разбивается сигнал на части и каждую часть отдельно переводят в частотную область или переводим весь сигнал сразу в частотно-временную область?
Благодарю, отличный материал. Юрий хорошо разложил по местам
@ Артем Баєв : да, жалко, что я не смотрел на онлайн-чат, мог бы сразу ответить на все вопросы: 1) дополнительные blank-символы в CTC -- абсолютно неважная часть реализации для краткого рассказа об этом алгоритме, а алгоритм ASG примерно так же работает на верхнем уровне, но без них. 2) использование raw audio или stft в wav2letter опять же абсолютно некритично для изложения. Да, в данной научной работе и в реализации wav2letter++ при включении соответствующего флага используется raw waveform, спасибо, в слайдах опишу явно!
@yuribaburov Огромнейшее спасибо за лекцию! Кайфанул! Ту же статью про DeepSpeech2 читал и не мог понять некоторые нюансы, которые Юрий разложил по полочкам. Благодарствую!
ГОСПОДА, ОГРОМНОЕ СПАСИБО!
Автору на заметку: MFCC это аббревиатура mel frequency cepstral coefficients. Неплохо было бы рассказать, как и зачем это преобразование делается, т.к. оно применяется для препроцессинга фич почти во всех задачах, связанных с речью и со звуком вообще
Какие хорошие способы представления для многоканального временного ряда есть? Я для себя нашел CWT c morl и MTF. Очень неплохо в CNN это работает. Ещё может что-то лучше есть? GAF преимущества не дал дополнительных.
Как правильно CNN совместить c LSTM и attention для таких задач, есть ли вообще в них смысл?
Как правильно делать агументацию для временного ряда?
Превью у ролика, конечно, топовое
О, Юра, земляк с академгородка)
Здравствуйте.
Спасибо за позновательное видео, правда смотрел его глубокой ночью.
Начинаю потихоньку разбираться в теме распознавания речи (пока только теоретическая часть и достаточно поверхносто).
Сейчас можно найти датасеты для обучения русской речи. Доступен датасет общей продолжительность примерно 5k часов, в статьях и на форумах пишут от том что для обучения желательно иметь датасет на 10k часов.
Вопрос. Если обучить систему на наборе данных в 5k часов, можно ли потом произвести дообучение системы?
Лучше раздуть данные, хотя, думаю, что вы уже и так это знаете :)
Thanks
Какие-то ляпы на 7 минуте:
1) полоса узкая - как раз шумы-то и убираются (ведь они обычно ВЧ)
2) ухом майор слышит "бомба", а микрофон не слышит? Да ладно, и ухо, и микрофон эту частоту телефона воспринимают одинаково хорошо.
Так тут говорится не про микрофон, а про то как какая-то модель классифицирует слово
а как же gboard on-device speech recognizer?
Какой-то это не настоящий лектор: количество "вот" и "ну" зашкаливает.
Простите, но эта лекция была просто ужасна, у Юрия не получилось толково и доступно объяснить тему speech recognition, но все остальные лекции просто ТОП, Семен - прекрасный учитель, после каждой лекции пользовался статьями, чужим кодом, сам разбирал каждую тему и все получалось