Deep Learning на пальцах 11 - Аудио и распознавание речи (Юрий Бабуров)

แชร์
ฝัง
  • เผยแพร่เมื่อ 3 พ.ย. 2024

ความคิดเห็น • 20

  • @zaleslawchannel
    @zaleslawchannel 4 ปีที่แล้ว +12

    Фидбэк по материалу: вы супер, ребята! Лучший контент по DL ever! Организационный фидбэк: С одной стороны понятно стремление sim0nsays сделать лекцию более доступной своими комментариями и вопросами, но такое лучше решать однократным прогоном (возможно он был), местами слишком перетягивал одеяло на себя, лекция выпала в подкаст.

  • @MrDima123123
    @MrDima123123 3 ปีที่แล้ว +10

    Спасибо вам и всем лекторам, которых вы приглашаете. Но , имхо, это неудачная идея.
    Сужу по двум занятиям с приглашенными лекторами. Им то ли опыта в чтении лекций не хватает, то ли они переоценивают уровень слушателей, то ли, просто, взаимодействие двух лекторов мешает восприятию.
    М.б. я один такой неспособный, конечно. Но 10 "ваших" лекций я более менее понял, а с двумя "не вашими" - беда.

  • @YuriBaburov
    @YuriBaburov 5 ปีที่แล้ว +20

    Всем остальным: да, забыл сказать. FFT и STFT -- это синонимы, просто FFT более общее название алгоритма ("быстрое преобразование фурье"), а STFT -- специализированное ("краткосрочное временное преобразование фурье").

    • @Shobergkirill
      @Shobergkirill 5 ปีที่แล้ว

      Уточните, пожалуйста. Все-таки, в алгоритмах используется обычное преобразование фурье или оконное? Т.е. разбивается сигнал на части и каждую часть отдельно переводят в частотную область или переводим весь сигнал сразу в частотно-временную область?

  • @alexkazimir3835
    @alexkazimir3835 3 ปีที่แล้ว

    Благодарю, отличный материал. Юрий хорошо разложил по местам

  • @YuriBaburov
    @YuriBaburov 5 ปีที่แล้ว +5

    @ Артем Баєв : да, жалко, что я не смотрел на онлайн-чат, мог бы сразу ответить на все вопросы: 1) дополнительные blank-символы в CTC -- абсолютно неважная часть реализации для краткого рассказа об этом алгоритме, а алгоритм ASG примерно так же работает на верхнем уровне, но без них. 2) использование raw audio или stft в wav2letter опять же абсолютно некритично для изложения. Да, в данной научной работе и в реализации wav2letter++ при включении соответствующего флага используется raw waveform, спасибо, в слайдах опишу явно!

  • @doslp
    @doslp 4 ปีที่แล้ว +1

    @yuribaburov Огромнейшее спасибо за лекцию! Кайфанул! Ту же статью про DeepSpeech2 читал и не мог понять некоторые нюансы, которые Юрий разложил по полочкам. Благодарствую!

  • @АндрейМельник-р4я
    @АндрейМельник-р4я 5 ปีที่แล้ว +3

    ГОСПОДА, ОГРОМНОЕ СПАСИБО!

  • @GlebSvirskiy-lb2yn
    @GlebSvirskiy-lb2yn 5 ปีที่แล้ว +3

    Автору на заметку: MFCC это аббревиатура mel frequency cepstral coefficients. Неплохо было бы рассказать, как и зачем это преобразование делается, т.к. оно применяется для препроцессинга фич почти во всех задачах, связанных с речью и со звуком вообще

  • @zzzCyberzzz
    @zzzCyberzzz 2 ปีที่แล้ว

    Какие хорошие способы представления для многоканального временного ряда есть? Я для себя нашел CWT c morl и MTF. Очень неплохо в CNN это работает. Ещё может что-то лучше есть? GAF преимущества не дал дополнительных.
    Как правильно CNN совместить c LSTM и attention для таких задач, есть ли вообще в них смысл?
    Как правильно делать агументацию для временного ряда?

  • @MrDima123123
    @MrDima123123 3 ปีที่แล้ว

    Превью у ролика, конечно, топовое

  • @alexanderstepanov6034
    @alexanderstepanov6034 5 ปีที่แล้ว +5

    О, Юра, земляк с академгородка)

  • @ec49ce96
    @ec49ce96 5 ปีที่แล้ว +1

    Здравствуйте.
    Спасибо за позновательное видео, правда смотрел его глубокой ночью.
    Начинаю потихоньку разбираться в теме распознавания речи (пока только теоретическая часть и достаточно поверхносто).
    Сейчас можно найти датасеты для обучения русской речи. Доступен датасет общей продолжительность примерно 5k часов, в статьях и на форумах пишут от том что для обучения желательно иметь датасет на 10k часов.
    Вопрос. Если обучить систему на наборе данных в 5k часов, можно ли потом произвести дообучение системы?

    • @romkathisisgood
      @romkathisisgood 4 ปีที่แล้ว

      Лучше раздуть данные, хотя, думаю, что вы уже и так это знаете :)

  • @aidenstill7179
    @aidenstill7179 5 ปีที่แล้ว +2

    Thanks

  • @alexanderskusnov5119
    @alexanderskusnov5119 3 ปีที่แล้ว

    Какие-то ляпы на 7 минуте:
    1) полоса узкая - как раз шумы-то и убираются (ведь они обычно ВЧ)
    2) ухом майор слышит "бомба", а микрофон не слышит? Да ладно, и ухо, и микрофон эту частоту телефона воспринимают одинаково хорошо.

    • @rizef2166
      @rizef2166 2 หลายเดือนก่อน

      Так тут говорится не про микрофон, а про то как какая-то модель классифицирует слово

  • @VictorSklyar
    @VictorSklyar 5 ปีที่แล้ว

    а как же gboard on-device speech recognizer?

  • @alexanderskusnov5119
    @alexanderskusnov5119 3 ปีที่แล้ว

    Какой-то это не настоящий лектор: количество "вот" и "ну" зашкаливает.

  • @tima_net3289
    @tima_net3289 2 ปีที่แล้ว +3

    Простите, но эта лекция была просто ужасна, у Юрия не получилось толково и доступно объяснить тему speech recognition, но все остальные лекции просто ТОП, Семен - прекрасный учитель, после каждой лекции пользовался статьями, чужим кодом, сам разбирал каждую тему и все получалось