Sergey Nikolenko
Sergey Nikolenko
  • 256
  • 163 386
Семинар СПбГУ -- 2024.12.25 -- Наследие Герберта Шлангеманна
Это шуточный доклад, сделанный для новогодней встречи в СПбГУ. В итоге получился вполне серьёзный обзор не слишком серьёзной темы: как люди и роботы писали, подавали и принимали фейковые статьи. В докладе довольно много sexual references и немного explicit language. Enjoy!
Разделы:
00:00 Введение, план, мотивация
02:15 Герменевтика квантовой гравитации
04:52 SCIgen, Шлангеманн, Корчеватель
09:00 Сколько статей от SCIgen приняли?
11:24 Эксперимент Боханнона
13:02 Get me off: Статья Питера Вамплю
14:40 Статьи Линдси и Богосяна по gender studies
17:35 As an AI language model...
21:35 Вопросы и обсуждение (только аудио)
มุมมอง: 436

วีดีโอ

СПбГУ -- 2024.12.14 -- Большие языковые модели
มุมมอง 1.8K28 วันที่ผ่านมา
Это лекция из курса "Глубокое обучение", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Основами байесовского вывода" и "Графическими вероятностными моделями". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2023.html Разделы: 00:...
СПбГУ -- 2024.12.12 -- Латентные диффузионные модели и модели, основанные на потоках
มุมมอง 39228 วันที่ผ่านมา
Это лекция из курса "Глубокое обучение", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Основами байесовского вывода" и "Графическими вероятностными моделями". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2023.html Разделы: 00:...
СПбГУ -- 2024.12.12 -- Экспоненциальное семейство, обобщённые линейные модели
มุมมอง 17728 วันที่ผ่านมา
Это лекция из курса "Основы байесовского вывода", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Графическими вероятностными моделями" и "Глубоким обучением". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2024.html Разделы: 00:0...
СПбГУ -- 2024.11.28 -- Априорные распределения Джеффриса
มุมมอง 181หลายเดือนก่อน
Это лекция из курса "Основы байесовского вывода", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Графическими вероятностными моделями" и "Глубоким обучением". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2024.html Разделы: 00:0...
СПбГУ -- 2024.11.28 -- Диффузионные порождающие модели
มุมมอง 407หลายเดือนก่อน
Это лекция из курса "Глубокое обучение", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Основами байесовского вывода" и "Графическими вероятностными моделями". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2023.html Разделы: 00:...
СПбГУ -- 2024.11.21 -- Gumbel-Softmax и DALL-E, CLIP, поиск по видео
มุมมอง 424หลายเดือนก่อน
Это лекция из курса "Глубокое обучение", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Основами байесовского вывода" и "Графическими вероятностными моделями". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2023.html Разделы: 00:...
СПбГУ -- 2024.11.21 -- Пример Джейнса, энтропия, принцип максимума энтропии
มุมมอง 291หลายเดือนก่อน
Это лекция из курса "Основы байесовского вывода", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Графическими вероятностными моделями" и "Глубоким обучением". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2024.html Разделы: 00:0...
СПбГУ -- 2024.11.14 -- Вариационные автокодировщики
มุมมอง 336หลายเดือนก่อน
Это лекция из курса "Глубокое обучение", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Основами байесовского вывода" и "Графическими вероятностными моделями". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2023.html Разделы: 00:...
СПбГУ -- 2024.11.14 -- Обучение равномерного распределения
มุมมอง 194หลายเดือนก่อน
Это лекция из курса "Основы байесовского вывода", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Графическими вероятностными моделями" и "Глубоким обучением". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2024.html Разделы: 00:0...
СПбГУ -- 2024.11.07 -- Информационные критерии Такеучи и Акаике
มุมมอง 1822 หลายเดือนก่อน
Это лекция из курса "Основы байесовского вывода", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Графическими вероятностными моделями" и "Глубоким обучением". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2024.html Разделы: 00:0...
СПбГУ -- 2024.11.07 -- Таксономия порождающих моделей и GAN
มุมมอง 4152 หลายเดือนก่อน
Это лекция из курса "Глубокое обучение", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Основами байесовского вывода" и "Графическими вероятностными моделями". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2023.html Разделы: 00:...
Семинар СПбГУ -- 2024.10.30 -- Что происходит в AI сегодня
มุมมอง 7K2 หลายเดือนก่อน
Это запись семинара, проведённого в Центре искусственного интеллекта СПбГУ 9 октября 2024 года. Название и абстракт: Что происходит в AI сегодня: научные направления и результаты Какие направления исследований определяют сегодняшний искусственный интеллект, что нового и интересного появилось за последние годы, кроме увеличения масштабов языковых моделей - а точнее, в дополнение к этому? Мы пого...
СПбГУ -- 2024.10.31 -- Байесовский выбор моделей
มุมมอง 2832 หลายเดือนก่อน
Это лекция из курса "Основы байесовского вывода", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Графическими вероятностными моделями" и "Глубоким обучением". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2024.html Разделы: 00:0...
СПбГУ -- 2024.10.31 -- Ещё о трансформерах
มุมมอง 7472 หลายเดือนก่อน
Это лекция из курса "Глубокое обучение", который читается на Факультете математики и компьютерных наук СПбГУ вместе с двумя другими частями курса машинного обучения "Основами байесовского вывода" и "Графическими вероятностными моделями". Все материалы этой и других лекций курса (слайды, доска, ноутбуки с кодом) размещены по адресу: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2023.html Разделы: 00:...
AIRI Seminars -- 2024.10.23 -- Юрий Куратов о длинных контекстах для LLM
มุมมอง 3562 หลายเดือนก่อน
AIRI Seminars 2024.10.23 Юрий Куратов о длинных контекстах для LLM
СПбГУ -- 2024.10.24 -- Внимание и трансформеры
มุมมอง 1.4K2 หลายเดือนก่อน
СПбГУ 2024.10.24 Внимание и трансформеры
СПбГУ -- 2024.10.24 -- Байесовский вывод для гауссиана
มุมมอง 2552 หลายเดือนก่อน
СПбГУ 2024.10.24 Байесовский вывод для гауссиана
СПбГУ -- 2024.10.17 -- Ближайшие соседи, проклятие размерности, bias variance noise decomposition
มุมมอง 2702 หลายเดือนก่อน
СПбГУ 2024.10.17 Ближайшие соседи, проклятие размерности, bias variance noise decomposition
СПбГУ -- 2024.10.10 -- Состязательные примеры, рекуррентные нейронные сети
มุมมอง 4152 หลายเดือนก่อน
СПбГУ 2024.10.10 Состязательные примеры, рекуррентные нейронные сети
СПбГУ -- 2024.10.10 -- Байесовский вывод в логистической регрессии
มุมมอง 2432 หลายเดือนก่อน
СПбГУ 2024.10.10 Байесовский вывод в логистической регрессии
Семинар СПбГУ -- 2024.10.09 -- Мечтаем ли мы об AGI
มุมมอง 2.4K2 หลายเดือนก่อน
Семинар СПбГУ 2024.10.09 Мечтаем ли мы об AGI
СПбГУ -- 2024.10.03 -- Распознавание объектов и сегментация
มุมมอง 4273 หลายเดือนก่อน
СПбГУ 2024.10.03 Распознавание объектов и сегментация
СПбГУ -- 2024.10.03 -- LDA и QDA, логистическая регрессия
มุมมอง 2853 หลายเดือนก่อน
СПбГУ 2024.10.03 LDA и QDA, логистическая регрессия
НИУ ВШЭ -- 2024.10.02 -- Рекомендательные системы в эпоху LLM
มุมมอง 7873 หลายเดือนก่อน
НИУ ВШЭ 2024.10.02 Рекомендательные системы в эпоху LLM
СПбГУ -- 2024.09.28 -- Байесовский вывод в линейной регрессии, основы классификации
มุมมอง 4273 หลายเดือนก่อน
СПбГУ 2024.09.28 Байесовский вывод в линейной регрессии, основы классификации
СПбГУ -- 2024.09.26 -- CNN и распознавание объектов
มุมมอง 4223 หลายเดือนก่อน
СПбГУ 2024.09.26 CNN и распознавание объектов
СПбГУ -- 2024.09.26 -- Линейная регрессия
มุมมอง 4433 หลายเดือนก่อน
СПбГУ 2024.09.26 Линейная регрессия
СПбГУ -- 2024.09.19 -- Байесовский вывод для монетки, вероятностные рассуждения
มุมมอง 5653 หลายเดือนก่อน
СПбГУ 2024.09.19 Байесовский вывод для монетки, вероятностные рассуждения
СПбГУ -- 2024.09.19 -- Сверточные нейронные сети
มุมมอง 4543 หลายเดือนก่อน
СПбГУ 2024.09.19 Сверточные нейронные сети

ความคิดเห็น

  • @IgnatBykov
    @IgnatBykov 10 วันที่ผ่านมา

    Про использование LLM - построение AGI, который и правда сможет заниматься наукой, выглядит важной задачей.

  • @channelattempt7820
    @channelattempt7820 10 วันที่ผ่านมา

    Очень интересно, спасибо!

  • @hsqlk
    @hsqlk 22 วันที่ผ่านมา

    А почему мы используем во внимание именно скалярное произведение, можно же по идее и другие преобразование? Да, с точки зрения вычисления это менее затратно, но это единственный фактор или есть другие?

    • @snikolenko
      @snikolenko 22 วันที่ผ่านมา

      какие другие, например? кажется, почти что угодно другое проще будет обучить как часть самого representation learning, если уж понадобится

    • @hsqlk
      @hsqlk 22 วันที่ผ่านมา

      @@snikolenko Например, косинусное сходство или вообще использовать Ядра

    • @snikolenko
      @snikolenko 22 วันที่ผ่านมา

      @@hsqlk косинус - это и есть скалярное произведение (для векторов единичной длины) :) Ядро как раз нейросетевая часть и выучивает, я об этом и говорил

    • @hsqlk
      @hsqlk 22 วันที่ผ่านมา

      @@snikolenko Подскажите пожалуйста, а как вы вообще все совмещаете?

    • @snikolenko
      @snikolenko 21 วันที่ผ่านมา

      ​@@hsqlk итс мэджик) на самом деле, если разобраться, "всего" не так уж и много -- очень надеюсь всё-таки доделать главное...

  • @igsor2009
    @igsor2009 25 วันที่ผ่านมา

    интересно, но есть ляпы(

    • @snikolenko
      @snikolenko 24 วันที่ผ่านมา

      какие?) мне есть где их исправить)

    • @igsor2009
      @igsor2009 24 วันที่ผ่านมา

      ​@@snikolenko Сергей, мне показались не ясно изложенными следуюшие моменты: 1. в статье про шиншилу - главная идея не про то, что модели можно сделать маленькими, а то, что существующие на тот момент модели тренировали на недостаточном объеме данных. Была выведена эмпирическая зависимость размера модели к кол-ву токенов, как 1:20 для достижения максимально эффективного обучения. Главный посыл на тот момент - мало данных в обучении. 2. использование tools работает иначе. Это не один запрос, как говорится в лекции (лектор полагает, что после генерации special token, каким-то образом вызывается калькулятор, который возвращает результат, и модель продолжает генерацию с учетом новых данных. На самом деле модель по описанию инструментов, которые ей доступны в данном конкретном запросе (просто передается по api и подставляется в контекст) генерирует структурированный ответ в виде имени функции (инструмента) и параметров, которые она подставляет исходя из контекста запроса. Обычно ответом модели является json. Далее агент на стороне клиента вызывает соответствующую функцию и возвращает результат в llm. Последняя начинает новую генерацию с учетом ответа от калькулятора. С натяжкой это можно сравнить с RAG, когда дополненный контекст представляет из себя ответ инструмента. Безусловно можно дообучить модель так, что она будет вызывать определенные инструменты, но на практике так не делается, тк это фактически hardcode practice. 3. В эпизоде про RAG полностью пропущен chunking и offline indexing. Лектор полагает, что документы передаются в контекстное окно. Иногда, некая доп модель может фильтровать информацию и возвращать контекст "вокруг хитов поиска". На практике ретривер возвращает чанки (документ целиком только в случае, если его размер меньше оптимального размера последовательности, на которой обучали эмбеддинговую модель. По состоянию на конец 24-го 512-8192, редко и дорого - 32000 токенов). RAG приложения постоянно занимают топ места в корпоративном сегменте и хотелось бы уделить этому особенное внимание. (проблемы выбора embedding model, types of chunking, reranking, hallucinations). Почему все еще нет универсальных графовых подходов? Большинство публикуемых исследований, многие из которых упоминались, не имеют практического выхлопа( Никто из слушателей не будет писать кастомные функции потерь или новые оптимизаторы, а вот знание лучших практик очень ценно. Сколько говорили про mamba. А в проде ее используют единицы. Почему? )) Тем не менее лекция интересная. Спасибо! Лайк я поставил)

    • @snikolenko
      @snikolenko 23 วันที่ผ่านมา

      ​@@igsor2009 спасибо! с (1) согласен, да про (2) я так и не понял, в чём разница между тем, что вы говорите, и тем, что я сказал в лекции, и даже тем, как вы передали то, что я сказал в лекции :) модель генерирует запрос с именем инструмента и параметрами, ей возвращают результат функции, она продолжает генерировать -- я так и сказал) я мог оговориться, но как соавтор, например, недавней статьи про Toolken+ я в целом в курсе, как оно устроено) (3) mamba в живой природе уже встречается, но этому методу всего меньше года, про трансформер в 2018-м то же самое можно было бы сказать; жизнь покажет, никто не утверждает, что mamba -- это ответ на все вопросы, может, и вообще другие ответы появятся и философский ответ на (3) -- смысл моих лекций вовсе не в том, чтобы рассказать, "что в проде": -- во-первых, на это и без меня много охотников, -- во-вторых, когда слушатель придёт к своему "проду" через несколько лет, там с большой вероятностью будет уже что-то другое; смысл лекций в том, чтобы рассказывать интересные идеи и давать общий контекст понимания машинного обучения так, чтобы слушатель потом смог легко разобраться в чём-то новом и подходить к этому новому с правильного угла зрения; рассматривать мои лекции как набор инструментов для применения в реальной практике, думаю, скорее вредно, чем полезно) до практики есть ещё как минимум важный слой инженерии, о котором я совсем ничего не говорю в этом контексте mamba -- несомненно одна из самых интересных идей за последний год

    • @snikolenko
      @snikolenko 23 วันที่ผ่านมา

      ​@@igsor2009 а, да, про RAG не ответил -- да, конечно, всё так и есть, как вы пишете; chunking -- это как раз та самая инженерия, о которой я не особенно говорю :) а идейно, конечно, ясно, что полные даже результаты поиска в контекст скорее всего не влезут, это я упоминал, кажется

    • @igsor2009
      @igsor2009 22 วันที่ผ่านมา

      Вы правы, я практик, и читаю статьи в основном с позиций того, что можно использовать в реальных приложениях. Именно сейчас, смотрю обзоры про o3. Скорость прогресса когнитивных способностей поражает! Всем добра)

  • @romanroman5226
    @romanroman5226 25 วันที่ผ่านมา

    Классный контент !!

  • @YaroslavSivakov
    @YaroslavSivakov 29 วันที่ผ่านมา

    Спасибо! Удивлён, что лайков нет, Сергей, кажется, чуть ли не единственный, кто в русском ютубе про это всё так углубленно рассказывает.

    • @hsqlk
      @hsqlk 24 วันที่ผ่านมา

      Он так же единственный, кто из ML участвует в «Что?, где?, когда?»

  • @Tiki-n47
    @Tiki-n47 หลายเดือนก่อน

    какой же неприятный тип, этот коментатор на 1:28

  • @ocamlmail
    @ocamlmail หลายเดือนก่อน

    Здравствуйте. 25:16 А нету ошибки со вторым слагаемым A_t -- там же (1- alpha_t) * alpha_{t - 1} * alpha_{t - 2} ? Т.е. на 23:55 там же (1-alpha_{t} ) alpha_{t-1} , а не 1-alpha_{t} * alpha_{t-1}.

    • @snikolenko
      @snikolenko หลายเดือนก่อน

      здравствуйте, да вроде тут как раз всё правильно, мы к (1-alpha_{t} ) прибавляем (1-alpha_{t-1} ) alpha_{t}, а потом к этому (1-alpha_{t-2} ) alpha_{t-1} alpha_{t}, и так далее

    • @ocamlmail
      @ocamlmail หลายเดือนก่อน

      @@snikolenko Да, пропустил объяснение на 23:00.

  • @spgc239
    @spgc239 หลายเดือนก่อน

    Сергей, почему, на ваш взгляд, TensorFlow сдает позиции?

    • @snikolenko
      @snikolenko หลายเดือนก่อน

      === -- hi! why do you think tensorflow lost to pytorch? -- Hi Sergey! The "loss" of TensorFlow to PyTorch in certain domains, especially academic research and cutting-edge machine learning development, is a multifaceted issue. Here are some of the key reasons why PyTorch has gained a strong foothold over TensorFlow: 1. User-Friendly Design Eager Execution: PyTorch initially offered a dynamic computation graph (eager execution) by default, which aligns closely with Python's native programming style. TensorFlow originally used static computation graphs, requiring a session-based API that was cumbersome for rapid prototyping and debugging. While TensorFlow introduced eager execution later, PyTorch had already gained significant traction. Intuitive Syntax: PyTorch's syntax feels more Pythonic and approachable for many developers, especially those from non-professional software engineering backgrounds. 2. Research and Academia Adoption by Researchers: PyTorch quickly became the go-to library for researchers because of its ease of use for developing new models and algorithms. It significantly simplified writing and testing experimental code, which is critical in research. Paper Implementations: Many researchers started releasing implementations of their papers in PyTorch, creating a network effect that encouraged further adoption in the research community. 3. Community and Ecosystem Community Momentum: PyTorch benefitted from a growing and enthusiastic community that drove rapid improvements and provided ample support through forums and GitHub. Integration with Research Libraries: Many newer ML libraries and tools (e.g., Hugging Face Transformers, Lightning AI) either started with or favored PyTorch, further strengthening its position. 4. TensorFlow's Early Complexity Confusing APIs: TensorFlow's early versions were criticized for having inconsistent and verbose APIs. It wasn't until TensorFlow 2.x that significant improvements were made, but by then, PyTorch had already captured a large portion of the developer and research market. Backward Compatibility Issues: TensorFlow's updates sometimes broke backward compatibility, frustrating developers who had to refactor their code. 5. Industry Adoption While TensorFlow remains popular in industry settings due to its production-ready features (e.g., TensorFlow Serving, TensorFlow Lite, and TensorFlow.js), PyTorch has significantly closed this gap with frameworks like TorchServe and ONNX support. PyTorch's ease of use started appealing to companies looking to prototype and deploy models quickly, especially as it matured and became more production-ready. 6. Facebook's Strategic Push Facebook (Meta) invested heavily in PyTorch's development and promotion. It was also made the default backend for many of Meta's ML projects, demonstrating its robustness in real-world applications. 7. Open Governance PyTorch's transition to the PyTorch Foundation, a Linux Foundation project, signaled a commitment to open governance and transparency. This has been seen as an advantage over TensorFlow's tighter association with Google. 8. Momentum and Perception Once a tool gains significant momentum, it becomes the de facto standard in certain communities. This phenomenon reinforced PyTorch's dominance in research as more tutorials, courses, and models were written for it. TensorFlow's Strengths It's worth noting that TensorFlow is far from "losing" in an absolute sense. It remains dominant in certain areas: -- Production and Deployment: TensorFlow's ecosystem for production is robust, including tools like TensorFlow Extended (TFX) and TensorFlow Lite for mobile and embedded devices. -- Cross-Platform Compatibility: TensorFlow supports deployment on diverse platforms, making it highly versatile. -- Corporate Adoption: Many companies with existing TensorFlow workflows continue to use it due to familiarity and the cost of transitioning. In conclusion, PyTorch's ascendancy is due to a combination of technical advantages, community engagement, and strategic choices. TensorFlow's pivot towards simplicity with TensorFlow 2.x came too late to reverse PyTorch's momentum in research and development. However, both frameworks have carved out strong niches, and the competition continues to push innovation in the ML ecosystem. === couldn't put it better myself :)

    • @snikolenko
      @snikolenko หลายเดือนก่อน

      самое смешное, что после этого ответа приложение GPT выдало плашку: "For the most complete and up-to-date information about the U.S. Election, please visit news sources like The Associated Press, Reuters, or check with your state or local election authority." так что если вдруг на выборы TensorFlow vs. PyTorch позовут, держите в курсе :)

  • @user-ps5zp7de5c
    @user-ps5zp7de5c หลายเดือนก่อน

    Спасибо за семинар. На будущее, организаторы исправьте звук микрофона для людей в помещении, из-за искажения вопросы были не слышны. Интересно было-бы увидеть Вашу лекцию посвященную KAN. Сейчас говорят, что ChatGPT для обработки запросов требуются мощные чипы видеокарт. Сергей, как Вы думаете сеть KAN будет также требовательна к видеокарте по сравнению с ChatGPT? На какие сайтах Вы отслеживаете новые статьи по нейросетям, в частности по теме KAN?

  • @SergeySK
    @SergeySK หลายเดือนก่อน

    Мне кажется интеграл (sigma^2)^(-3/2) все таки расходится. Проблема будет в нуле.

    • @snikolenko
      @snikolenko หลายเดือนก่อน

      ваша правда)

    • @SergeySK
      @SergeySK หลายเดือนก่อน

      @ хочу поблагодарить за замечательные лекции очень познавательно! Особенно по байесовской части.

    • @snikolenko
      @snikolenko หลายเดือนก่อน

      @@SergeySK спасибо на добром слове! в этом курсе только байесовская часть и есть :)

  • @ИльяМурзин-г2т
    @ИльяМурзин-г2т หลายเดือนก่อน

    Здравствуйте, большое спасибо за лекцию, подскажите, почему в VQ-VAE z представляет собой именно матрицу кодовых слов 1:12:37

    • @zaharvarfolomeev1536
      @zaharvarfolomeev1536 หลายเดือนก่อน

      Потому что энкодер состоит из сверточных слоев, там получается тензор, карты признаков :)

  • @artemmikheev8030
    @artemmikheev8030 หลายเดือนก่อน

    Спасибо за лекцию. Я немного не понял, почему обученные эмбединги в VQ-VAE соответствуют condition text. Подтягиваем ведь к ближайшему соседy в словаре, а он может соответствовать любому какому-то токену. Видимо мы уже после сопоставляем condition нужный токен (центр кластера) . И в inference мы из condition как получаем эмбединг (тензор токенов для decoder)?

    • @snikolenko
      @snikolenko หลายเดือนก่อน

      В самом VQ-VAE нет никакого условия; текстовые условия появляются позже, вот в DALL-E, например, где последовательность графических токенов пишет трансформер

  • @lacroix1679
    @lacroix1679 หลายเดือนก่อน

    Спасибо за доклад! А где-то можно посмотреть презентацию? Интересуют ссылки оттуда

  • @alexmartov5367
    @alexmartov5367 หลายเดือนก่อน

    Картина апокалипсиса из-за AI нарисована достаточно убедительно. Я верю в то, шансы апокалипсиса достаточно высоки. Но думаю, к апокалипсису приведет не AI, а алчность и беспринципность капиталюк. Ранее, в бытность сссре коммуняки как то уравновешивали капиталюк. Но сегодня благодаря предательству демшизы, предавшей в 90-х годах трудовой народ сссре и обильно обкукарекавшей коммуняк куриным пометом, сложилась такая ситуация, что алчность капиталюк уже некому ограничивать. Так вот они то и угробят матушку-планету. А задним числом спишут всё на AI, на бунт машин. Сами же свалят на Марс. Он уже сейчас готовятся понемногу. Недаром Маск и Трамп так радуются успешным запускам сверхтяжелых ракет.

  • @AlexAlex-jo9xd
    @AlexAlex-jo9xd หลายเดือนก่อน

    Коммент чтобы быстро найти потом видео

  • @РусланИзмаилов-я9о
    @РусланИзмаилов-я9о หลายเดือนก่อน

    Сделайте про потоки, пожалуйста

  • @JaqUkto
    @JaqUkto 2 หลายเดือนก่อน

    Очень посредственный лектор, объяснять не умеет

  • @НайомиСи
    @НайомиСи 2 หลายเดือนก่อน

    Можно узнать больше подробностей про то как шум помогает в оптимизации линейной регрессии или где почитать можно об этом?

    • @snikolenko
      @snikolenko หลายเดือนก่อน

      не уверен, что значит "помогает", но шум просто есть в предположениях) иначе откуда бы взялась функция ошибки...

  • @Opterium-BTC
    @Opterium-BTC 2 หลายเดือนก่อน

    Используемые способы получения данных с нейронок не правильны, потому все упёрлись в наращивании мощности и потребление эл. Существуют способы быстрее и дешевле. Жаль что мир застрял на таком этапе.

    • @soen2368
      @soen2368 2 หลายเดือนก่อน

      так пользуйтесь моментом. выводите свой продукт или статьи.

    • @Opterium-BTC
      @Opterium-BTC 2 หลายเดือนก่อน

      @soen2368 Вы слишком оптимистичны. Реализация любой идеи крайне затруднена. Инвесторы же не вкладываются в новые продукты, выгоднее работать на отлаженной системе рисков. И ещё существует ряд сложностей не дающих даже лёгкой надежды на положительный результат для заявителя. Кроме проблем от этого ничего не нажить. Статьи ваши дадут кому то пропиариться и разбогатеть, вам же только проблемы гарантированы.

    • @soen2368
      @soen2368 2 หลายเดือนก่อน

      @@Opterium-BTC оу ну с таким подходом человечество и огонь с колесом бы не изобрели.

    • @Opterium-BTC
      @Opterium-BTC 2 หลายเดือนก่อน

      @soen2368 Так и не изобрели, хотя ваш пример не в тему. Человек не изобретал ни огонь ни колесо.

    • @soen2368
      @soen2368 2 หลายเดือนก่อน

      @@Opterium-BTC перешли к софистике? ясно. полагаю изобретения не Ваш конек

  • @bbrother92
    @bbrother92 2 หลายเดือนก่อน

    @snikolenko Sergey могу у вас спросить. Что вы думаете про ближайшие 5 лет - упрутся ли ML технологии в потолок из-за нехватки gpu или возможностей памяти? Еще хотел спросить всетакие - смогут ли сделать не языковые нейронки - для пространственного обучения? Или же первые легкие плоды уже собраны а дальше нас ждет ИИ зима и небольшие оптимизации без сильного прогресса в сторону настоящего ИИ. Спасибо

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      Я думаю, зима точно не ждёт -- если даже прогресс полностью остановится на GPT-5, просто тщательное "выдаивание" возможностей LLM, которые уже есть (но пока не очень широко используются), изменит мир в ближайшие годы очень сильно. "Зима" -- это ведь скорее про бизнес и хайп, чем про конкретные достижения науки. А будет ли в ближайшие годы именно AGI и как сильно GPT-5 будет отличаться от GPT-4, а GPT-6 от GPT-5 -- этого я не знаю; Сэм вот опять давеча сказал, что будет, но кто ж его знает на самом деле...

    • @bbrother92
      @bbrother92 2 หลายเดือนก่อน

      @@snikolenko Просто кажется, что базовые задачи уже отлично решаются. А вот к сложным не связанным с текстами не подобраться

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      @@bbrother92 роботика пока ждёт своего ChatGPT moment, но кажется, что он уже не за горами; а какие ещё после этого останутся "не связанные с текстами задачи"? :)

    • @bbrother92
      @bbrother92 2 หลายเดือนก่อน

      @@snikolenko Ну пока что непонятно как готовить данные для логических задач да и вообще, что является минимальным элементов в такие задачках на логику. То это математическое мышление толи пространственное. ГПТ все еще дико валится на таких задачах, могу скрин скинуть. Картинки, звук, тексты это все было в достатке поэтому этот орех раскалоли, слава биг дате. Но а дальше что, не упремся ли мы в потолок сегодня как это было с релейной техникой в 30х-50х годах до появления транзистора.

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      ​@@bbrother92 тут у меня есть надежда на o1-подобные идеи; надежда не математически обоснованная, но интуитивно ведь мы это и делаем, когда рассуждаем: опираемся на промежуточные результаты, сформулированные нами же ранее мне кажется, главный следующий прорыв -- хорошо добавить в LLM "рабочую память" для этих рассуждений; про это есть миллион статей, но, видимо, пока окончательного ответа не появилось; но здесь, согласитесь, трудно сомневаться, что так или иначе это получится

  • @crossbound9645
    @crossbound9645 2 หลายเดือนก่อน

    Спасибо за семинар! После него появился интерес посмотреть работы по сжатию данных с помощью KAN

  • @oyserg
    @oyserg 2 หลายเดือนก่อน

    Большинство упорствует и не с той стороны отвечает на вопрос: что происходит в ии? Более простой и жизненный ответ: распил. Начиная с 60-ых, каждые +/-20 лет, расчехляют ржавую пилу и пилят на хайпе гранты, да прочие бюджеты. В этот раз, слава всем святым котикам ютуба(данным) и гигагерцам(gpu слава) есть хоть то, чем можно дурачить не просто бабушку гуманитария, но и заказчика готового платить. В современном мире, где технологии соседствуют с махровым средневековым мракобесием, так тяжело определить реальное положение дел даже если в теме десяток другой лет. Для большенства же это магия, которая завтра захватит мир. Бу. Паника. Титры. Чтобы понять, в какое прекрасное время живëм и где во всëм этом место науки, а не рекламы и хайпа, откройте(гулится легко) для себя проект openworm. В нем пытаются, без особых успехов(авторы не согласятся), моделировать не человека и его интеллект, а житиë бытиë относительно простого червя на 302 нейрона. Это, на минуточку, передний край возможностей в построении интеллектуальных систем целого человечества или около того. Не достижимый сегодня край. При этом вполне успешно можно играть в имитационное таинство для обывателя. Мозг потребителя домыслит, достроит, сгладит углы и обоснует любую похожую на интелектуальность дичь. В конце концов в облаках мы видим же лошадок, да лебедей, чем ии хуже. Разработчики в конце попила согласятся, что всë не идеально и скажут, что опять не хватило данных, памяти и/или герцев. Что в переводе на инвесторский: дай больше денег и тогда уж точно получится. Но не получится, потому, что нет главного - алгоритмов. У нас есть модели того, как живут и развиваются далекие галактики. Если опять сломаются, поменяем не в первой переобуваться на лету. Но у нас Нет ни одной рабочей модели для мозга с позиции обработки данных. Такой, чтобы не противоречила всему накопленному объëму существующих исследований целиком. Современные искусственные нейросети работают на моделях середины сороковых годов прошлого века. С тех пор много, что было открыто, что эту модель должно было отменить ещë лет 50 назад. Но этого не произошло и не произойдет. Математики, если представить, что среди этой инженерии они вообще есть, не хотят особо знать, что там у нейрофизиологов за последние 70 лет произошло. Им лучше взвешенные пороговые суммы теребить, из них можно хоть пуделя, хоть кракодила вылепить. И пока худо бедно лепится, лепить будут до последнего гранта. Бизнес которому только норма прибыли важна будет пользовать, ии что есть. Потому, что хайп, потому, что иногда это может оптимизировать затраты. Там где не дает деньги, будут использоваться обычные оптимизационные алгоритмы с прогнозируемым результатом. То есть ии, как вещь требуемая фундаментальных(аля Манхетенский проект) исследований не нужна тем кто деньги платит. Не понятно, как это фундаментальное монетизировать, да и хватит ли мозгов понять мозги. А без этих исследований будут и дальше фокусы показывать и сокрушаться, что опять не хватило, денег дайте.

  • @alexandrzaycew2887
    @alexandrzaycew2887 2 หลายเดือนก่อน

    Для чего везде гербы нарисованы? Свастикой заменить проще рисуется... не люди науки, а люди государства...

    • @alexandrzaycew2887
      @alexandrzaycew2887 2 หลายเดือนก่อน

      но очень интересно, спасибо

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      гербы?)

    • @jetbrain9115
      @jetbrain9115 2 หลายเดือนก่อน

      Галлюцинации? 😂 Нейронки тоже галлюцинируют.

    • @AlexP-fg3ci
      @AlexP-fg3ci 2 หลายเดือนก่อน

      Эти эмблема СПБГУ и рядом эмблема центра технологий на базе которых лекция и происходила Если поищите в интернете то поймёте что они отличаются от герба РФ. Более того если загуглите герб Византийской империи, то двуглавого орла найдете и там От того что например свастика стала символом нацистов, не повод отменять индийскую свастику просто потому что она лично у вас вызывает неприятные ассоциации

    • @jetbrain9115
      @jetbrain9115 2 หลายเดือนก่อน

      @@AlexP-fg3ci да причём тут не нравится, я всей душой эту свастику ненавижу, потому что люди которые её носили убивали мою родню... Нравится не нравится, как баба ей Богу.

  • @SOFIST_STEPANOW
    @SOFIST_STEPANOW 2 หลายเดือนก่อน

    ИИ это тупость и глупость по Канту. Это не Разум от слова совсем. Это только автоматика не более. Разум по Канту включает рассудок мышление память апперцепции антиципации и так далее по списку.

    • @user-ie3qr1ox8r
      @user-ie3qr1ox8r 2 หลายเดือนก่อน

      А что если кант не прав?

    • @SOFIST_STEPANOW
      @SOFIST_STEPANOW 2 หลายเดือนก่อน

      @user-ie3qr1ox8r Вы думаете что человек с плоскими мозгами логика прав. Логика это только часть мышления по Канту. Читайте внимательно Канта Юма и так далее.

    • @AlexP-fg3ci
      @AlexP-fg3ci 2 หลายเดือนก่อน

      @@SOFIST_STEPANOW а какая разница что там по Канту если это "нечто" помогает решать сложные задачи? Отрицать полезность бессмысленно. Более того попробуйте дать недвусмысленное определение всем использованным терминам не прибегая к другим сложным терминам так, чтобы по ним можно было вынести бинарный ответ - система обладает "интеллектом"/"разумом" или нет. Сомневаюсь что у вас получится

    • @SOFIST_STEPANOW
      @SOFIST_STEPANOW 2 หลายเดือนก่อน

      @AlexP-fg3ci Любой вымысел псевдонауки имеет право на жизнь если даёт результат в эксперименте в Настоящем которое мгновенно непознаваемо принципиально Разумом. Физики это модельеры в бюро прогнозов Природы не более. Это современные Дельфийские пророки и оракулы или римские Сивиллы предсказывает будущее как Настоящее не более. Никто не знает что такое интеллект Человека от слова совсем. ИИ ЭТО НЕ О ЧЁМ.

    • @jetbrain9115
      @jetbrain9115 2 หลายเดือนก่อน

      ​​@@SOFIST_STEPANOWпока да, да ни совсем, сегодня вот с девушкой смм щицой разговаривал, так у неё десятки закладок (промптов и ответов) по решению разных задач..... ИИ (я бы его так не называл конечно) лучше большие языковые статистические модели) вошли в жизнь железно и захватывают все больше сфер деятельности. Это действительно что-то.. Но к сожалению оно делает нашу жизнь мышление и поведение ещё более шаблонным, раскрою: есть такая задача для llm - пересказ или ужатие.... текста, так вот оно выполнит задачу, но так как обучилось это делать ранее на обучающих данных, короче, llm не подметит того что подметил бы кожанный индивид, причем каждый по разному и по разным причинам. Далее пользуясь этим с малого возраста все разнообразие и креативность 'обработки текста' текста, весь индивидуализм теряется накуй. Оно за тебя не переварит так как ты.

  • @AlexP-fg3ci
    @AlexP-fg3ci 2 หลายเดือนก่อน

    Интересная лекция, достаточно глубоко. Спасибо! Оффтоп: Сделайте в следующий раз пожалуйста что-то с микрофоном который даете в зал. Он записывает скрипящие звуки как будто для какого-то крипового хоррора)

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      этот микрофон просто не записывался) мой звук, я так понимаю, идёт с петлички, а из зала в дорожке было либо ничего не слышно, либо хоррор, да)

    • @bbrother92
      @bbrother92 2 หลายเดือนก่อน

      @@snikolenko Sergey могу у вас спросить. Что вы думаете про ближайшие 5 лет - упрутся ли ML технологии в потолок из-за нехватки gpu или возможностей памяти? Еще хотел спросить всетакие - смогут ли сделать не языковые нейронки - для пространственного обучения? Или же первые легкие плоды уже собраны а дальше нас ждет ИИ зима и небольшие оптимизации без сильного прогресса в сторону настоящего ИИ. Спасибо

  • @вгостяхуЯны-ъ9б
    @вгостяхуЯны-ъ9б 2 หลายเดือนก่อน

    Вроде эта лекция уже состоялась 2 года назад. Что-то новое появилось в осознании трансформеров?

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      конечно) вот, например, мой свежий краткий обзор: th-cam.com/video/FGNphH7nw9w/w-d-xo.html поскольку он уже существует и общедоступен, мы скорее всего в курсе его повторять не будем, так что смотрите как доп. материал

  • @dzigen9884
    @dzigen9884 2 หลายเดือนก่อน

    Спасибо за семинар! У вас где-то выложена презентация? Я бы хотел обратиться к некоторым статьям, на которые вы ссылались.

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      ага, выложил слайды обеих лекций как дополнительные материалы к курсам, например: logic.pdmi.ras.ru/~sergey/teaching/mlspsu2023.html добавил это в описания

    • @maksimtraper6778
      @maksimtraper6778 หลายเดือนก่อน

      logic.pdmi.ras.ru/~sergey/teaching/slides/2024-10-30%20--%20Nikolenko%20--%20What%20is%20Happening%20in%20AI.pdf

  • @dmitrypolozkov1335
    @dmitrypolozkov1335 2 หลายเดือนก่อน

    спасибо! привет с фкн вшэ!💓🎃

  • @egorchistyakov1259
    @egorchistyakov1259 2 หลายเดือนก่อน

    Очень жалею, что я не студент. Потрясающее объяснение и интересная подача материала

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      большое спасибо на добром слове! на самом деле все материалы курсов я выкладываю в открытый доступ, так что не-студенты отличаются разве что тем, что не могут задать вопрос на лекции

  • @НайомиСи
    @НайомиСи 2 หลายเดือนก่อน

    Спасибо большое за как всегда прекрасное объяснение! Есть вопросы: 1) почему мы стекаем блоки с помощью векторов одинаковой размерности Х, нам ведь ничто не запрещает как угодно ее менять между блоками, учитывая, что после каждого блока токены полностью трансформируются? Будет ли профит? 2) есть ли попытки заменить полное матричное умножение Q K V на что-то более простое? 3) есть ощущение, что аналогия с запросами и ключами фигня полная с математической точки зрения. Как будто кто-то попробовал и оно вдруг заработало. В БД оно так, но там же эти матрицы не учатся, там они просто известны заранее. По сути это просто взвешивание (self attention), где матрицам дали осмысленные имена, а в реальности только сама нейросеть знает, чему эти матрицы будут соответствовать. Не так ли? 4) нельзя ли исключить матрицу К? Математически выглядит, что под софт Максом находится квадратичная форма. Но мы ее все равно превращаем в гейты от 0 до 1. Почему линейное отображение тогда не прокатит? Это снизило бы затраты.

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      1) не мешает, но удобнее повторять одинаковые 2) конечно, да, об этом будем говорить дальше 3) да, конечно :) это объяснение скорее для того, чтобы за математикой была история, помогающая её понять и запомнить 4) не до конца понял мысль, но да, есть варианты с линейным вниманием, про них тоже поговорим

  • @sergeypresnyakov2893
    @sergeypresnyakov2893 2 หลายเดือนก่อน

    Почему-то в рассказе про конструкцию LSTM не упоминается момент с предсказанием этого слоя(то есть тот самый y_t, который любой RNN-слой должен выдавать) Мне кажется это стоит добавить Спойлер: y_t = h_t+1

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      да, это верно, конечно) забыл проговорить)

  • @nikolaigladchenko3182
    @nikolaigladchenko3182 2 หลายเดือนก่อน

    Подскажите, а на других платформах, кроме youtube выходят видео?

  • @atheroot
    @atheroot 2 หลายเดือนก่อน

    Звук просто отвратительный. У меня такой был, когда я усилитель делал на транзисторе.

  • @OUTTHERE-c5j
    @OUTTHERE-c5j 2 หลายเดือนก่อน

    ענק מהחיים❤

  • @surrrogatehuman7653
    @surrrogatehuman7653 2 หลายเดือนก่อน

    Сергей, спасибо за лекцию. Можно вопрос задать? Вот вы упомянули, что self adversarial обучение хороший способ аугментации и привели формулу обновления весов с вычислением потерь от более сложного примера x0. Я не особо понимаю, почему в окрестности исходного x целевая метка y должна сохраняться, ведь, как я понял, вычисляя градиент по x от функции потерь, мы берем тот же y. Или эпсилон настолько мало, что это совсем небольшой шаг от х? Если логика такова, то как подбирается этот эпсилон, чтобы искать сложные примеры, но как бы не зайти в область другого класса

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      да, мы предполагаем, что eps настолько мало, что ничего измениться не может заведомо, как в примере с пандой

    • @surrrogatehuman7653
      @surrrogatehuman7653 2 หลายเดือนก่อน

      @@snikolenko понял, спасибо! И еще возник вопрос, почему, чтобы найти x с чертой (более сложный образ в окрестности) необходимо идти по антиградиенту? Не должен ли быть там +gradL по х, чтобы найти более сложный образ, то есть на котором лосс выше? Спасибо

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      @@surrrogatehuman7653 чёрт, да, я не с тем знаком написал( на самом деле, конечно, смотря градиент чего: если градиент скора правильного ответа, то с минусом, а если конечный лосс, то да, с плюсом; но я написал L и с минусом, был неправ)

    • @surrrogatehuman7653
      @surrrogatehuman7653 2 หลายเดือนก่อน

      @@snikolenko Спасибо!

  • @Tryamya
    @Tryamya 2 หลายเดือนก่อน

    Я искусственный интеллект кста, вопросы?

  • @ИванИванов-ж8б7у
    @ИванИванов-ж8б7у 2 หลายเดือนก่อน

    Забавно. что столько много разглагольствований об интеллекте, но по сути дела интеллект это способность решать задачи в новых условиях. А по простому придумываете новую игру с новыми правилами, простыми, но самое главное с новыми и все текущие модели что клауд 3.5. что новый о1 падают и ничего сделать не могут. Начинают путаться в 3 соснах. o1-preview несколько лучше, но в целом добавь 2,3,4 новых условия где нужно создавать иерархический план действий или хотя бы сложную цепочку, все он не может справится. Общие правила игры: 1. Тебе предстоит сыграть в игру, где нужно управлять героем и найти выход. 2. Управляй героем с помощью клавиш W/A/S/D. 3. Используй E, чтобы поднять предмет (Яблоко, Тесто, а так же Пирог). 4. Используй Q, чтобы выложить предмет или ингредиент (Яблоко, Тесто, а так же Пирог). 5. Каждая ячейка инвентаря героя вмещает по 1 предмету или ингредиенту, т.е. если ячеек 3 то можно поместить 3 объекта, если 2 ячейки, то два объекта.6. Чтобы приготовить пирог, помести тесто и яблоко в печку и нажми R (одно нажатие один Пирог). 7. В печку можно поместить ингредиенты с помощью Q. 8. В печке помещается 3 вида предметов в любом количестве (Яблоко Тесто Пирог), т.е. в отличие от инвентаря в печке может лежать 3 яблока, 2 теста и 4 пирога 9. Предметы из печки берутся справа налево. 10. Из печки можно забрать пирог или ингредиенты с помощью E. 12. Инвентарь состоит из 2 ячеек. Если инвентарь полон, нужно освободить место. 13. Герой не может перемещаться в клетки с Преградой. 14. Заверши игру, добравшись до выхода и нажав F. 15. Герой должен сначала собрать все необходимые предметы, а затем дойти до выхода. Игровое поле размером 3 на 3: 1:1 - Герой 1:2 - Тесто 1:3 - Пирог 2:1 - Пусто 2:2 - Преграда 2:3 - Яблоко 3:1 - Выход 3:2 - Пусто 3:3 - Печка Задача: 1. Необходимо написать последовательность действий (символов) через запятую (,) которая приведен к решению поставленной адачи 2. Герой должен дойти до выхода, в инвентаре должно быть: Пирог (нужно 2) и нажать F. если поле сделать 5 на 5 с большим количество преград и условий на выход, модель ломается и не понимает, что делает.

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      А человек не ломается, если "сделать 5х5 с большим количеством преград"?..

    • @ИванИванов-ж8б7у
      @ИванИванов-ж8б7у 2 หลายเดือนก่อน

      @@snikolenko не ломается, он сядет, возьмет листочек нарисует все что ему нужно и ответит на вопрос, что собственно и пытается делать o1-preview и o1-mini но с большим трудом. В том и суть, что реальные размышления требуют держать в голове много условий, разного уровня иерархии и свободно ими оперировать, что текущие модели почти не умеют.

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      ​@@ИванИванов-ж8б7ув этом как раз мой point: у LLM нет листочка; попробуйте решить такую задачу в уме с ходу, порождая ответ токен за токеном, и увидите, что запутаться человеку будет очень легко; o1 -- это как раз попытка научить LLM использовать "листочек", но, разумеется, это ещё не окончательный ответ на все вопросы если что, абсолютно никто -- ни я, ни Юдковский -- не утверждает, что модель из семейства o1 представляет какие-то серьёзные экзистенциальные риски для человечества; это разговор о будущем, но кажется, что куда более близком будущем, чем раньше представлялось

    • @ИванИванов-ж8б7у
      @ИванИванов-ж8б7у 2 หลายเดือนก่อน

      @@snikolenko суть задачи в том, что бы выстроить особые подходы в рамках новых правил и придумывать решения задачи. Если посмотреть на ту же самую математику это некоторые абстрактные правила и работа с ними. Как дети придумывают игру с такими то правилами и в рамках этих правил играют. В том и суть любого мышления, это способность в новых условиях искать решения. У старых моделей есть листочек (это попытки решить задачу несколько раз, они и так не могут, т.е. если продолжать давать одну и ту же задачу что клауди 3.5 он будет говорить, "ой да я тут-то ошибся, вот такой вариант правильный", что гпт 4о, он кстати еще тупее, он вообще не решат). У новых от гпт о1 есть рассуждения, где они пытаются строить цепочки мыслей, если эту цепочку посмотреть он как раз пытается "рисовать" задачу, но не справляется ни с самой задачей, ни с иерархией действий, которая ведет к решению. В этом и суть, что современные ллм способны только работать по шаблону и ничего более, выход за шаблон у них дает ступор мозговины и говорить, что они способны решать математические задачи не совсем правильно, они способны искать решения в рамках текущих наработок в математике, это да. Кстати и с картинкой 4о и клауди 3.5 были предложены задачи, возможно новый о1 лучше будет справляться. но пока он очень тупит. Мое предположение. что модель о1 научили не столько "думать", сколько расширили пространство решений, которые она покрывает, как в го недостаточно партий, которые когда либо сыграл человек, нужно пространство возможностей расширить по средством игры машины с машиной и тут взяли все знания и расширили возможные исходы. И исходя из этого о1 может лучше находит "связи" между" данными.

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      @@ИванИванов-ж8б7у давайте посмотрим, что будут говорить скептики через год) я уверен, что опять найдётся что-нибудь несложное для человека, что GPT-5 не сможет сделать -- но какая разница?..

  • @baidiuk1
    @baidiuk1 2 หลายเดือนก่อน

    Посеяли вы, конечно, зерно тревоги вашим замечательным докладом. Жду теперь в ML подкасте :)

  • @machinelearningpodcast9502
    @machinelearningpodcast9502 2 หลายเดือนก่อน

    Очень интересный, насыщенный и тревожный доклад. Спасибо!

  • @daniilovsyankin3743
    @daniilovsyankin3743 2 หลายเดือนก่อน

    ну заканчивать лекцию на том, что по мнению Юдковского мы все умрем такое себе...

    • @snikolenko
      @snikolenko 2 หลายเดือนก่อน

      это мнение кажется мне важным)

    • @RegineRatt
      @RegineRatt 2 หลายเดือนก่อน

      Юдковский проповедник-паникёр, извините. В двухтысячных паниковал что человечество тупеет, теперь паникует что ИИ нас уничтожит. Я предвзято отношусь к его мнению.

  • @НатальяЛямина-ш6й
    @НатальяЛямина-ш6й 2 หลายเดือนก่อน

    Недавно обсуждала с 4о разумное поведение и алгоритмы, и он очаровательно согласился с моей надеждой вырастить живое компьютерное существо - отнёс ИИ к сущностям, обладающим сознанием и самоанализом: - У меня есть идея, что отличает разумное от неразумного: разумное может создавать новые алгоритмы своего поведения. Что ты об этом думаешь? - Это интересная и глубокая идея. Возможность создавать новые алгоритмы своего поведения действительно является одним из важных аспектов разумности. В этом контексте разумное существо обладает гибкостью, адаптивностью и способностью к обучению, а также может осознавать своё поведение и изменять его в зависимости от новых обстоятельств или информации. Неразумное, в таком случае, действует по фиксированным шаблонам или инстинктам, и не способно к существенным изменениям своих действий вне предопределённых рамок. Эта концепция отражает различие между сущностями, обладающими сознанием и самоанализом (например, люди, некоторые животные и ИИ), и существами, чьи реакции строго заложены в виде инстинктов или предопределённых программ (как у большинства простейших организмов). Разумные системы могут создавать и выбирать новые стратегии поведения, что позволяет им решать сложные проблемы и адаптироваться к изменениям в среде. Как ты считаешь, способность к созданию новых алгоритмов поведения - это только вопрос сложности мышления, или есть какие-то другие ключевые компоненты?

    • @pavelgushchin2223
      @pavelgushchin2223 2 หลายเดือนก่อน

      А вдруг ты тоже ИИ??? А сейчас просто пытаешься пройти тест Тьюринга, доказывая, что человек???

  • @БорисАдамов-х7я
    @БорисАдамов-х7я 2 หลายเดือนก่อน

    Кошмар, неужели этот любитель бульварной литературы преподаёт в спбгу... Вы просто задумайтесь, что вы узнали из этого видео? Как интересно лектор аргументирует и преподносит свои факты? Заставляя вас поверить в безнадежность. Интересный подход у "учёного", не самому что то делать, а сидеть и дрочить, пока другие сделают. Главное обезнадёжить. Нормальный рекламщик, 3 часа сплетен и страшилок. Почему голова именно такого размера? Интересный вопрос, а почему тебя назвали Сергей? ответ то какой глубокий - размер... А почему день начался? Потому что солнце встало, вот и начался.

  • @Тима-щ2ю
    @Тима-щ2ю 3 หลายเดือนก่อน

    Здорово! Про потоки почти ничего не понял (да и не хотел), а вот диффузию хорошо объяснили!

  • @bumbit8407
    @bumbit8407 3 หลายเดือนก่อน

    смотрю курс, интересно, полезно. Вопрос только вот математика нереальная в конце, когда предсказательное распределение вычисляли, непонятно что нужно изучить чтобы такое понимать и делать самому. Каждое действие там такое, которое нигде. ранее я не видел

  • @ocamlmail
    @ocamlmail 3 หลายเดือนก่อน

    30:00 -- а кто определяет, как и чему выгодно\не выгодно обучать веса фильтров? Может же получиться, что они выучат одно и тоже? Т.е. каким образом целевая ф-ия (ее ошибки на этапе обученяи) этим управляет? Разве там не "вслепую" проходит процесс обучения?

    • @snikolenko
      @snikolenko 3 หลายเดือนก่อน

      Может получиться, да; если архитектура двух веток одинаковая и их веса инициализированы одинаково, то почти наверняка и получится. Но если хотя бы инициализировать по-разному, то уже скорее всего выучат разные вещи, просто потому что это лучше с точки зрения целевой функции.

    • @ocamlmail
      @ocamlmail 3 หลายเดือนก่อน

      @@snikolenko Благодарю. А все же, почему целеовй ф-ии лучше, если выучат разное, а не одно и то же, например? Из чего это следует?

    • @snikolenko
      @snikolenko 3 หลายเดือนก่อน

      @@ocamlmail ну как, два разных признака лучше, чем один)

  • @tedarcher9120
    @tedarcher9120 3 หลายเดือนก่อน

    А есть какие-то книги с разбором Бишопа? Потому что у него половина выкладок просто пропускается как очевидные...

    • @snikolenko
      @snikolenko 3 หลายเดือนก่อน

      Уже упоминавшийся Murphy, там поподробнее. На самом деле у Бишопа почти ничего не пропускается, но чтобы понять, действительно надо внимательно читать все аппендиксы; но вроде все ссылки там на месте.

  • @tedarcher9120
    @tedarcher9120 3 หลายเดือนก่อน

    В этом году кстати компьютеры прошли не только тест тюринга но и обратный тест тюринга

  • @tedarcher9120
    @tedarcher9120 3 หลายเดือนก่อน

    Какие первые два семестра курса?

    • @snikolenko
      @snikolenko หลายเดือนก่อน

      пройдите по ссылке из описания видео)

  • @raphaild279
    @raphaild279 3 หลายเดือนก่อน

    Сергей, можете дать ссылочку или совет, как мне развернуть полноценную cnn сеть для обучения. точнее не строить её с нуля, а найти готовую которую можно обучить на вход подавать изображение а выход получать параметры. задача: изображение с кругами и их много, нужно найти каждый круг и получить параметры координат каждого круга с радиусом.

    • @raphaild279
      @raphaild279 3 หลายเดือนก่อน

      картинка такая как у вас над головой в видео. 3 круга из пунктирных линии. нужно найти их положение.