Chess excellence is a million training steps! An interview with Nenad Tomashev, AlphaZero developer

Levitov Chess

มุมมอง 7 456

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 1 ม.ค. 2025

ความคิดเห็น • 43

@АнтонГрищенко-р9й 3 ปีที่แล้ว ⁺¹¹
Илья Левитов и человек, расшифровавший речь в субтитры, спасибо вам большое! Very interesting!
@misc2850 ปีที่แล้ว
яндекс браузер переводит видео в голос на лету
@igoryaroslavovich 3 ปีที่แล้ว ⁺⁴
Спасибо, было очень интересно и познавательно! 👍
@АнтонЦапаев-ч2ц 3 ปีที่แล้ว ⁺²
Илья, спасибо за эксклюзивный контент! Как всегда топ-топов!
@LevitovChess 3 ปีที่แล้ว
Спасибо!
@gggg-az 3 ปีที่แล้ว ⁺²
Как примерно работает это на мой взгляд: каждый ход оцениваются возможные варианты и даются вариантам оценку. Например - на первом ходу возможны н количеств вариантов ходов за белых. Каждому варианту хода даётся свой номер ( качество хода). Потом аналогичное количество вариантов рассматриваем для чёрных и тоже оценивается. Так же идём до конца пока не придём к логическому завершению.
@gggg-az 3 ปีที่แล้ว
Предпологаю что строится что то вроде матрицы или графа ходов. Думаю такая же матрица ходов может быть получена и в результате просмотра всех вариантов всех партий проигранных Гроссами за всё время существования шахмат.
@e-rust 3 ปีที่แล้ว ⁺⁷
Да у них в статье всё написано, как работает.
Сначала на очень короткой глубине вообще все варианты рассматриваются. Потом, когда минимальная глубина достигнута, мы идём дальше и пытаемся несколько раз доиграть партию. На каждом полуходу нейросеть возвращает статическую оценку всех возможных вариантов. Математический смысл оценки - вероятность того, что в данной позиции этот ход окажется лучшим (а не сантипешки, как все привыкли). Дальше мы метаем виртуальный дротик в дерево перебора - генератором случайных чисел определяем, какой ход всё-таки делаем. Т.е. если есть вероятность 90%, что лучший ход - взять стоящего под боем ферзя, мы его, скорее всего, возьмём... в 9 случаях из 10 примерно. Дальше точно так же делаем ход за соперника. При этом мы вообще не заморачиваемся, правильные выбираются ходы или неправильные, и как часто мы ошибались из-за рандома. Нам главное доиграть побольше партий до конца и посмотреть, чем они закончатся. Дальше мы смотрим статистику: что вот в этом варианте мы выиграли 70% партий, в этом 90%, а в этом 40% - ну, значит, выбираем второй вариант.
Следствие: в начале игры вероятность того, что такая же или похожая позиции часто встречалась на этапе обучения, очень велика, а оценка нейросети, скорее всего, окажется очень точной. Лишённый дебютной библиотеки SF просто имеет неиллюзорные шансы получить безнадёгу прямо на выходе из дебюта. Ближе к эндшпилю картина меняется на противоположную, потому что там, во-первых, велика вероятность получить позицию, которую обучалка никогда не видела, а во-вторых, в эндшпиле сплошь и рядом встречается ситуация, когда к победе ведёт один-единственный совершенно не следующий из общефилософских соображений ход, а все остальные ходы проигрывают. И если рандомный дротик в этот ход не попадает на достаточной глубине - извини, альфа, тебе не повезло. Именно поэтому первые версии LC0 в TCEC периодически страшно лажали в окончаниях - пока разработчики не перетащили в неё некоторые алгоритмы игры в эндшпиле и поддержку эндшпильных таблиц, насколько я понимаю, фактически отойдя при этом от декларированной разработчиками A0 концепции Zero - полный отказ от человеческих знаний и опыта.
@Воришкапеченек-г5к 3 ปีที่แล้ว ⁺²
Интересно когда будет создана нейронная программа на подобии Альфа зеро с целью обучения людей) поиска оптимальных путей
@lefreg 2 ปีที่แล้ว
Вот бы увидеть первые игры Альфазиро во время самообучения
@WowikusUA 3 ปีที่แล้ว
Спасибо за видео!
@LevitovChess 3 ปีที่แล้ว
Спасибо!
@mikechess1991 3 ปีที่แล้ว ⁺⁴
Спасибо что не переводили Звучно английский.
@edgarzeman7712 3 ปีที่แล้ว ⁺⁴
Сколько ресурсов железа задействовано данной сетью, и сколько стоит время ее работы (для сравнения в игре альфаго против Ли Си Доля сеть использовала что то вроде 193 процессора и ещё кучу видеокарт с сопроцессорами и час работы ее если я не ошибаюсь составлял около 5 млн.$, к слову много так не поиграешь, можно без штанов остаться)) И в целом когда такая сеть против человека играет - это некорректно получается, пусть сеть одна, но ресурсов и «калькуляторов» у неё много, это как если бы люди играли большими группами и про них бы сказали - вот одна нейросеть)), можно даже назваться как нибудь - типа «DeepHuman” )
@gggg-az 3 ปีที่แล้ว ⁺¹
5 млн долларов за час работы что то многовато. Новый сервер дешевле стоит. Если учесть , что предыдущий оратор , говоривший про стокфиш или просто рыбку , сказал, что работают все на интузиазме. Что то не сходится.
@e-rust 3 ปีที่แล้ว
@@gggg-az Так кто сказал, что A0 делали на энтузиазме? :-)
@gggg-az 3 ปีที่แล้ว
@@e-rust получается стокфиш на интузиазме а альфазеро за деньги?
@e-rust 3 ปีที่แล้ว ⁺²
Во-первых, Google наверняка не признается, во сколько обходится работа их TPU им самим. Коммерческая тайна.
Во-вторых, вопрос не совсем корректный, потому что есть две фазы: самообучение сети и, собственно, игра с соперником. Для игры там относительно небольшая платформа использовалась с 4 TPU внутри, кажется. Это всё равно было намного больше, чем было в распоряжении Stockfish, но вряд ли час работы системы таких уж больших денег стоил. А вот обучение сети (они же ставили задачу типа просчитать шахматы меньше чем за сутки) задействовало какие-то абсолютно невообразимые вычислительные мощности.
@Im0rtist 3 ปีที่แล้ว
@@gggg-az Именно так. АльфаЗеро проект Дипмайнд (=гугла), и для них это разминка для более важных задач и пиар компания.
А Стокфиш это опенсоурсный проект, там участвуют не за деньги, а просто программисты с желанием развить шахматную программу.
@Роман-у4к6ж 3 ปีที่แล้ว ⁺¹
Здравствуйте. А в приложении Левитов Чесс доска анализа есть? И если есть то в каком разделе ее можно найти.
@LevitovChess 3 ปีที่แล้ว
Здравствуйте! В нашем приложении нет такой возможности, и пока что не планируется.
@varlazarov 3 ปีที่แล้ว
Если смотреть википедию то Leela Chess Zero - бесплатный шахматный ДВИЖОК основанный на нейронных сетях то AlphaZero - нейронная сеть. Нейронная сеть которая и в шахматы сыграет и песни споет , одним словом AlphaZero и Leela Chess Zero это абсолютно разные шахматисты.
@zibert55 3 ปีที่แล้ว
Спасибо за видео. По логике восприятия материала нужно было бы рассказать сначала про альфа-бета движки, затем про метод Монте-Карло, потом про АльфаЗиро, затем про НЕЙРОСЕТИ, а после про связку Стокфиш+Нейросеть. А дальше уже было бы видно, чем подобные АльфаЗиро могли бы помочь ЧЕЛОВЕКУ и какова роль человека в развитии этих технологий. То бишь - откуда у людей появляются идеи для развития этих технологий и куда направлен вектор развития в этой сфере. И как вишенка на торте - получение пользы самим человеком от всех этих технологий. В разрезе шахмат - это подготовка к чемпионскому матчу, например. Есть ли там связи с этими технологиями в человеческой игре...
@evgeniykorniloff9974 ปีที่แล้ว
Берется обычный шахматный движок, и при сортировке тихих ходов учитывается вероятность мата. Эти ходы просчитываются раньше и у них повышается приоритет быть выбранными. Короче - добавить монтекарло и модифицировать эвристику истории. Что касается нейросетей, то альфа бета полный перебор это и есть интеллект, чем глубже, тем больше айкью:)). Оценочная функция не должна быть чрезмерно сложной. Это проверено.
@vladimirmedvedev9222 4 หลายเดือนก่อน
Евгений, не планируете ли второе издание вашей книжки? С дополнениями про те новые техники, что появились за последние 15 лет.
@evgeniykorniloff9974 4 หลายเดือนก่อน
@@vladimirmedvedev9222 был разговор с бхв издателем, докинуть 3 главы про чесс зиро, но он хочет чтобы все листинги с паскаля переписал, по факту все с нуля. Жаль. Главы черновики уже готовы, может в сети пдф сам издам:)) там хитрая вещь у гугла по поиску матов
@evgeniykorniloff9974 4 หลายเดือนก่อน
@@vladimirmedvedev9222 пол года как был разговор с издателем бхв, предложил + 3 главы про гугл инсайд chess ziro, но не сошлись, переписывать листинги на паскуале на пайтон это слишком:))
@Scraih 3 ปีที่แล้ว ⁺⁴
Осталось взять интервью у программистов LC0, что намного интереснее....
@chchchchhchchchchch 3 ปีที่แล้ว
А чем интереснее?
@e-rust 3 ปีที่แล้ว ⁺⁸
Очень любопытно. Я понимаю, о чём можно говорить с разработчиками LC0, но вот хотя бы что можно спрашивать у разработчиков A0, вообще не представляю.
- Как A0 оценивает позицию?
- Понятия не имеем. Это же нейронная сеть.
- Как A0 выбирает ход?
- Для каждого возможного варианта A0 играет партии сама с собой, выбирая ходы соперников методом Монте-Карло, т.е. метанием виртуальных дротиков в дерево перебора.
- Чем это лучше минимакса с альфа-бета-отсеченем?
- Тем, что минимакс с альфа-бета-отсечением нельзя эффективно реализовать на тензорных процессорах, а метод Монте-Карло можно. Ещё MCTS проще понять, что на доске стоит крепость. Во всём остальном MCTS хуже.
- За счёт чего A0 обыграла Stockfish?
- Сравните вычислительную производительность TPU, на которых работала A0, с производительностью пары Зеонов, на которых работал Stockfish. Мы просто поставили столько TPU, сколько было нужно, чтобы выиграть.
Больше ни одного вопроса в голову не приходит. :-)
@gggg-az 3 ปีที่แล้ว
Производительность пару зеонов? Интересно сколько это
@e-rust 3 ปีที่แล้ว ⁺¹
@@gggg-az Не пару, а пары. Зеон, он же Xeon - это семейство серверных процессоров от Intel. При этом для первого матча A0 со Stockfish использовалась далеко не топовая на тот момент модель, два 16-ядерника, кажется. В общем, сейчас у многих геймеров на столе стоит железо пошустрее.
@gggg-az 3 ปีที่แล้ว
@@e-rust написали бы на инглиш название процессора - не понять на русском что вы имели ввиду.
@gggg-az 3 ปีที่แล้ว
Ещё вопрос - чем отличется стокфиш от альфа зеро? Может альфа зеро тот же стокфиш с большими ресурсами? Чем интервьюер занимался конкретно в альфа зеро? Если альфа зеро и стокфиш тоже самое , то нарушение авторских прав, а следовательно не может быть тем же самым?
@e-rust 3 ปีที่แล้ว ⁺²
@@gggg-az Про это уже в прошлом видео Михаил рассказывал. Всем отличается, алгоритмы примерно ничего общего не имеют, кроме того, что в SF с недавних пор статическую оценку позиции нейросеть выдаёт.
@deepmind_7050 2 ปีที่แล้ว
#ಟಡೆರತಯ #AlphaZero & #AlphaGo #ಞಷಯ
@ИванНомов 3 ปีที่แล้ว ⁺¹
После каждого хода проигрывает партию до конца , делая лучшие ходы за обе стороны!
@НиколайКулагин-д2э 3 ปีที่แล้ว
вот уже ведь дофига кто говорил что alphazero не совсем честно матч провела, но на этом канале в каждом видео почему то рассказывают про крутость alpha0
@IamSergei 3 ปีที่แล้ว
Но это не отменяет того, что на тот момент это было все же новое слово в шахматах, даже если А0 и Сток8 были равны по силе, до сих пор есть позиции, которые даже сетевой Стокфиш не решает, а вот Лила - решает
@НиколайКулагин-д2э 3 ปีที่แล้ว
@@IamSergei так же есть и наоброт
@XlebZemelb 3 ปีที่แล้ว ⁺²
Боже, ты идиот. Во-первых, провели матч честно. Во-вторых, он это упомянул, что достаточно было победить stockfish 8. У них нет цели создать идеальный движок. Это было показательно. Да, alpha0 это круто, да, это будущее, да она самый сильный движок, если сделать из нее движок, да, она победит последний стокфиш с его дебютными базами, которых не было у альфа0 тоже. Ты олигофрен вообще видео смотрел. К чему эти высеры о том, что стокфиш был не в лучшей форме. Боже правый, какой же ты дегродант
@fazexarizma5419 2 ปีที่แล้ว
@@IamSergei , стокфиш не решает из-за альфа бета, а вот кто сильнее мы знаем всё)

ต่อไป

เล่นอัตโนมัติ

Александр Грищук о турнире претендентов, пари на $100 000 и скандале с Крамником