Оптимизируем код на Go в 10 раз | Как избежать false sharing в Go

Vladimir Balun - Programming

มุมมอง 12 718

913

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 4 ก.พ. 2025

ความคิดเห็น • 78

@vladimir_balun_programming 5 หลายเดือนก่อน ⁺²
Присоединяйтесь к моему каналу в Telegram: t.me/vladimir_balun_programming
Делюсь там интересными активностями, мыслями, новостями и материалами по программированию, а также рассказываю о том, что читаю и изучаю по программированию и не только!
@denissemikin2683 9 หลายเดือนก่อน ⁺³⁷
Данная логика с оптимизацией хорошо рассписана в книжке «100 ошибок Go и как их избежать» в последней главе.
@altRU1st 2 หลายเดือนก่อน
Спасибо, я не дочитал
@martirosharutunyan6572 9 หลายเดือนก่อน ⁺⁷
Ну брат ну ты даёшь это всё очень круто. Думаю всем будет уроком немножко процессор и память изучить.
@vladimir_balun_programming 9 หลายเดือนก่อน ⁺¹
Спасибо!
@viktorkram2531 9 หลายเดือนก่อน ⁺¹²
Крайне интересная информация, спасибо! Коротко и очень необычно) Спасибо!
@vladimir_balun_programming 9 หลายเดือนก่อน ⁺³
Спасибо!
@azizmavlyanov3145 9 หลายเดือนก่อน ⁺⁹
Владимир, как обычно, топ-темы рассматриваешь. Очень хочется увидеть и поработать с такими необычными темами и на твоем курсе по concurreny в go. За данный видос огромный респект!
@vladimir_balun_programming 9 หลายเดือนก่อน ⁺¹
Спасибо, курс как раз будет 2 мая - там в том числе и это разбирается)
@beast0608dihdbdn 9 หลายเดือนก่อน ⁺⁸
Вова, ты крут, очень понравилась данная рубрика, спасибо!)
@vladimir_balun_programming 9 หลายเดือนก่อน ⁺¹
Спасибо!
@ТимофейЁлкин-о9е 9 หลายเดือนก่อน ⁺²
Супер! Респект и удачи тебе!
@vladimir_balun_programming 9 หลายเดือนก่อน
Спасибо!
@nikolaykozlov4888 9 หลายเดือนก่อน ⁺²
Млин, Вов, как всегда - огонь!!!
@vladimir_balun_programming 9 หลายเดือนก่อน ⁺¹
Спасибо!
@henrytavilla 9 หลายเดือนก่อน ⁺²
Спасибо за крутой лайфхак! Полезно 😊
@vladimir_balun_programming 9 หลายเดือนก่อน ⁺²
Спасибо!
@AleksandrRasskazov 9 หลายเดือนก่อน ⁺¹
Приятненько. Это похоже как и на порядок полей в структурах
@theprogrammer256 9 หลายเดือนก่อน ⁺²
Круто! Вы фокусник! ))
@БорисКрасных-ц8н 8 หลายเดือนก่อน ⁺⁴
Да, Балун реально шарит, мощь. Нетривиальный ролик. И классный пример того как понимание подкапотной работы помогает реально оптимизировать код...
@roman_zh1 9 หลายเดือนก่อน ⁺²
Пушка. Наконец-то я понял зачем нужно знать устройство памяти и всего прочего, прям конкретный кейс, спасибо)
@vladimir_balun_programming 9 หลายเดือนก่อน
Нужно не всегда, но иногда эти знания бывают очень полезными)
@kostya7469 9 หลายเดือนก่อน ⁺²
Очень интересно! спасибо
@vladimir_balun_programming 9 หลายเดือนก่อน
Спасибо!
@sovrinfo 9 หลายเดือนก่อน ⁺²
Спасибо, очень интересное видео!
@vladimir_balun_programming 9 หลายเดือนก่อน
Спасибо!
@czm41k 4 หลายเดือนก่อน
Очень круто, спасибо
@lmorozkol 9 หลายเดือนก่อน ⁺³
чудеса на виражах прям какие-то)
@vladimir_balun_programming 9 หลายเดือนก่อน
Магия)
@timurakhalaya6289 9 หลายเดือนก่อน ⁺³
alignment это выравнивание , offset смещение)
годный контент
@vladimir_balun_programming 9 หลายเดือนก่อน
Все так)
@jin_x_ 9 หลายเดือนก่อน
Если уж придираться к неймингу, то такой заполнитель обычно называют padding.
@TomLeeGun 9 หลายเดือนก่อน
это называется wet blanket) а если серьезно, то везде используется именно field alignment. учите матчасть!)
@amb7048 9 หลายเดือนก่อน ⁺²
Какие вы ресурсы изучали чтобы знать тонкости всего процессора и библиотек языка? Вы настолько детально все изучили, что как будто бы вы с другой планеты) Было очень интересно!
@vladimir_balun_programming 9 หลายเดือนก่อน ⁺¹
Я не знаю очень много всего все еще - а то, что знаю, просто последовательный путь изучения тем, которые постепенно друг с другом переплетаются)
@nikmy_ 9 หลายเดือนก่อน ⁺¹
Очень известная штука в профессиональных c++ кругах. Если вместо sequential consistency бахнуть acquire-release семантику, вы ускорите ещё раза в 3-4) Но в го отказались от такого для простоты (см. go memory model).
Очень подойдёт тем, кто занимается разработкой чего-то низкоуровнего, я сам был в шоке когда увидел в первый раз такие оптимизации)
@altRU1st 2 หลายเดือนก่อน
Выравниванием мы увеличиваем размер счетчика чтобы он не влезал в одну линию шарда? А если таких счетчиков множество на памяти же отразится?
@unlite2896 8 หลายเดือนก่อน
Спасибо! Правда нет комментария, почему переход на атомики дал прирост в два раза. Просто потому что мьютексы медленнее атомиков? И по итогу нужно ли проводить шардирование для такой оптимизации, или достаточно просто выравнивания?
@vladislav_artyukhov 8 หลายเดือนก่อน ⁺¹
На превьюшку поставить:
_ [60]byte
↖
Это увеличит скорость кода в 10 раз
@dobermangood 9 หลายเดือนก่อน
Круто! Не думал попробовать решить 1 billion row challenge на golang?
@mordva756 9 หลายเดือนก่อน ⁺¹
Это решение будет ускорять в 10 раз и при наличии другой работы в коде? Помимо инкрементирования счетчика, приложение делает ещё что-то и переменные тоже могут попадать в кэш. Возможно не очень понял, но мы как будто затрем весь кэш при инкрементироварии счётчика таким способом и это замедлит код вокруг
@billjohnes9380 9 หลายเดือนก่อน ⁺¹
Это если счётчик будет разбит на 1024 shard'а для 64K cache'а L1 или на 4096 shard'а для 256К.
Пока на shard'ы тратится малый процент cache'а, такой опасности нет.
@unciauncia 9 หลายเดือนก่อน ⁺¹
А какие минусы у такой оптимизации? Получается, что мы резервируем себе участок памяти кэша в котором полезных данных 4 байта, а всё остальное не используется никак? Как будто это оптимизация будет сильно отъедать память, когда количество горутин будет значительно больше, чем число ядер, и тогда относительно не быстрая зашаренные данные, будут эффективнее по памяти, но медленнее исполняться. Вопрос какой баланс в итоге лучший, всегда по ситуации?
@stupnum8764 9 หลายเดือนก่อน
Нуу, 64 байта это очень немного. L1 кеш на большинстве современных процессоров имеет объем 32kb, соответственно туда поместится 512 таких переменных на одно ядро, но насолько я понимаю при работе в одном потоке процессор не будет загружать в себя данные всех переменных, хотя это под вопросом. Я думаю если протестировать данный лайфхак на большом количестве корутин, то получится что он все равно будет значительно быстрее, чем без этого приема. Хотя не уверен, надо бы протестировать.
@nickolaizein7465 9 หลายเดือนก่อน
Так выравнивание получается как бы "растягивает" счётчик на какое-то кол-во байт, хотя по факту их не использует, чтоб другой счётчик гарантировано попал в другую кэш линию ?
@rasZam 9 หลายเดือนก่อน
Привет. Не подскажешь какой у тебя доп. монитор стоит?
@АнтонИцкович-х7у 9 หลายเดือนก่อน
ШИКАААРРРРРРНООО!!! брат давай такие видео по всем темам и ты ТОП! такой шикраный контент и на русском
@itkrasavchik 9 หลายเดือนก่อน ⁺²
Прикольно ) Красавчик! ;)
@alekseevserge 9 หลายเดือนก่อน ⁺⁴
Осталось только коммент в коде написать, чтобы другой программист не грохнул неиспользуемую память)
@vladimir_balun_programming 9 หลายเดือนก่อน ⁺¹
Хорошее замечание)
@IvanFedulov 3 หลายเดือนก่อน
так регресс и появляется
@sfdb97fsasdfasrewerwerzgdfgsda 9 หลายเดือนก่อน
Желательно выравнивать к длине кешлинии архитектуры на которой запускается код, иначе оптимизации не будет, т.к значения будут затирать друг друга.
@thegeneralopinion9713 6 หลายเดือนก่อน
почему цикл не в самом начале функции benchmark?
for j := 0; j < b.N; j++ {
@sabbath359 4 หลายเดือนก่อน
А если у нас куча других задач помимо счетчика, ? Могу быть не прав, но это звучит так как будто в вакууме это финт ушами уровня магистра, но если взять реальный сервис, который, условно, съедает 70% ресурсов машины, ? Или еще лучше рассмотреть ситуацию , когда запросов настолько много, что условный сервис должен ?
@io0312 9 หลายเดือนก่อน
Можно исходники?
@sergiocoder 9 หลายเดือนก่อน
В самом начале у нас вроде как у каждого ядра свой кэш, а после последней версии у всех ядер один кэш(-линия)? Или это разные кэши?
В целом прикольная оптимизации, но насколько понял, ее эффективность зависит от конкретной архитектуры/модели процоессора, т.е. где-то можно не сработать. Хотя, если дело доходит до такой низкоуровневой ерунды, то наверное заранее известно, на каких процессорах будет запускаться код в проде )
@profered 9 หลายเดือนก่อน ⁺³
ниче не понятно, но очень интересно
@billjohnes9380 9 หลายเดือนก่อน
Попробуйте почитать мой большой комментарий-ответ другому собеседнику ниже про 64-байтные блоки адресного пространства.
Возможно, что-то прояснится.
@denyskanunnikov7521 9 หลายเดือนก่อน
добрый вечер, а есть ли публичный репозиторий с примером данного кода для более внимательного изучения? в записанном видео быстрое перемещение по коду и тем речи высокий, не всегда удобно для моментального восприятия
@КонстантинСердюк-ь5ю 9 หลายเดือนก่อน
Есть курс по concurrency МФТИ , можешь посмотреть его , там 20+ часов :)
@denyskanunnikov7521 9 หลายเดือนก่อน
@@КонстантинСердюк-ь5ю а ссыль можно, пожалуйста?
@МихаилИсаев-з2с 8 หลายเดือนก่อน
Я так понял у Вас intel. Вот не могу, сколько не пробую, на M1 хак повторить, максимальной производительности добиваюсь при атомиках и дальше никак.
Не получилось нагуглить как с кэш линией работает М1 Pro. Если у кого-то есть инфа, буду благодарен, потому что интересно повторить выравнивание на своем компе.
@thegeneralopinion9713 6 หลายเดือนก่อน
Ты, наверно, просто тест с атомиками запускал. А надо шардированный тест со смещением структуры AtomicCounter
@НиколайВикторович-х3г 9 หลายเดือนก่อน ⁺¹
Коротко о том как увеличить использование памяти приложения в 16 раз )
@НиколайВикторович-х3г 9 หลายเดือนก่อน
@@doingwell5629 я имел ввиду в структуре 🙂
@vladimir_balun_programming 9 หลายเดือนก่อน ⁺⁵
@@НиколайВикторович-х3г это почти всегда компромисс - что-то получаем, чем-то жертвуя при этом
@alexandrlapin3641 9 หลายเดือนก่อน ⁺¹
Подскажите , а на плюсах такие проблемы возникают?
@dmikoss 9 หลายเดือนก่อน ⁺¹
Это актуально для всех языков, так как проблема завязана на принципах работы cpu
@vladimir_balun_programming 9 หลายเดือนก่อน
@@dmikoss плюсую)
@silentroach 9 หลายเดือนก่อน
Жаль что go не оптимизирует это сам на этапе компиляции
@__kawaii 8 หลายเดือนก่อน
Как ты вообще додумался до этого? Мозг капитальный. Постфактум, конечно, кажется очевидным, но изначально к этой мысли бы никогда в жизни не пришел самостоятельно
@XpIOHdeJIb3000 9 หลายเดือนก่อน
зачем мьютекс на чтение? Какаю то ересь прочитать невозможно, либо текущее значение, либо текущее + 1
@vladislav_artyukhov 8 หลายเดือนก่อน
Цыганские фокусы
@vladimireliseev7602 9 หลายเดือนก่อน ⁺²
Забавно, возможно я что-то делаю ни так, но у меня все варианты не сильно друг от друга отличаются по производительности:
BenchmarkAtomicCounter-10 10 1538 ns/op
BenchmarkMutexCounter-10 10 412.5 ns/op
BenchmarkRWMutexCounter-10 10 658.3 ns/op
BenchmarkShardedAtomicCounter-10 10 570.9 ns/op
BenchmarkAtomicCounterOptimize-10 10 775.0 ns/op
@MIRISU2 9 หลายเดือนก่อน
я тоже попробовал проделать всё тоже самое. ShardedAtomic c alignment не сильно ушёл от Atomic и ShardedAtomic. 349.7 ns/op, 455.7 ns/op, 385.9 ns/op соответственно.
@altRU1st 2 หลายเดือนก่อน
А может различаются размеры этих кэш-линий на разных процах? Но это я просто предположил, если так то смысла мало от этой оптимизации

ต่อไป

เล่นอัตโนมัติ

Lock-free структуры данных в Go | Очередь Майкла и Скотта | Concurrency в Go