【人工智能】如何搭建10万个H100的GPU集群 | 40亿美元成本| 电力150兆瓦 | 并行化挑战 | 网络拓扑结构 | 可靠性与恢复 | 成本优化

แชร์
ฝัง
  • เผยแพร่เมื่อ 22 พ.ย. 2024

ความคิดเห็น • 87

  • @austinsu5838
    @austinsu5838 4 หลายเดือนก่อน +26

    早說嘛!原來這麼簡單,明天就來搭建一套😂

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน +4

      赞,我就知道有人有一片园区的😁

  • @scottie2475
    @scottie2475 3 หลายเดือนก่อน +9

    感覺現在的AI中心很像1940年代計算機的初期,那時的電腦架構(IBM Mark 1 )就是計算,指令,資料,存儲,輸出,輸入各有一套設備,然後用各種線纜串連起來運行,當時的電腦就是一個數據處理中心。
    如果歷史唯一不變就是不斷的重複過去,那可以期待30年後目前最強大的X.AI中心,相等算力將會縮小到一台桌上型電腦的大小。別跟我說什麼量子計算,量子計算再怎麼發展也取代不了目前的傳統計算,這跟飛機再麼快也不能取代汽車一個道理。

    • @leonh6538
      @leonh6538 3 หลายเดือนก่อน +2

      我认为量子计算机还是有希望成为下一代AI的核心架构的。目前讨论比较多的为人工智能构建重新的下一代计算机架构主要是存算一体和模拟计算,而量子平台实现这些特性有天然的优势。就目前量子计算的计算理论来看,量子计算机尚未在一般问题上显示出绝对的性能优势,也尚未实现图灵完备的可编程纯量子平台,所以大家一般认为量子计算机不会完全取代传统计算机。但AI训练中本身就存在很多适合量子计算处理的优化问题,通用的可编程平台也未必是必要的,因为模型的架构,推理和训练或许都可以绕过软件直接通过量子电路直接实现。

    • @kwingwingchan7540
      @kwingwingchan7540 3 หลายเดือนก่อน

      @@scottie2475 主要看NVDIA 給每張顯卡的顯存,以現在的技術每張最高端顯卡做到2T顯存是沒問題的,但老黃的牙膏要慢慢擠,這25倍可以分20年來完成。十萬台能以4000台就處理好數據

    • @scottie2475
      @scottie2475 3 หลายเดือนก่อน

      @@leonh6538 如果沒有意外,20年後的量子計算應該還是跟現在一樣停留在實驗室,因為要抗干擾實在是太困難了,而且這是物理限制你根本突破不了。

  • @glaucusnidaye
    @glaucusnidaye 3 หลายเดือนก่อน +2

    硬核,纯纯的干货👍👍👍。感谢分享。

  • @fan5188
    @fan5188 4 หลายเดือนก่อน +2

    哇,原来跟我一起看大飞视频的还有Nvidia的大佬。十分荣幸😊

  • @yuchunlei-hu4dz
    @yuchunlei-hu4dz 9 วันที่ผ่านมา

    讲的真是太棒了

  • @vjzp9354
    @vjzp9354 2 หลายเดือนก่อน +2

    13:35 可能应该是QSFP

  • @changxu21
    @changxu21 4 หลายเดือนก่อน +8

    让我想起了五六十年代的巨型计算机,而算力还不如当今的计算器。也许大飞描述的10万卡,再过十年也就一个机柜的算力。

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน +2

      嗯,真搞不好

    • @Guavaava
      @Guavaava 4 หลายเดือนก่อน +4

      ​@@bestpartners感觉很难。现在制程升级速度慢了很多很多

    • @readthefuckingmanual
      @readthefuckingmanual 4 หลายเดือนก่อน +1

      @@Guavaava 算法上还有很多的可以优化的

    • @hugo-sd1zi
      @hugo-sd1zi 4 หลายเดือนก่อน +2

      量子電腦,可能放在手錶上了....

    • @pascalzhou929
      @pascalzhou929 หลายเดือนก่อน

      感觉真是历史再重演,当年冷战时期,美国拼命建设超大型计算中心对抗苏联威胁,一栋大楼就是一台机器。现在搞AI算力集群的疯狂劲头更胜当年。想必会再次推进计算和网络技术的突飞猛进。

  • @FooFighter5212
    @FooFighter5212 4 หลายเดือนก่อน +41

    我也是飘了,连这样的节目也敢看了😂

    • @auroroabc
      @auroroabc 4 หลายเดือนก่อน +2

      还开了倍数……

    • @carloshsueh9195
      @carloshsueh9195 4 หลายเดือนก่อน +5

      演算法真是太看得起我了,還推薦我這樣的影片,可見對我還有點期待😂

  • @samzong
    @samzong 4 หลายเดือนก่อน +1

    真硬核,学习到了

  • @scchen2011
    @scchen2011 4 หลายเดือนก่อน

    很棒的一集,benchmark的算力作法😊😊

  • @火宅佛獄佛的異數
    @火宅佛獄佛的異數 4 หลายเดือนก่อน +1

    不管在簡單的工作,當它的規模大到一定程度的時候,都會變成極度複雜的工程

    • @hugo-sd1zi
      @hugo-sd1zi 4 หลายเดือนก่อน +1

      最後集群數據交換的時間比計算的時間還長得多,整合數據的時間比所有計算的時間還長,就會改用量子計算機來取代....

  • @hugo-sd1zi
    @hugo-sd1zi 4 หลายเดือนก่อน +1

    現在歐美已經開始數據稀缺了,大公司要花重金購買原生數據庫,否則就會造成重複訓練過載效應,這在中國的大市場與大工業下,數據遠比算力增長快的多,因此中國廠商反而是重金購買算力晶片.....

  • @HarimotoSatoshi
    @HarimotoSatoshi 4 หลายเดือนก่อน +2

    大飞忘记讲最关键的一个话题,即如何搞定40亿美元,期待更新中😂😂😂

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน +1

      哈哈,这是个好话题

  • @小時候-l7j
    @小時候-l7j 8 วันที่ผ่านมา +1

    巨大化 但是商人沒法一層一層 剝削

  • @wonmanintp
    @wonmanintp 4 หลายเดือนก่อน +2

    老馬就要建個10萬個H100,再建個30萬顆GB200 總價要90億美刀

  • @kangcc912
    @kangcc912 4 หลายเดือนก่อน +1

    是不是可以戰略合作。
    google、open AI等 共同搭建,各自訓練。
    以君子協議 或其他契約 限制公開的D day,
    可能同時同天,也可能基於其他參數調整發布的先後順序。

    • @hugo-sd1zi
      @hugo-sd1zi 4 หลายเดือนก่อน +2

      業務競爭,老大飽,老二餓,老三死.....

  • @feifeishuishui
    @feifeishuishui 2 หลายเดือนก่อน +1

    没有用的黑知识又增加了。我很确定这辈子用不上这一期学到的技能😮

  • @zohar6006
    @zohar6006 4 หลายเดือนก่อน

    老黃都幫你安排的整整齊齊

  • @zhaocaixiaoDU
    @zhaocaixiaoDU 4 หลายเดือนก่อน +1

    优秀

  • @王大大-f7u
    @王大大-f7u 3 หลายเดือนก่อน +1

    有这么多钱直接让老黄给搭建好不香吗

  • @tonyteng2000
    @tonyteng2000 2 หลายเดือนก่อน +1

    大飛能不能做一期搭建這個集群,這筆錢按照百分比都會流向什麼公司?

    • @bestpartners
      @bestpartners  2 หลายเดือนก่อน +1

      我有机会试试😁

    • @pascalzhou929
      @pascalzhou929 หลายเดือนก่อน

      80%以上是nVidia,GPU计算和IB网络都是它的。

  • @yangyang1412
    @yangyang1412 4 หลายเดือนก่อน

    哥 你很幽默喔
    你覺得你的ta有誰有能耐或需求要知道怎樣搭100k h100 cluster

  • @卡神-o2n
    @卡神-o2n 4 หลายเดือนก่อน

    謝謝

  • @YudanGu
    @YudanGu 3 หลายเดือนก่อน +2

    所以大部分问题还是钱的问题……能拿出4000亿的话……

  • @暗黑的破壞神
    @暗黑的破壞神 4 หลายเดือนก่อน +2

    我支持核電

    • @hugo-sd1zi
      @hugo-sd1zi 4 หลายเดือนก่อน +1

      最後整個地球就是一台量子計算球團,能量是包裹太陽的戴森球..

  • @kaizhu1142
    @kaizhu1142 4 หลายเดือนก่อน

    Leaf交换机就可以,不需要翻译成叶交换机。

  • @zhiboli8306
    @zhiboli8306 4 หลายเดือนก่อน

    学习了,虽然大概率用不到🤣

    • @hugo-sd1zi
      @hugo-sd1zi 4 หลายเดือนก่อน +1

      就跟了解登月技術一樣,聽聽,就算有錢也不一定會自己去做的

  • @杰-x2z
    @杰-x2z 4 วันที่ผ่านมา +1

    彩蛋在倒数第二句话!

  • @zcq6516
    @zcq6516 4 หลายเดือนก่อน +1

    只要scaling law没有看到尽头,集群的规模也看不到尽头

    • @hugo-sd1zi
      @hugo-sd1zi 4 หลายเดือนก่อน

      最後整個地球就是一台量子計算球團,能量是包裹太陽的戴森球....

  • @havenqi3261
    @havenqi3261 4 หลายเดือนก่อน +1

    指明了devops的未来😂

  • @icatzhao6780
    @icatzhao6780 4 หลายเดือนก่อน

    牛逼啦

  • @mactive
    @mactive 4 หลายเดือนก่อน

    大飞以后会有机会搭建的

  • @vincentwang9599
    @vincentwang9599 4 หลายเดือนก่อน +1

    这期硬核系列 不过依旧感兴趣 对想了解AI产业的人来说 (大飞最近换收音设备了吗)

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน

      没换,是收音有什么问题么

    • @vincentwang9599
      @vincentwang9599 4 หลายเดือนก่อน +1

      @@bestpartners没什么问题,不过听上去有种空旷感,个人感觉是回音造成的。

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน +2

      @@vincentwang9599 好的,我看看怎么调整下

  • @Manhasnoname8645
    @Manhasnoname8645 2 หลายเดือนก่อน

    學什麼專業可以進入這個領域?

  • @changxu21
    @changxu21 4 หลายเดือนก่อน

    我想问一下各位大佬,未来ai算力是趋于集中还是趋于分散或者分布式?对于2-5年没什么好讨论的集中更多算力才能训练更大的模型,如果把时间尺度放到10-20年是一个什么趋势?

    • @hubertw9752
      @hubertw9752 4 หลายเดือนก่อน

      个人认为:基于目前的GPU技术,AI算力希望不断扩容但是电力无法支撑算力集中,趋势是跟随电力资源去分布算力。如果下一代专门针对LLM的TRANSFORMIER计算的专用芯片成功推出,能耗承几十倍的下降,算力分布会向集中靠拢。电力的供应和消耗成为驱动因素。

    • @changxu21
      @changxu21 4 หลายเดือนก่อน +1

      似乎有些思路了,也就是说算力本身是趋向于集中,而受限于电力供应,不得不考虑能源分布,而导致算力分散。是这个意思吧?从生物界也许能推出这个结论,单个生物体的神经元规模越来越大,就像人类为了发育足够的脑容量,"早产"出生。

    • @hubertw9752
      @hubertw9752 4 หลายเดือนก่อน +2

      @@changxu21 目前GPU的解决方案是把并行计算发挥到及至,在处理有大量数据背景的AI问题上远超CPU。就是老黄说的“加速运算”。但都是数据及运算分离的,大量资源消耗在数据搬运上,所以能耗惊人。因为电力瓶颈所以算力分散。美国好像目前有多达16家创新公司在搞核电。哪天核能突破,电力瓶颈就会消失。即便算力集中了可是数据中心的位置又会受到散热、水源左右,会建在远离城市的海边、湖边或两极;人脑不然,860多亿神经元,整个功率大概20W。据称结构是存算一体的。计算机是硅基的而人脑是碳基的。从材料到信息原理,人脑到底是如何工作已经能否被“仿生” 还是一个未知数,无法类比。

    • @pascalzhou929
      @pascalzhou929 หลายเดือนก่อน

      总体来说不停集中(大脑发达),集中不了就分散(社会分工)。都怕自己不够聪明,谁还嫌算力过剩呢?

  • @Guavaava
    @Guavaava 4 หลายเดือนก่อน

    我好像读了这篇文章的一部分,因为舍不得花钱订阅读全文😂

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน

      其实最后就剩了一点了,不多了,免费可阅读的部分占了 85% 左右

    • @Guavaava
      @Guavaava 4 หลายเดือนก่อน

      @@bestpartners 舍不得花钱看全文的人肯定都没有40亿😂

  • @davehu8829
    @davehu8829 2 หลายเดือนก่อน

    目前工作的活儿是8000个GPU 集群😂

  • @netoearth
    @netoearth 4 หลายเดือนก่อน

    冯诺依曼体系不存在了,物理学不存在了,超高速网络,存储,架构全部需要重新设计了,苹果还在死守8G不动摇!

  • @LeonZhangxiaolin
    @LeonZhangxiaolin 4 หลายเดือนก่อน

    膜拜这位大佬,求联系方式

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน

      原文链接放视频简介里了

  • @yanjh222
    @yanjh222 4 หลายเดือนก่อน

    讲个好故事,找马一龙啊

  • @frank_zhao
    @frank_zhao 4 หลายเดือนก่อน

    可惜只是泛泛讲了下,没有细节

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน +1

      还得多细啊,你是有40亿美元打算搭一个么😁

    • @frank_zhao
      @frank_zhao 4 หลายเดือนก่อน +1

      细节比如用备份设备替换,那业务要怎么适配,如何替换故障轨道的gpu;再比如为什么是7:1收敛比,有什么讲究,阿里是15:1,等等了

    • @frank_zhao
      @frank_zhao 4 หลายเดือนก่อน +1

      没别的意思呀,我只是想了解些细节,因为自己不懂

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน +2

      @@frank_zhao 没事,这得有机会慢慢做了,随便一个问题拿出来可能都得讲半天了

  • @LindaZhang-fh2ck
    @LindaZhang-fh2ck 4 หลายเดือนก่อน

    好奇怪谁会有需要看这个,老黄要沦落到这样推销的地步还需要一些时间吧。

  • @張榮華-z9o
    @張榮華-z9o 2 หลายเดือนก่อน +1

    中國幻想記 😊老美禁售
    沒辦法 中國老想用來發展軍武😊

  • @yuguo7138
    @yuguo7138 4 หลายเดือนก่อน

    谁借我40亿美元我自己搭个练习一下。

  • @3742185
    @3742185 4 หลายเดือนก่อน

    有40億美元我還不放著給他生利息就可以過上好日子了,幹嘛瞎折騰

  • @mengmeng4312
    @mengmeng4312 4 หลายเดือนก่อน

    😂😂😂

  • @某某人-x6k
    @某某人-x6k 4 หลายเดือนก่อน

    本来以为会增加一些没用的知识,可点进来之后,虽然每个字我都认识,但说的是啥?一句没听懂!!😮‍💨😮‍💨😮‍💨

  • @corgirun7892
    @corgirun7892 4 หลายเดือนก่อน +1

    懂了,这是博通的带货广告

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน

      博通得给我广告费了🤣

  • @forcebender5079
    @forcebender5079 4 หลายเดือนก่อน +3

    这集的标题应该是:“如何让NVIDIA的显卡卖的更快”,没兴趣看广告,撤了。

    • @bestpartners
      @bestpartners  4 หลายเดือนก่อน +5

      嗯,我应该管老黄要广告费啊🤣