AI芯片中的「巨无霸」!英伟达被这家硅谷公司给「偷家」了?
ฝัง
- เผยแพร่เมื่อ 24 มี.ค. 2024
- 这是目前世界上最大的芯片,它一共有4万亿个晶体管。没错,4万亿。相比之下,英伟达B200的2080亿晶体管简直就是个弟弟。它就是2024年刚刚发布的来自硅谷创业公司Cerebras的WSE-3芯片。作为一个AI加速芯片,WSE-3不走寻常路,人家是在一个晶圆上切出几十个芯片,分别做成板卡,它直接不切分,把整个12英寸的晶圆切掉边角料给做成了一个芯片。英伟达此前的H100面积高达814mm2,逼近掩膜版极限,这个WSE-3,就主打一个大道至简,来到了46225mm2。说白了,它就是84个die拼在了一起。这期视频,我们一块来研究下。
The behemoth of AI chips! Nvidia got 'outflanked' by this Silicon Valley company? - วิทยาศาสตร์และเทคโนโลยี
die损坏的部分屏蔽掉降级卖就是了,CPU和GPU一个道理,造出来都是i9,屏蔽损坏部分得到i7 i5。GPU完整AD102核心制造出来有18432个CUDA core,RTX 4090会屏蔽掉其中大约10%的损坏核心,只能用16384个。
有個問題,這麼大的計算量,散熱如何有效冷卻?
在晶圓製造的角度看,這絕對是個很糟的解法。die size越大,良率是指數級的下降。否則這路線早就成業界主流了
主要是在AI的風浪下, 這產品最終單價超高, 他們評估完全可以使用已成熟的5nm製造, 在良率應該超過95%的情況下, 這已是小case了
也許和蘋果的膠水芯片 M1 Max、M1 MaxDuo、M1 Ultra 一樣,是切割出 die 後二次粘合的呢?
他們創新設計,有冗餘的,容許晶圓有defect,屏閉掉壞的地方就可以了,當然AI應用給這種設計大大提高了可行性。
AI芯片,越贵越好,门槛越高,能买AI芯片的公司都不差钱, 都想比别人先搞出来,而且不想让别人搞出来。而且这个东西不是PC,不需要人手一个,只要做出一个超级智慧的成品,其余的都是往事。
赞同! 如此大的package, 测试都是很头痛的事情,哈哈。
最終還是要看算力電力比,算力發展到一個階段的時候,誰比較節能省電將會脫穎而出
你還忽略了幾個, 體積及散熱, 相同算力下, 它的體積可比nVidia小的多, 然後你會想問散熱怎麼辦, 由於它是整片SoC, 其實效率遠比走PCB, 覆晶, Silicon interposer, 塑封材料來封裝來的高, 所以相同算力所需功耗會較低(但也不至於天差地遠), 但更重要的是純Silicon die的導熱性及其不需磨薄的wafer條件下會比再比chiplet封裝還來的好很多的, 我個人反而比較好奇的是IO pin count這麼多, 他們是要怎麼handle?
量子運算降維打擊
@@owenchang2581 散熱效率是相對的,一個cpu散熱效率較低,但是一整片的散熱是另一種問題,一根蠟燭的熱,跟一棟大樓燒起來,不是同一件事
老黃有說過晶片如果過於specific於某種應用, 那麼市場就會太小. 但如果過於generic那麼運算就不夠快. GPU是他認為最好的平衡.
以后还是会有很多小芯片。
這種設計也是有缺點,首先only one die就會造成wafer 面積無法最大化。另外只要一個die死了,那必須blanket it. 那設計那麼多SRAM等同浪費,SRAM是最佔面積的。另外若Defect at SRAM AREA,那個DIE也就死了。整個設計就是有錢就是任性,沒什麼了不起的理念。還不如採用多層堆疊封裝,當然那又牽扯散熱問題。
不需要,本身每个tile都可以屏蔽
他可以屏蔽掉NG的部分 但算力跟良率就是直接掛勾了
以後SoC(system in chip)是不是要改叫SoW(system on wafer)了?
请教 这个和存算一体 是什么区别?
两个关键点:一,用户的模型程序需要多少修改,才能在新的芯片上运行。二,有没有测试服务器,让用户可以先测试后购买。相比Nvidia的A100 cluster,运行这个芯片的服务器能带来多少效能提升?
良率是time 0的問題還好對付,reliability應該不容易解決吧,除非上線使用時錢不是問題
這樣會比較省電嗎? 🤔🤔🤔
Thank you❤
能耗呢?
这么大散热问题怎么解决?
可以添加英文字幕吗 😢
还要看性价比 价格 良品率综合表现
產能、價格、效率、能耗
竞争好呀,AI发展更快
很多留言都說這是很糟的設計,只要裡面有一個壞了,就會影響很大。但他公司厲害之處,就是軟體設計,會偵測與繞過壞掉的部位。
绕过的那部分公司退不退钱啊?造成的性能下降赔不赔钱啊?
軟體設計只有自家支持阿,那真的沒前景了。
這哪有啥厲害了.......你的HD有壞區,不也是BAN掉嗎?但是換新的好些
@@hengzhou4566當然價錢就不一樣阿,8核心能賣得跟6核一樣價錢嗎🤣
因為他們不懂
下次可以做成圓的~連切割都省了
也許以後線下的AI機器會朝這方向發展 在這架構下應能實現毫秒級的反應能力 至於容錯能力 只要多切幾個冗餘的die就好了
這個良率高嗎?
生产成本会很高,因为良率下降得很快,这是一个糟糕的方案,苹果和AMD则聪明很多,把很多小的粘在一起,保证良率的同时提升了运算能力,不过1+1
主要是在AI的風浪下, 這產品最終單價超高, 他們評估完全可以使用已成熟的5nm製造, 在良率應該超過95%的情況下, 這已是小case了
加油阿 cerebras208AB的 WSE 3 要是都給老黃獨佔了 未來Ai用的晶片價格有多貴 都是N牌一家在喊價😅
那家晶圓代工廠,禁得起大晶片的“良率”代價!
看大刘的视频,得重新回去复习《线性代数》😂
既然不切块,为啥不能做成圆的,更大一点
有一點比較奇怪的是良率不可能百分之百啊,只要有一個die為不良品那要怎麼辦
性價比,才是關鍵。
服务器用的!企业买得起…
現在還是賣方市場
@@Sun-lf5hn 賣的是生態系
做矩阵运算还是量子计算机擅长
力大飞转
了不起的新創公司!
好幾年前就有了
而且大陸也有,但被人狂笑
可能是外國的月亮還是比較圓🤣🤣
@@aicloudie
到了現在, 情况可能有點不一樣。
Tsmc 的先進包裝及3nm 到5nm 技術, 使該公司與Nvidia 有一爭之地。
當然Nvidia 及 AMD 也是受惠於先進半導體技術, 賺翻了。Intel, 聯電和 GlobalFounfries 是真要哭了。
@@yanglee1404 WSE-3是5nm
前一代WSE-2是7nm
這種特殊規格晶片,主要還是看誰的生態建全
@@aicloudie終國想像中什麼多有,燒掉多少錢了不是一家家都是騙錢的?如果沒有臺灣人梁孟松連中芯都不存在。
好 買了
分析錯了 現今的DL model基本是memory bound 的
這種大設計 只能把互聯做到比較好 但memory 還是靠wafer上的SRAM
说不定这个公司一怒之下过两天做成3D堆叠的,除了最下面一层上面全是HBM。。。
@@hengzhou4566 對 但不一定是HBM
@@hengzhou4566 有这么可爱?
SRAM的速度本身远远高于DRAM,其实现代的DRAM也不完全的volatile,在合适的小备用电源条件下甚至可以有足够时间把他flush到M2 SSD上
製造良率是一個問題
他們應該不是主打消費者市場 是給政府機關、銀行大佬、科學製藥專用的
我跪了
其实不用在一个晶圆上制造吧,在一个晶圆上一个瑕疵整片保费啊!
不会报废,有冗余设计有容错度的
TESLA 的 DOJO 不也是這樣
英伟达的GPU需要CUDA的支持,而CUDA是英伟达自有的。这个新芯片需要语言支持吗?
生态全世界包括美国其他公司都做不到CUDA那么好。
CUDA在2007發布,nVidia早早就在開發GPU除了圖形處理外的用途,也難怪大家都用nVidia。
把標題看成:A片中的「巨無霸」
这个股票的代码是什么?
没上市,在IPO中,
Dojo 好像也是这么设计的?
不是。没有整块晶圆做一颗巨无霸芯片。
很好奇大刘的专业,为啥你啥都会啊,物理、化学、计算机...🙃
tsmc inside
好大一块饼干
大力出奇迹?
看到这芯片的图片,我开始相信“大力出奇迹”!😂😂
力大磚飛XD
現在AI正在無序亂生長,但是如果目標是跟人類一樣的思考能力那未必是參數越多就越好!
請參考一部美劇"西部世界",裡面對仿生人的AI設計很有意思,他把人的大腦意識用一本書表達,人在做決策選擇他的複雜度不會比一本書的內容還多.請問你決定是否要動手做這影片時受到多少參數影響?無意義的參數可以無限多個,但是真的影響決策的參數可能只有幾個,例如這影片可以賺到多少流量這一個參數就占到99%的權重了!
是跟人類一樣的思考能力那未必是參數越多就越好!
良率夢魘
比小比不過就比大?
有誰說一下?光罩最大就是800mm2,那怎麼拼成40000mm2的完整不斷線的晶片?良率?聽說一片賣好幾萬美元啊!
單位搞錯瞜
底層不連續 頂層金屬用特別方法連接
需要找台積電代工
@@peacelove7468 那麼是什麼單位?請說!
@@yaus0527 那不如chiplet,woco好?
良率就判這個一大片死刑了
越来越听不懂了,不知道为啥
缺點是 一個點壞了 可能全部都受到影響
肯定是有自检测,坏了的部分就关闭
@@awesomegmg956 钱谁出啊?就算给换,误工的损失谁负啊?你知道商用HPC里一块H100一个小时多少钱吗?
@@awesomegmg956生產良率要很高,當然找台積電代工
基本上,這麼一大塊晶片,製作就一定會有壞掉地方.
壞掉都被繞過了. 所以效能絕對不是100%
听不懂看不懂,所有的名词都不懂,要是能回到原始社会就好了😅
Not cost-effective....
怎么感觉谁都能设计GPU呢?感觉GPU设计没有什么传承,就连A100,H100,B100都是不同的设计架构,完全不需要传承。一个新产品一个新设计,谁都可以设计一个构架。感觉GPU没啥门槛。
Blackwell架構只算是微架構
當然有傳承之前的微架構啦。
而nv現在值錢的地方就是它的傳承。
它們也屬於cuda(統一計算架構)。不同微架構只是改變硬件參數及加入更多功能令性能有更大提升
看看架構圖就知道每一的設計其實差不多
硬體要搭配適合的軟體才能發揮最大效能 , 還是我的理解有誤 ? 🤔🤔🤔
不是GPU没门槛,是AI没门槛
晶片又不是大就好,不然AMD早就這樣幹了
大刘,我能问一句 你讲的这些 你自己真的 懂吗? 呵呵,云里雾里。
再大也是二维的,未来应该会有三维立体芯片,就和人的大脑一样
大量信息送大脑中流过,然后什么也没剩下。🤣
你买了股票没😅
封裝有難度😓
不封的 用特別基版直上PCB
@@yaus0527 不用封?你的io跟散熱怎麼處理?我是真的好奇了,真的能用特殊基板那全世界的封裝廠可以關門大吉
@@user-hn6jw7uw5m 上一下Cerebras .官網
他們用的是 裸 "wafer" flip chip 上PCB
wafer勝金玉
创造这么大的芯片有什么用?如果此芯片不能贯彻执行两个维护,两个确立两个自信四个意识和四个凡是那么此新片必将会被世人所淘汰,只有中国创造的中国新中国的芯片一定要贯彻执行两个维护两个确立两个意识,四个自信,四个,凡事才能让AI真正知道只有遵循。此种道德规范,才能够顺应人类发展
听你的话吧,就知道你既不懂技术,又不懂政治哲学。结论是这个频道不适合你。
這位應該是在反串吧😂😂😂
这种人都是有病,时间不值钱@@DestaTW
单细胞级觉醒
@@user-vy5ut3ox5k 台湾属于中国
不是大就是好!...
在偉大的共產黨習近平主席的領導下,在中國所有的高科技必需是政治正確且充滿正能量!
只面对企业级用户啊,丧失一块市场
Nvidia 接近80%的营收都是to business的。这种东西不需要应用到消费级
消费级市场4080性能都过剩了
市塲區隔是很重要的,一個後來者甚麼市塲都想要,只是死路一條。
还有消费级市场的驱动很难做,英特尔的显卡驱动都磕磕绊绊。更别说初创公司了
能说人话吗
你講錯了。L1 private. L2 L3 inclusive share cache. 內部還有 private sram. Shared sram.
良率?功耗?就不吱声了。
扫雷不卡
完全听不懂😅
大刘到底在念稿还是自己懂他嘴里说的这些?怎么可能从电动车原理到AI全都知道这么多?
有聽過...樹大必有枯枝,人多必有白癡?
那麼大,那麼密..裡面有問題...找得到嗎?
海底撈針總聽過吧?在想什麼
線上品檢一台機車或品檢一部航母...哪個快呢?
這是賣牛排的下來搞晶片吧?
這是農夫種田