ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
在芯片等級下的存算一體仍有以下問題:1. 其存儲的內容及過程很難被掌控,因為儲存的記憶體被分散,並與處理器互嵌,加上 AI 的計算是多層級的,這種情況下,你能掌控的是餵給它的資料,以及它最後所產出的結果,不易於確知其過程,換言之,這樣的 AI 更有可能脫離人類的導控。2. 存算一體只能在單顆芯片中實現,但 AI 的計算中心,是由眾多的 AI 芯片所組成,在芯片與芯片之間的交互傳遞才是整個算力的最大瓶頸。
中国在退出超算排名之前一直领先,这还是在单芯片性能落后的情况下达成的成绩。大型计算集群的组织技术中国应该是相当不错的
大刘是不是进入流量焦虑期了😂最近更的太猛了
算力,除了芯片,光交换网络,更是有超级能源供应决定的。
国内的计算资源获取难度比国外低得多,移动和阿里的免费额度都是给的相当慷慨的
到最后就得看同等算力下,谁家机房先爆炸。😂
看完 Terminator 2, 3, 4发現 旧的 单个 T800 也能够打败更先进的 T1000, T2000
雞头米?!有可能,浮式手扶機採嗎?
可以好好研究去中心化 AI 解決方案:Bittensor
groq llm chip 是一樣的東西嗎?
目前我觉得用的字节的AI感觉已经很强大了
几个用下来,通义用的比较顺手
chatglm试试
@@bingzhao9314 通义我用来润色论文过,感觉和gpt差不多,有些时候翻译的还更好一些。其他方面就不知道了
我個人看法,萬卡集群不是重點,這不就是基本的算力中心配置麻,真正的重點是蓋在那,東數西算才是重點~!
赞同。盖在风光水电多的地方挺好
你還看法了啊?當初吹那個姓嚴的蛋白質摺疊呢?當初愛用數據說中國經濟出口數據呢?現在歐美日已經把70~80%的替代產能在中國以外建好了加增關稅正式開始~!川普上~從中國進口關稅60%起賀錦麗上~繼續包圍緊縮政策你不是愛算? 你不是愛建議? 你不是愛開藥方? 還你的看法?笑死我了蓋在哪? 中國已經注定落後被放棄了~ 還東數西算?笑死我了~以為現在把戰略物資生產線往大西部撤離就揍不到你了?笑話.....就一堆山寨貨.....看俄羅斯就知道了.....廢物
我听到一个说法,集群的瓶颈在卡与卡之间的介质,而光技术传输是华为领先,国外是4000块卡是最大集群,我们超过了这个数量,是16000张卡,不知道是否正确
不完全正确,华为是分布式算力集群,不是你理解的特斯拉算力服务器集群方案……
哈哈哈哈哈哈哈哈哈哈哈哈 你是不是听说国庆节后两万点
不對,國外早就破萬集群很久了,人家谷歌微軟Meta在砸錢拼算力,也是靠大量集群.這種事情怎麼可能只有中國人想到到,外國人又不傻,誰不知道越多越強OpenAI早就有數萬卡集群起跳領先很久了集群规模越大 妥善率越不稳定,所以無法無上限增加,所以同時還是要追求用H200/B200這種怪物卡去集群
@@waffenss1234567 中国人不教逻辑 互联网上不是永乐大典早有记载,就是所有技术我们都已经掌握西方嫉妒我们不承认
記憶體內運算那有那麼簡單,要挑戰馮紐曼架構早的很,領先者美光都還在實作中
存算一体在技术上并不难。难在生态建设上。
存算一体是这样理解的么? 非冯诺依曼 肯定不是这样。 这期算是软广告了。
只要电费便宜,使劲堆落后GPU提高算力也是个办法
最根本的还是应该在理论模型和算法上找突破点。即便做不到四两拨千斤,拨百斤、十斤总还是有希望的。
这就是祖国的优势了。Chair man 的人民战争就是AI的最终思路。祖国是社会主义国家。可以规定法律人人必须共享显卡算力 14亿人就可有突破。但主席必须统一指挥统一调度才可以。药不然没有人有这样的能力
虽然你翻墙了,你的思维仍然在墙内。
傻逼
大跃进也出来了
到时候整一个ai主席出来
药不能停
难怪有人预测电不够用了
存算一體概念是好的,但現在的萬卡集群都是跨機櫃等級的direct memory access, 數據傳輸是必然的, 因為算力上限問題導致跨機櫃的分散式計算了, 你單純的存算一體都只能改善單晶片效能而已,你還是避不了數據傳輸問題,建議看老黃最新採訪,點出為何NVIDIA還一直是霸主的關鍵,TCO(total cost of operation)才是NVIDIA一直保持冠軍的關鍵視野
存算一体解决的就是传输的能耗和延迟问题。普通的GPGPU之类的基于冯诺依曼架构的HPC系统的最大瓶颈实际上是DRAM I/O。GPU/CPU等待DRAM I/O的时间甚至有可能超过core的运算时间。冯诺依曼架构相当于车间和仓储分开不同厂区,之间要靠BUS来交通运输。存算一体架构相当于在仓库里开作坊。虽然每一个作坊的处理能率比不上专用车间,但并行度很高。相当于将Core数提高两三个数量级。同时作坊就建在每一座仓库里。作坊和库存之间的交通不占用节点间的BUS。
@@leemz2002 單晶片算力是有限的,無法做到無限大,存算一體只處理掉單晶片內的I/O消耗問題,你單一晶片算力絕對無法處理所有運算,你單一晶片算完還是要傳到下一片去算,這邊的傳輸限制才是真正的瓶頸,不是單晶片內的I/O瓶頸問題,這個速度遠比你HBM/GPU的速度要慢,你不解決跨CHIP的傳輸問題,你的整體training pipeline一定是被這塊拖累,你單晶片就算比NV快10倍,你傳輸速度卡死,還是沒用
在神经网络计算中有个all-reduce 是绕不开的,存算一体只是data locality 的应用,解不了all-reduce 。只有算法上解决数据流转的问他,communication efficient 的SGD 才能突破瓶颈。早期的分布式机器学习文章就说过为啥高带宽通讯层才是Nvidia 的技术壁垒,国内的万卡集群只是单纯的横向扩张,对大模型的预训练没太大帮助
@@xumiao6927 LLM刚好是您所说的这类data locality应用。Stochastic Gradient Descent可以跨节点,也可以不跨。取决于全局优化策略。而且用SGD优化,可以基于CPU、GPU、DSP、FPGA、CIM或者其它任何可能的算力硬件。CIM可能是节点间传输效率上限最高的。因为那是各种存储介质中带宽最高的,而且可以使用DMA之类的机制实现不占用CPU时间的数据传输。
@@leemz2002 我说的是gradient vectors update ,当你的模型太大需要分布在不同的机器上,这些update 就需要同步更新,导致网络堵塞。如果你知道如何分拆模型以至于它们之间相对独立就不需要这样的同步,可以大大提升训练速度,比如mixture of experts
充值了
集中力量为大事的优越性又一次显神威
🤣 这么神威 经济救活了吗 哈哈哈哈哈哈哈哈哈
光靠堆卡没用的。几万张卡对于大公司来说没多少钱。AI炼丹不是人多就力量大
結果最近爆出華為透過白手套公司下單台積電,被抓到了,大劉能對此事發表意見嗎?啊不是說能自製、能自製
可能在某些技术领域,想取巧以空间换时间,靠自力更生可以成功,但更慢一些
刚问了AI,怎能在没有 高階显卡前题下 而又能 提高算力 打败 美国。AI 回答:1)先投入 十万亿...然后 我再没有看下去了。
10万亿这是小钱
十万亿不是多大问题 而是十万亿投进去要十年只能超越2024年的美国
@@rogermylin集群规模越大 妥善率越不稳定 所以無法無限擴大集群還是需要超強力GPU+可實用的集群規模,高階顯卡是不可能避開的門檻否則你集群 人家也集群甚至更多更大 你單卡輸很大,雙方算力可以差距一個數量級簡直是大人打小孩
能抓老鼠就是好貓😂😂😂😂😂
本来现在用GPU替代CPU就是要搞并行运算,并行的方向没有错。人类新一代核能技术中国吊打全世界是没有错,问题就是运算效率的差距能不能用电力的优势弥补。
大劉其實沒有講完整的實話他要顧慮愛國流量, 鼓舞士氣...有些實話要選擇性的講.唉...大家要知道,你看到資訊是人家選擇性給你看的,有動機有意義,自己要思考....早期A100實踐集群就能萬卡近萬P算力了.....A100是3-4年前的主力產品了萬卡集群早就在歐美廠商落地很久了,當人家新的H100/200單卡效率是你的幾倍時......你所謂的自主自研萬卡,還是遠不如別人的主流強力H100/200萬卡....人家就算滿手強卡 也一樣在集中力量辦大事,而且做的更早 走的更遠,2年前發表的H100,只要你有足夠的錢足夠的卡,理論擴容極限5萬張卡集群,10萬P算力至於新的B200,不要問了,問了辛酸,差距更遠......202409大廠算力資料第1美商XAI有規模10萬顆GPU年底擴到20萬GPU含5萬H20第2為美商Google的9萬顆第3為美商OpenAI的8萬顆第4為美商Meta 7萬顆GPU集群第5為微軟的6萬顆GPU集群第6為美商Nvidia自家的5萬顆萬顆集群是很可能連到世界20名都有疑問
华为910C实测成绩已经是H100的百分之70以上,你可以去了解一下,差距越来越小,不会越来越大,两年前华为卡的算力才只有对手的十分之一
理想很豐滿,現實很骨感!
黑熊要冬眠了,明年再说!
😂芯片只是一部分 怕的是被阉割的数据
属于是黑客帝国了😂
搞AI如果显存容量不够容纳模型本身的话,速度一下就是差十倍甚至百倍,所以禁售中国的基本都是显存非常大的卡,包括显存很大的民用显卡。这样的速度差距不是多搞几张显卡互联可以解决的。
显存能有多大?几百个G?上T?做大型的LLM一定要有参数处理的分割解决方案。不然显存的上限岂不成了项目的上限了?
@@leemz2002 分割越多越細碎的效率越差
@@waffenss1234567 那要看如何分割了。比如将N^2问题分割成m * (N/m)^2问题,就有可能增效降本。
不要引用22年ai爆发前的 GPU利用率数据。。。。。
全世界在搞AI, 能搞AI,搞得起AI的国家就两个。所以,中国AI不是第一,就是第二。
文无第一,武无第二。在AI领域,中国没有条件当第二。因为这是个死活问题。不过幸好老美的股价导向企业治理把路带偏了。而且他们缺少可以与AI结合的实体经济应用场景。谢天谢地。
1. 金字塔型+(倒金字塔)2. 區塊+區塊型3. W型+ W型
英伟达去哪里了?
支那人不知道NV供不應求嗎?
我还是不相信所谓的大模型AI能搞出什么实质东西。到目前为止并没有什么实质的毛用。再过10年,20年,依然是这个判断。。
那是你没运用而已。。这玩意就和计算机一样。。很方便。。哈哈
講認真,到今天還認為AI沒應用的人,真的該反省自己是不是學習心態太消極了
目前AI的炒作除了爽到英偉達外其他都很慘,可以說除了英偉達其他全部加起來的營業額都還不如另一家新創的晴色網站,至少目前為止是還沒看到出路,炒股意義更大~!小弟不是說不能支持未來,但現實也應該看看~!你開雞排店未來賣得好不好是一回事,但現在就是賣不好~!
@@kenken-lj8xd 就是搜出一些不知道真假的小作文?除了帮我孩子搜小学生作文,确实没发现有什么用。
@@roych3281 我现在就交孩子使用AI来学习。。题目打进去。马上告诉你解题方式。。孩子自己看就知道了。。不懂。还可以继续提问。。我认为对孩子学习是一个不错的东西。。不需要找老师。自己就可以学习。。挺好的。。我小时候不会做的题目。要第二天去询问老师。。有时候老师也会忘记。老师也要去查资料。。但是AI能迅速告诉你。。这对学习的效率很高。。
面向个人PC的存算一体的芯片是苹果的A2及以后来的A系列型号的芯片。
Apple那还是冯诺依曼架构。冯诺依曼架构相当于车间和仓库分开,两者靠BUS交通运输。存算一体就相当于在每个仓库里设作坊,作坊读取或者写入库存只占用仓库单元内部的BUS。
@@leemz2002 这样的话,那每个仓库单元不是没有设置固定大小,而是根据写入的容量来扩展其大小的?
@@Clay_Figurine_Legend_Share 当然有了。尺寸取决于单片或者单条可以容纳的DRAM单元数。换个角度,就相当于在现有的DRAM芯片上开出一块来做个简单的CPU。或者在内存条上贴一片CUP。具体要多大容量,取决于要运行的模型需求。比如要我设计一个针对LLM的存算一体架构。我会在每一条上设一个调度核,在条上的八到16片上各设一套运算核。每个运算核设16到1024不等的运算单元。然后用在特定物理地址上写指令和数据的方式分配运算任务及提取运算结果。
如果科技路線正確的話,那麼經過市場考驗,十年後就贏了,但是,如果是國家體制,一窩蜂的方式將失敗。
资源整合懂么,尤其是你在被卡脖子
是不是说反了?市场是逐利的,资本不关心方向正不正确,长期利益大不大,只关心短期能不能赚钱。
@@chunyuou9944 别对牛弹琴,繁体的大多是弯弯,信奉自由民主神教,觉得集体的都是不靠谱的
講那麼多,是要用哪一張卡還哪幾張卡,都講不清楚
电费再便宜也顶不住
大陸方打算用一力降十會建立世界級的運算中心...台灣本島還在 乾淨的煤 風電 光電 積水非淹水 文字詭辯吵個不停。😂
中國的公司最會做PPT, 實際的產品如何, 都不敢說明. 存算一體, IBM發展近20年, 依舊平平無奇. 中國那家什麼什麼"鑄", 靠PPT來騙投資與補"鑄" 吧.
接着遥遥落后即可,你大可以相信中国是靠着ppt干到世界第一制造业大国的,也是靠着ppt,从只有台湾4倍gdp干到世界第二的,也是靠着ppt从两艘美国航母就能封锁整个大陆到大陆围着台湾溜溜转圈,你美国爸爸连个屁都不敢放。也是靠着ppt干出来全产业链半导体的,更是靠着ppt打了一发12,000公里的小鞭炮。不要抬头,不要抬头,不要抬头。
他根本没能力大规模制造 就算发明出来了 也没用
去查查开源大模型榜单有没有中国的不就知道了
会做ppt的怕不是某公司。我还在高中的时候就听说要带领人类16年登录火星,当时真是崇拜啊,觉得太帅了,结果等我上了大学,ppt变成20年带领人类上火星,后来改到24年,前一段又成了有生之年了。
把一万辆自行车或汽车堆积起来能上月球吗?
比喻不恰当。万卡方案相当于用一万辆十吨卡车来取代两千辆五十吨矿车的吞吐能力。人力成本和能耗的确会高一些,但不至于完全无法实现。
就你?一个乞丐挖苦富豪不会花钱?🤣🤣🤣
无人机蜂群战术
不管是什么架构,都绕不过两个东西,制程、网络,妄想从架构上弯道超车,想多了
你懂个P
這已經是末端的東西了,真正要超車必須從前端下手,"數學"!沒有數學上的突破,後面怎麼努力都只是拾人牙慧,猜猜菲爾茲獎有幾個中國人?
@@toh81390数学这东西没必要自卑。
你知道自己在讲什么吗?除了傻逼以外,没有文明的语言能描述你留言。但凡懂半点软件或者硬件他基本常识都不会讲这种傻逼的言论。论点跟论据没有联系,然后论据又不成立。
@@toh81390 啊对对对,全是台湾的
堆了一大堆名词和概念搞的我云山雾罩的。
面对群体不同
AI現在的定位或定義都很模糊。所以不懂沒關係。為什麼現在沒人討論人工智能會扼殺創新力?萬事都能AI生成,人腦袋會不會越來越笨?
反正国家给钱,随便烧
明显是理想主义者,, 也没正真碰过DataCenter。同样的带宽,需要10x,100x 以上的低性能芯片。问题1:低性能的芯片功耗更大,10x/100x倍以上的功耗怎么解决,散热怎么解决?2,10x/100x的分散链接,怎么Synchronization?10x/100x的空间哪里来,怎么连接?
只要錢能解決的都不是事,可是你們中國沒錢啊,看看你們韭菜百姓的薪水和失業率,你們已經out了
再叫也改变不了台积电最后的结局
中国和美国是唯二可以在任何高科技领域较劲的对手,中国OUT了,就没有其他国家可以跟上了。
其实ai的尽头是电 只要电价足够便宜 你懂得
核聚变启动!
那是要到规模超级巨大的时候,现在还远没到那种程度IDC都是0.1多点的电费
AI不是挖矿。Hash算法已经没有进一步优化的余地了。但AI算法还有巨大的优化空间。甚至可能是颠覆性的算法优化。
还是你懂
@@leemz2002 我的意思是在目前的状况下实事求是的说,在短时间内我们追不上NV 顶尖的水平。所以我们如果是能达到 Nv 顶尖 gpu 60%~70%的性能,然后通过我们几乎无限低成本的电,特别像那种内蒙古新疆西藏甘肃这种便宜的风电光电,我们可以完全用大规模集群算力的方式碾压老美。而且国家也确实在布局。
講得這麼神,請問股價是英偉達的百分之幾? 資本是最精明的
华为是非上市企业。谁敢说华为不够精明?
大劉:十萬大軍難道幹不贏一挺重機槍嗎?我:可是我們自由世界有十萬挺重機槍啊!你們有100億大軍嗎?
你们?真把别人当爹了,只是不知道人家缺不缺儿子🤣
哈哈,美国不是你们
@@exfrigustra2841 總比你們當俄螺絲的龜孫子要強吧?呵呵,每次看到習近平羞澀地跟普京談話,臉上露出崇拜普京的神情,就覺得你們這龜孫當的真是不冤枉
煞笔玩意,真尼玛觉得自己是美狗了??实质是狗几把都不如的玩意。
看来之前自建的太湖并没啥卵用😅
根本就是不同赛道的选手
首先要防止某個人的「加速」,然後有可能讓中國芯片加速
限制AI发展的根本从来都不是这些,所以并没有卵用。
全民煉鋼时代到了
演算法和大模型贏不了美國人,拼芯片製程與產能幹不過台灣,美國和台灣還是鐵血聯盟,技術互相交纏迭代速度是你們的N倍,球員裁判都是我們的人,我就問你們中國拿什麼跟我們玩啊?
潘金莲跟武大说,你怎么跟我和西门庆斗!
@@leishi7753 西門慶是美國,潘金蓮是台灣,那中國就是武大郎囉,呵呵,很符合科技業現狀啊,中國幹啥啥不行,只剩爛尾腰斬的房市和超高失業率,超低薪資,我看著就像個悲情武大郎
工业明珠还差什么
人的大脑是不是就是存算一体?脑机接口实现了,会不会把人脑连在一起做一个大规模集群?到时候有人问你:在哪里上班啊?回答:算力农场!
和外國的算力不是同一個量級
英伟达耕耘了三十年,华为三年就弯道超车了😂
30年是从创立公司算起吧。CUDA的1.0版是2007年才发表的。CUDA大规模用于AI领域是2017年前后的事情。满打满算不到十年。而且GPU本身本来是用于图形处理的,架构并不太适合AI的应用场景。AI是典型的大存储量、高并行场景。游戏的图形处理是小数据,中等并行场景。RTX4090的显存容量不过24GB,还没有服务器的零头大呢。服务器的内存为了占满四个通道就要至少插四条32G或者64G,也就是128G或者256GB。八条都插满64GB就是512GB了。训练场景的相当一部分时间都浪费在了反复覆盖数据上了。一定会有更好的办法,绕过开这个瓶颈。
記得30年前的計算機大機房整體的算力,現在被一隻手機的算力超越,代差是不能用蠻力填補的,況且你們中國現在的經濟力嚴重衰退,根本沒有能力在這條新賽道玩下去,認輸吧,進行政治改革,學習融入文明世界,別再搞反智商的大力出奇蹟了
中国经济衰退? 你是被洗脑了,中国出口贸易量还在增长,制造业还在升级。就说汽车销量,中国还在2500万台水平,而且国产化了。。。。。10年后你就知道你现在多可笑
这个傻X头像都是绿的,脑子里都是赖皮狗喂的💩,就好比一个婊子被别人包养了,以为自己是小三,还挺自豪,实际连小9都拍不到,其实就是个自己买套,贴钱充面子的贱货,。
@@中国生活 哈哈哈啊,十年前這樣跟我說的中國人,房子現在腰斬兩次,而且還中年失業了,好像想找我借錢,但是又拉不下臉在那邊猶豫,哈哈哈啊,我就喜歡假裝不知道逗著他玩,你們中國人真逗趣,永遠都說『十年後,中國一定.......』,說真的,一人的一生沒這麼十年,遇到一個習近平任期十年就讓你們回到改革開放前了,好慘
貿易量增長,怎麼薪水沒有漲,內需沒有漲
美西方算不上文明世界,萝莉岛,吹牛老爹等
量的叠加与质的改变完全是两码事,想想当年的大跃进把😂
Lol你以为美国AI头部都在做什么
当年的大炼钢铁是班产几吨到几十吨的土法炼钢去和现代化的上千吨高炉拼产量。相当于肩挑人扛对抗卡车。现在只不过是用算法优化、架构优化和布署方案优化来弥补算力不足而已。相当于用数倍于彼的十吨卡车对抗三十吨卡车。最多只是布署、运维和功耗上有点难度。也不是不能接受。
聽起來又一個割韭菜項目。
楼主,借宝地做个广告。中芯急召打磨工。必须要有一天以上打磨经验。工作时间007,待遇从优无底线。来去自由,保证离职后不被刑拘。有意者请致电110x,找遥遥领先余先生。
一天天大模型大模型,真正一点毛用没有,
在芯片等級下的存算一體仍有以下問題:
1. 其存儲的內容及過程很難被掌控,因為儲存的記憶體被分散,並與處理器互嵌,加上 AI 的計算是多層級的,這種情況下,你能掌控的是餵給它的資料,以及它最後所產出的結果,不易於確知其過程,換言之,這樣的 AI 更有可能脫離人類的導控。
2. 存算一體只能在單顆芯片中實現,但 AI 的計算中心,是由眾多的 AI 芯片所組成,在芯片與芯片之間的交互傳遞才是整個算力的最大瓶頸。
中国在退出超算排名之前一直领先,这还是在单芯片性能落后的情况下达成的成绩。大型计算集群的组织技术中国应该是相当不错的
大刘是不是进入流量焦虑期了😂最近更的太猛了
算力,除了芯片,光交换网络,更是有超级能源供应决定的。
国内的计算资源获取难度比国外低得多,移动和阿里的免费额度都是给的相当慷慨的
到最后就得看同等算力下,谁家机房先爆炸。😂
看完 Terminator 2, 3, 4
发現 旧的 单个 T800 也能够打败更先进的 T1000, T2000
雞头米?!有可能,浮式手扶機採嗎?
可以好好研究去中心化 AI 解決方案:Bittensor
groq llm chip 是一樣的東西嗎?
目前我觉得用的字节的AI感觉已经很强大了
几个用下来,通义用的比较顺手
chatglm试试
@@bingzhao9314 通义我用来润色论文过,感觉和gpt差不多,有些时候翻译的还更好一些。其他方面就不知道了
我個人看法,萬卡集群不是重點,這不就是基本的算力中心配置麻,真正的重點是蓋在那,東數西算才是重點~!
赞同。盖在风光水电多的地方挺好
你還看法了啊?
當初吹那個姓嚴的蛋白質摺疊呢?
當初愛用數據說中國經濟出口數據呢?
現在歐美日已經把70~80%的替代產能在中國以外建好了
加增關稅正式開始~!
川普上~從中國進口關稅60%起
賀錦麗上~繼續包圍緊縮政策
你不是愛算? 你不是愛建議? 你不是愛開藥方? 還你的看法?
笑死我了
蓋在哪? 中國已經注定落後被放棄了~ 還東數西算?
笑死我了~以為現在把戰略物資生產線往大西部撤離就揍不到你了?
笑話.....就一堆山寨貨.....看俄羅斯就知道了.....廢物
我听到一个说法,集群的瓶颈在卡与卡之间的介质,而光技术传输是华为领先,国外是4000块卡是最大集群,我们超过了这个数量,是16000张卡,不知道是否正确
不完全正确,华为是分布式算力集群,不是你理解的特斯拉算力服务器集群方案……
哈哈哈哈哈哈哈哈哈哈哈哈 你是不是听说国庆节后两万点
不對,國外早就破萬集群很久了,人家谷歌微軟Meta在砸錢拼算力,也是靠大量集群.
這種事情怎麼可能只有中國人想到到,外國人又不傻,誰不知道越多越強
OpenAI早就有數萬卡集群起跳領先很久了
集群规模越大 妥善率越不稳定,所以無法無上限增加,
所以同時還是要追求用H200/B200這種怪物卡去集群
@@waffenss1234567 中国人不教逻辑 互联网上不是永乐大典早有记载,就是所有技术我们都已经掌握西方嫉妒我们不承认
記憶體內運算那有那麼簡單,要挑戰馮紐曼架構早的很,領先者美光都還在實作中
存算一体在技术上并不难。难在生态建设上。
存算一体是这样理解的么? 非冯诺依曼 肯定不是这样。
这期算是软广告了。
只要电费便宜,使劲堆落后GPU提高算力也是个办法
最根本的还是应该在理论模型和算法上找突破点。即便做不到四两拨千斤,拨百斤、十斤总还是有希望的。
这就是祖国的优势了。Chair man 的人民战争就是AI的最终思路。祖国是社会主义国家。可以规定法律人人必须共享显卡算力 14亿人就可有突破。但主席必须统一指挥统一调度才可以。药不然没有人有这样的能力
虽然你翻墙了,你的思维仍然在墙内。
傻逼
大跃进也出来了
到时候整一个ai主席出来
药不能停
难怪有人预测电不够用了
存算一體概念是好的,但現在的萬卡集群都是跨機櫃等級的direct memory access, 數據傳輸是必然的, 因為算力上限問題導致跨機櫃的分散式計算了, 你單純的存算一體都只能改善單晶片效能而已,你還是避不了數據傳輸問題,建議看老黃最新採訪,點出為何NVIDIA還一直是霸主的關鍵,TCO(total cost of operation)才是NVIDIA一直保持冠軍的關鍵視野
存算一体解决的就是传输的能耗和延迟问题。普通的GPGPU之类的基于冯诺依曼架构的HPC系统的最大瓶颈实际上是DRAM I/O。GPU/CPU等待DRAM I/O的时间甚至有可能超过core的运算时间。冯诺依曼架构相当于车间和仓储分开不同厂区,之间要靠BUS来交通运输。存算一体架构相当于在仓库里开作坊。虽然每一个作坊的处理能率比不上专用车间,但并行度很高。相当于将Core数提高两三个数量级。同时作坊就建在每一座仓库里。作坊和库存之间的交通不占用节点间的BUS。
@@leemz2002 單晶片算力是有限的,無法做到無限大,存算一體只處理掉單晶片內的I/O消耗問題,你單一晶片算力絕對無法處理所有運算,你單一晶片算完還是要傳到下一片去算,這邊的傳輸限制才是真正的瓶頸,不是單晶片內的I/O瓶頸問題,這個速度遠比你HBM/GPU的速度要慢,你不解決跨CHIP的傳輸問題,你的整體training pipeline一定是被這塊拖累,你單晶片就算比NV快10倍,你傳輸速度卡死,還是沒用
在神经网络计算中有个all-reduce 是绕不开的,存算一体只是data locality 的应用,解不了all-reduce 。只有算法上解决数据流转的问他,communication efficient 的SGD 才能突破瓶颈。早期的分布式机器学习文章就说过为啥高带宽通讯层才是Nvidia 的技术壁垒,国内的万卡集群只是单纯的横向扩张,对大模型的预训练没太大帮助
@@xumiao6927
LLM刚好是您所说的这类data locality应用。
Stochastic Gradient Descent可以跨节点,也可以不跨。取决于全局优化策略。
而且用SGD优化,可以基于CPU、GPU、DSP、FPGA、CIM或者其它任何可能的算力硬件。
CIM可能是节点间传输效率上限最高的。因为那是各种存储介质中带宽最高的,而且可以使用DMA之类的机制实现不占用CPU时间的数据传输。
@@leemz2002 我说的是gradient vectors update ,当你的模型太大需要分布在不同的机器上,这些update 就需要同步更新,导致网络堵塞。如果你知道如何分拆模型以至于它们之间相对独立就不需要这样的同步,可以大大提升训练速度,比如mixture of experts
充值了
集中力量为大事的优越性又一次显神威
🤣 这么神威 经济救活了吗 哈哈哈哈哈哈哈哈哈
光靠堆卡没用的。几万张卡对于大公司来说没多少钱。AI炼丹不是人多就力量大
結果最近爆出華為透過白手套公司下單台積電,被抓到了,大劉能對此事發表意見嗎?
啊不是說能自製、能自製
可能在某些技术领域,想取巧以空间换时间,靠自力更生可以成功,但更慢一些
刚问了AI,怎能在没有 高階显卡前题下 而又能 提高算力 打败 美国。
AI 回答:
1)先投入 十万亿...
然后 我再没有看下去了。
10万亿这是小钱
十万亿不是多大问题 而是十万亿投进去要十年只能超越2024年的美国
@@rogermylin
集群规模越大 妥善率越不稳定
所以無法無限擴大集群
還是需要超強力GPU+可實用的集群規模,
高階顯卡是不可能避開的門檻
否則你集群 人家也集群甚至更多更大 你單卡輸很大,
雙方算力可以差距一個數量級
簡直是大人打小孩
能抓老鼠就是好貓😂😂😂😂😂
本来现在用GPU替代CPU就是要搞并行运算,并行的方向没有错。人类新一代核能技术中国吊打全世界是没有错,问题就是运算效率的差距能不能用电力的优势弥补。
大劉其實沒有講完整的實話
他要顧慮愛國流量, 鼓舞士氣...有些實話要選擇性的講.唉...
大家要知道,你看到資訊是人家選擇性給你看的,有動機有意義,自己要思考....
早期A100實踐集群就能萬卡近萬P算力了.....A100是3-4年前的主力產品了
萬卡集群早就在歐美廠商落地很久了,當人家新的H100/200單卡效率是你的幾倍時......
你所謂的自主自研萬卡,還是遠不如別人的主流強力H100/200萬卡....
人家就算滿手強卡 也一樣在集中力量辦大事,而且做的更早 走的更遠,2年前發表的H100,
只要你有足夠的錢足夠的卡,
理論擴容極限5萬張卡集群,10萬P算力
至於新的B200,不要問了,問了辛酸,差距更遠......
202409大廠算力資料
第1美商XAI有規模10萬顆GPU
年底擴到20萬GPU含5萬H20
第2為美商Google的9萬顆
第3為美商OpenAI的8萬顆
第4為美商Meta 7萬顆GPU集群
第5為微軟的6萬顆GPU集群
第6為美商Nvidia自家的5萬顆
萬顆集群是很可能連到世界20名都有疑問
华为910C实测成绩已经是H100的百分之70以上,你可以去了解一下,差距越来越小,不会越来越大,两年前华为卡的算力才只有对手的十分之一
理想很豐滿,現實很骨感!
黑熊要冬眠了,明年再说!
😂芯片只是一部分 怕的是被阉割的数据
属于是黑客帝国了😂
搞AI如果显存容量不够容纳模型本身的话,速度一下就是差十倍甚至百倍,所以禁售中国的基本都是显存非常大的卡,包括显存很大的民用显卡。
这样的速度差距不是多搞几张显卡互联可以解决的。
显存能有多大?几百个G?上T?做大型的LLM一定要有参数处理的分割解决方案。不然显存的上限岂不成了项目的上限了?
@@leemz2002
分割越多越細碎的效率越差
@@waffenss1234567
那要看如何分割了。比如将N^2问题分割成m * (N/m)^2问题,就有可能增效降本。
不要引用22年ai爆发前的 GPU利用率数据。。。。。
全世界在搞AI, 能搞AI,搞得起AI的国家就两个。所以,中国AI不是第一,就是第二。
文无第一,武无第二。在AI领域,中国没有条件当第二。因为这是个死活问题。
不过幸好老美的股价导向企业治理把路带偏了。而且他们缺少可以与AI结合的实体经济应用场景。谢天谢地。
1. 金字塔型+(倒金字塔)
2. 區塊+區塊型
3. W型+ W型
英伟达去哪里了?
支那人不知道NV供不應求嗎?
我还是不相信所谓的大模型AI能搞出什么实质东西。到目前为止并没有什么实质的毛用。再过10年,20年,依然是这个判断。。
那是你没运用而已。。这玩意就和计算机一样。。很方便。。哈哈
講認真,到今天還認為AI沒應用的人,真的該反省自己是不是學習心態太消極了
目前AI的炒作除了爽到英偉達外其他都很慘,可以說除了英偉達其他全部加起來的營業額都還不如另一家新創的晴色網站,至少目前為止是還沒看到出路,炒股意義更大~!
小弟不是說不能支持未來,但現實也應該看看~!你開雞排店未來賣得好不好是一回事,但現在就是賣不好~!
@@kenken-lj8xd 就是搜出一些不知道真假的小作文?除了帮我孩子搜小学生作文,确实没发现有什么用。
@@roych3281 我现在就交孩子使用AI来学习。。题目打进去。马上告诉你解题方式。。孩子自己看就知道了。。不懂。还可以继续提问。。我认为对孩子学习是一个不错的东西。。不需要找老师。自己就可以学习。。挺好的。。我小时候不会做的题目。要第二天去询问老师。。有时候老师也会忘记。老师也要去查资料。。但是AI能迅速告诉你。。这对学习的效率很高。。
面向个人PC的存算一体的芯片是苹果的A2及以后来的A系列型号的芯片。
Apple那还是冯诺依曼架构。冯诺依曼架构相当于车间和仓库分开,两者靠BUS交通运输。存算一体就相当于在每个仓库里设作坊,作坊读取或者写入库存只占用仓库单元内部的BUS。
@@leemz2002 这样的话,那每个仓库单元不是没有设置固定大小,而是根据写入的容量来扩展其大小的?
@@Clay_Figurine_Legend_Share
当然有了。尺寸取决于单片或者单条可以容纳的DRAM单元数。换个角度,就相当于在现有的DRAM芯片上开出一块来做个简单的CPU。或者在内存条上贴一片CUP。
具体要多大容量,取决于要运行的模型需求。
比如要我设计一个针对LLM的存算一体架构。我会在每一条上设一个调度核,在条上的八到16片上各设一套运算核。每个运算核设16到1024不等的运算单元。然后用在特定物理地址上写指令和数据的方式分配运算任务及提取运算结果。
如果科技路線正確的話,那麼經過市場考驗,十年後就贏了,但是,如果是國家體制,一窩蜂的方式將失敗。
资源整合懂么,尤其是你在被卡脖子
是不是说反了?
市场是逐利的,资本不关心方向正不正确,长期利益大不大,只关心短期能不能赚钱。
@@chunyuou9944 别对牛弹琴,繁体的大多是弯弯,信奉自由民主神教,觉得集体的都是不靠谱的
講那麼多,是要用哪一張卡還哪幾張卡,都講不清楚
电费再便宜也顶不住
大陸方打算用一力降十會建立世界級的運算中心...
台灣本島還在 乾淨的煤 風電 光電 積水非淹水 文字詭辯吵個不停。😂
中國的公司最會做PPT, 實際的產品如何, 都不敢說明. 存算一體, IBM發展近20年, 依舊平平無奇. 中國那家什麼什麼"鑄", 靠PPT來騙投資與補"鑄" 吧.
接着遥遥落后即可,你大可以相信中国是靠着ppt干到世界第一制造业大国的,也是靠着ppt,从只有台湾4倍gdp干到世界第二的,也是靠着ppt从两艘美国航母就能封锁整个大陆到大陆围着台湾溜溜转圈,你美国爸爸连个屁都不敢放。也是靠着ppt干出来全产业链半导体的,更是靠着ppt打了一发12,000公里的小鞭炮。不要抬头,不要抬头,不要抬头。
他根本没能力大规模制造 就算发明出来了 也没用
去查查开源大模型榜单有没有中国的不就知道了
会做ppt的怕不是某公司。我还在高中的时候就听说要带领人类16年登录火星,当时真是崇拜啊,觉得太帅了,结果等我上了大学,ppt变成20年带领人类上火星,后来改到24年,前一段又成了有生之年了。
把一万辆自行车或汽车堆积起来能上月球吗?
比喻不恰当。万卡方案相当于用一万辆十吨卡车来取代两千辆五十吨矿车的吞吐能力。人力成本和能耗的确会高一些,但不至于完全无法实现。
就你?一个乞丐挖苦富豪不会花钱?🤣🤣🤣
无人机蜂群战术
不管是什么架构,都绕不过两个东西,制程、网络,妄想从架构上弯道超车,想多了
你懂个P
這已經是末端的東西了,真正要超車必須從前端下手,"數學"!
沒有數學上的突破,後面怎麼努力都只是拾人牙慧,猜猜菲爾茲獎有幾個中國人?
@@toh81390数学这东西没必要自卑。
你知道自己在讲什么吗?除了傻逼以外,没有文明的语言能描述你留言。但凡懂半点软件或者硬件他基本常识都不会讲这种傻逼的言论。论点跟论据没有联系,然后论据又不成立。
@@toh81390 啊对对对,全是台湾的
堆了一大堆名词和概念搞的我云山雾罩的。
面对群体不同
AI現在的定位或定義都很模糊。所以不懂沒關係。為什麼現在沒人討論人工智能會扼殺創新力?萬事都能AI生成,人腦袋會不會越來越笨?
反正国家给钱,随便烧
明显是理想主义者,, 也没正真碰过DataCenter。同样的带宽,需要10x,100x 以上的低性能芯片。问题1:低性能的芯片功耗更大,10x/100x倍以上的功耗怎么解决,散热怎么解决?2,10x/100x的分散链接,怎么Synchronization?10x/100x的空间哪里来,怎么连接?
只要錢能解決的都不是事,可是你們中國沒錢啊,看看你們韭菜百姓的薪水和失業率,你們已經out了
再叫也改变不了台积电最后的结局
中国和美国是唯二可以在任何高科技领域较劲的对手,中国OUT了,就没有其他国家可以跟上了。
其实ai的尽头是电 只要电价足够便宜 你懂得
核聚变启动!
那是要到规模超级巨大的时候,现在还远没到那种程度
IDC都是0.1多点的电费
AI不是挖矿。Hash算法已经没有进一步优化的余地了。但AI算法还有巨大的优化空间。甚至可能是颠覆性的算法优化。
还是你懂
@@leemz2002 我的意思是在目前的状况下实事求是的说,在短时间内我们追不上NV 顶尖的水平。所以我们如果是能达到 Nv 顶尖 gpu 60%~70%的性能,然后通过我们几乎无限低成本的电,特别像那种内蒙古新疆西藏甘肃这种便宜的风电光电,我们可以完全用大规模集群算力的方式碾压老美。而且国家也确实在布局。
講得這麼神,請問股價是英偉達的百分之幾? 資本是最精明的
华为是非上市企业。谁敢说华为不够精明?
大劉:十萬大軍難道幹不贏一挺重機槍嗎?
我:可是我們自由世界有十萬挺重機槍啊!你們有100億大軍嗎?
你们?真把别人当爹了,只是不知道人家缺不缺儿子🤣
哈哈,美国不是你们
@@exfrigustra2841 總比你們當俄螺絲的龜孫子要強吧?呵呵,每次看到習近平羞澀地跟普京談話,臉上露出崇拜普京的神情,就覺得你們這龜孫當的真是不冤枉
煞笔玩意,真尼玛觉得自己是美狗了??实质是狗几把都不如的玩意。
看来之前自建的太湖并没啥卵用😅
根本就是不同赛道的选手
首先要防止某個人的「加速」,然後有可能讓中國芯片加速
限制AI发展的根本从来都不是这些,所以并没有卵用。
全民煉鋼时代到了
演算法和大模型贏不了美國人,拼芯片製程與產能幹不過台灣,美國和台灣還是鐵血聯盟,技術互相交纏迭代速度是你們的N倍,球員裁判都是我們的人,我就問你們中國拿什麼跟我們玩啊?
潘金莲跟武大说,你怎么跟我和西门庆斗!
@@leishi7753 西門慶是美國,潘金蓮是台灣,那中國就是武大郎囉,呵呵,很符合科技業現狀啊,中國幹啥啥不行,只剩爛尾腰斬的房市和超高失業率,超低薪資,我看著就像個悲情武大郎
工业明珠还差什么
人的大脑是不是就是存算一体?脑机接口实现了,会不会把人脑连在一起做一个大规模集群?到时候有人问你:在哪里上班啊?回答:算力农场!
和外國的算力不是同一個量級
英伟达耕耘了三十年,华为三年就弯道超车了😂
30年是从创立公司算起吧。CUDA的1.0版是2007年才发表的。CUDA大规模用于AI领域是2017年前后的事情。满打满算不到十年。而且GPU本身本来是用于图形处理的,架构并不太适合AI的应用场景。AI是典型的大存储量、高并行场景。游戏的图形处理是小数据,中等并行场景。RTX4090的显存容量不过24GB,还没有服务器的零头大呢。服务器的内存为了占满四个通道就要至少插四条32G或者64G,也就是128G或者256GB。八条都插满64GB就是512GB了。训练场景的相当一部分时间都浪费在了反复覆盖数据上了。
一定会有更好的办法,绕过开这个瓶颈。
記得30年前的計算機大機房整體的算力,現在被一隻手機的算力超越,代差是不能用蠻力填補的,況且你們中國現在的經濟力嚴重衰退,根本沒有能力在這條新賽道玩下去,認輸吧,進行政治改革,學習融入文明世界,別再搞反智商的大力出奇蹟了
中国经济衰退? 你是被洗脑了,中国出口贸易量还在增长,制造业还在升级。就说汽车销量,中国还在2500万台水平,而且国产化了。。。。。10年后你就知道你现在多可笑
这个傻X头像都是绿的,脑子里都是赖皮狗喂的💩,就好比一个婊子被别人包养了,以为自己是小三,还挺自豪,实际连小9都拍不到,其实就是个自己买套,贴钱充面子的贱货,。
@@中国生活 哈哈哈啊,十年前這樣跟我說的中國人,房子現在腰斬兩次,而且還中年失業了,好像想找我借錢,但是又拉不下臉在那邊猶豫,哈哈哈啊,我就喜歡假裝不知道逗著他玩,你們中國人真逗趣,永遠都說『十年後,中國一定.......』,說真的,一人的一生沒這麼十年,遇到一個習近平任期十年就讓你們回到改革開放前了,好慘
貿易量增長,怎麼薪水沒有漲,內需沒有漲
美西方算不上文明世界,萝莉岛,吹牛老爹等
量的叠加与质的改变完全是两码事,想想当年的大跃进把😂
Lol你以为美国AI头部都在做什么
当年的大炼钢铁是班产几吨到几十吨的土法炼钢去和现代化的上千吨高炉拼产量。相当于肩挑人扛对抗卡车。
现在只不过是用算法优化、架构优化和布署方案优化来弥补算力不足而已。相当于用数倍于彼的十吨卡车对抗三十吨卡车。最多只是布署、运维和功耗上有点难度。也不是不能接受。
聽起來又一個割韭菜項目。
楼主,借宝地做个广告。
中芯急召打磨工。必须要有一天以上打磨经验。
工作时间007,待遇从优无底线。
来去自由,保证离职后不被刑拘。
有意者请致电110x,找遥遥领先余先生。
一天天大模型大模型,真正一点毛用没有,