本地跑大模型，需要什么配置

huangyihe

มุมมอง 22 023

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 16 พ.ย. 2024

ความคิดเห็น • 78

@huanyihe777 5 หลายเดือนก่อน ⁺²
Patreon已上线，欢迎加入：www.patreon.com/newtype_ai
newtype是我创建的社群。之前开通了知识星球，面向国内小伙伴，已经运营三个月。现在有了Patreon，海外的小伙伴也可以加入讨论了。
@Trevor0713 7 หลายเดือนก่อน ⁺¹⁸
我分享一下我在公司工作站上的配置, Xeon W 2123, AMD 7900XT, 64GB DRAM, 跑llama 2-chinese 13B int8是完全沒有問題的, 7900XT的VRAM夠大, 可以把整個模型都塞進GPU, 再搭配LM Studio的伺服器功能, 可以架一個LLM給四五個部門同事同時使用, 非常順暢. 我目前正在考慮改用Int 8的7B版本, 把一些VRAM騰出來給SD用.
但我說句老實話, 我目前不推薦使用AMD的GPU, 因為開源LLM如果沒有微調, 生成品質是沒辦法跟chatgpt相比的. 但微調這件事, 目前在A家平台上, 只能使用ubuntu linux, windows還不支援.
@fornoonee 4 หลายเดือนก่อน
amd能跑大模型吗。。。好像没见过欸。
@DigitalAlligator 3 หลายเดือนก่อน ⁺¹
为什么要用windows？我以为AI没人会用windows
@fornoonee 3 หลายเดือนก่อน
@@DigitalAlligator我就是简单调一下ollama的api试试。现在windwos也可以用了。rocm支持windwos的6800到以后的卡了。
@overabyser 2 หลายเดือนก่อน
非常不错的了，我家里的配置没有这么高，就整了个人用的4070也还不错，跑7-9b的模型（Q4KM量化吧，5或者6还没试过），挺快的其实，在往上点还能接受，至少也没有等待时间，都是刷刷刷的回复
建议还是英伟达显卡，没办法，人家生态太广了。
@wwxyz7570 2 หลายเดือนก่อน ⁺¹
Windows上跑AI推薦ROCm 6.1.3 WSL2
@huanyihe777 7 หลายเดือนก่อน ⁺⁴
这期一录完，我就下单了两根16G DDR4 3200内存条，明早到。可以跑更大的模型了。达芬奇也应该会更流畅。
@5204 5 หลายเดือนก่อน
去年內存便宜的時候買了八根16g的ddr4 3200 ecc，在epyc7402上組八通道，整機價格還不到五千人民幣
@wwxyz7570 2 หลายเดือนก่อน ⁺⁵
Llama 3.1 405B FP8 GGUF IQ3必須用Mac Studio M4跑，100多GB顯存需求哪個Gaming PC也頂不住，必須買圖形工作站，大約一萬多美元，蘋果真香。
@cartoonandcrafts 23 วันที่ผ่านมา
目前跑本地模型还没到最佳时候，让硬件再发展个几年，到时再来跑本地模型应该比较好
@newartdesign หลายเดือนก่อน
有介紹安裝的部分嗎?
@testabc2010 หลายเดือนก่อน
大佬，请问如何绑定多块显卡为一块（比如堆叠）？然后进行模型训练？
@huanyihe777 หลายเดือนก่อน
英伟达的消费级显卡只有少数支持，你搜一下NVLink就知道
@拿破仑猫 หลายเดือนก่อน
2070super+32g可以吗
@Ersambx 7 หลายเดือนก่อน ⁺⁵
你这应该叫小模型，不叫什么大模型，就像马斯克上次发布的大模型，硬件就至少需要8块h100显卡，才能跑的动。
@huanyihe777 7 หลายเดือนก่อน ⁺¹
🙃
@天明-u6y 5 หลายเดือนก่อน
你说的训练，博主说的推理，不是同一个阶段
@DigitalAlligator 3 หลายเดือนก่อน
😂哪来的沙雕，连training和inference都分不清
@overabyser 2 หลายเดือนก่อน ⁺²
大模型就是大模型，哪有什么小模型，大模型只是参数不一样，一般人家里面用的参数就是2b-13b，至于70b或者130b，甚至是几百b那就是chatgpt级别的了，那些需要的内存和显存以及gpu算力才需要很多张a100或者h100这种级别的显卡，像我现在本地64g运行内存，显卡4070 12g，跑llama3.1和gemma的量化绰绰有余，参数是6b，7b和9b，还有13b。
其次，你的评论并没有说清楚是训练还是推理，上次发布的大模型你也没说是什么。8块h100（80vram一张约25.5w￥），而且视频中博主我看到使用了qwen 7b的模型，证明这并不是推理像你所说的超大参数的大模型，另外，在大模型当中，以6b参数并且已4 bit量化为例子，3070 移动端 8g显存跑起来勉强可以，如果是全量版，那么速度绝对缓慢甚至爆显存，回到6b参数4bit量化的例子，推理3070 移动端8g足以正常体验（但还不是特别快），记住，我说的是推理，但是如果你要训练或者微调6b的模型，8g显存肯定不够，只少得12g或者16g显存往上，在大点4090 24g才是入门级，简洁一点，8g显存推理体验足够，但训练和微调8g就可能很慢甚至无法进行工作。
在我使用llama.cpp（一个开源项目的源代码，为开发者提供定制化加载和加速推理本地大模型）进行定制大模型项目开发的时候，发现参数是非常多的，还包括gpu，cpu，ram的分配程度，另外，载入模型需要消耗一定的显存，聊天历史保存也会不断增大显存占用，剩下的那一部分则用来跑推理，在我的开发测试当中，载入一个llama3.1-8b-ggml-model-Q4_K_M.gguf模型大约占用4-5g的显存，在进行推理的时候，这时的总显存占用到达9g以上，token速度是65t/s，至于代码我就不说怎么写了，做了很多参数优化和调整，65token/s这个速度对于我来说已经是非常快了，基本上刷刷刷的跟官网一样快，甚至更快。
其次，并不是每个人的电脑配置都如此之高，很多人对显卡并不了解，甚至还有很多轻薄本用户，当然，在最近的优化之中，cpu也可以轻松运行不少llama，gemma，mistral等小参数量化模型。对于你说的8块h100显卡，令人为其汗颜，正常用户是不会用的是这种配置的大模型的，都是用我之前说的家常可用的参数（2-13b），本次评论没有恶意，只是说清楚一个事实
@wwxyz7570 2 หลายเดือนก่อน
@@天明-u6yLlama 3.1 405B推理也需要100GB大顯存，質量媲美GPT4
@yan_yan_1995 7 หลายเดือนก่อน ⁺³
想看主題的話由 3:00 開始看就可以了 😃
@raze0ver 7 หลายเดือนก่อน ⁺¹
请教 4060 ti 16gb 会比3060 12gb 更推荐吗？还是没必要，如果不能一步到位4090，就干脆还是3060 12gb ？主要是针对音频生成的模型
@huanyihe777 7 หลายเดือนก่อน ⁺¹
肯定优先40系显卡。内存32G吧，不贵
@raze0ver 7 หลายเดือนก่อน
@@huanyihe777 谢谢回复！可能没说清楚，是4060 ti vram 16gb版本和3060 vram 12gb版本，不是内存大小
@acer5504 7 หลายเดือนก่อน
4060 16G@@raze0ver
@overabyser 2 หลายเดือนก่อน
优先推荐新显卡，40系对ai加速优化是非常棒的，除了8090后缀，其他的功耗和温度也不高。记住，一般是算力第一，显存第二（算力够了，显存需求可以优化降低，但是遇到硬性显存需求，只有算力没有显存也是无法进行工作的，如果你的项目对显存有优化，那么算力第一。如果你的项目没有显存优化，那么显存第一）
@lamleo-tp7gb 5 หลายเดือนก่อน
你好我想問MacBook 18G m3pro 可以跑嗎我想訓練一個很小的語言大模型
@ananceng-cp1vv 4 หลายเดือนก่อน
可以 m芯片的內存是可以當顯存用的
@huanyihe777 3 หลายเดือนก่อน
可以的。我最近在尝试微调Llama3.1，之后会分享视频。
@TuringAdvanced 6 วันที่ผ่านมา
mac mini m4 pro with 64 GB ram,完美
@user-bbq8 10 วันที่ผ่านมา ⁺¹
手机上跑 7B模型 gguf大小在5G左右
@jingxiang7830 7 หลายเดือนก่อน ⁺¹
请问哪一款开源大模型比3.5好
@huanyihe777 7 หลายเดือนก่อน
比如，Alpaca，斯坦福大学基于LLaMA 7B模型微调出的新模型。还有那些MoE的，都很强
@wwxyz7570 2 หลายเดือนก่อน
Llama 3.1，如果你不需要中文的話
@pangzima 7 หลายเดือนก่อน ⁺¹
感谢😄内存够了，显存就。。。。哎~
@huanyihe777 7 หลายเดือนก่อน
换显卡吧😅
@pangzima 7 หลายเดือนก่อน
@@huanyihe777 4060ti16显存，您觉得怎么样，用来跑本地大语言模型
@youtube-user-offical 7 หลายเดือนก่อน
@@huanyihe777笔记本可以换显卡吗
@CreativeEnglishTeaching 4 หลายเดือนก่อน
@@youtube-user-offical 有可插拔独立显卡的可以换显卡，但即便是这样，也不代表所有人的这种独立显卡都可以换，那种显卡有半高的和标准全高的，半高的显卡如果显存是最高容量了，那么就没法换了，全高的显卡还有升级的可能。通常使用全高的独立显卡的这种笔记本电脑是17寸的笔记本，这种笔记本基本上都是工作站电脑，用的人较少，对于15寸或者14寸的笔记本电脑显卡插槽基本上装不上全高的那种显卡，因为显卡占的面积太大。笔记本还可以使用外置显卡，可以通过雷电接口或者Expresscard扩展外置显卡。
@youtube-user-offical 4 หลายเดือนก่อน
@@CreativeEnglishTeaching 谢谢，很专业
@Fandral2008 7 หลายเดือนก่อน ⁺¹
主要我无法忍受比gpt4弱智的大模型了，所以还是要长期续费GPTplus，局域网做一个企业知识库的话，普通大模型应该就可以了
@huanyihe777 7 หลายเดือนก่อน ⁺¹
可以混合使用。比如，像Anything LLM这种软件支持多种大模型聚合。把API Key填进去，需要用的时候随时切换。
@张云勇 6 หลายเดือนก่อน
MBP M2 MAX 96G内存8T配置能跑吗
@huanyihe777 6 หลายเดือนก่อน ⁺¹
可以
@张云勇 6 หลายเดือนก่อน
@@huanyihe777 明天试一试
@star95 7 หลายเดือนก่อน ⁺¹
請問OS是應該windows 還是Linux？
@huanyihe777 7 หลายเดือนก่อน ⁺¹
都行吧，我是用Win10
@wwxyz7570 2 หลายเดือนก่อน
推薦Linux，搞AI用Windows會增加不必要的麻煩
@文王少 6 หลายเดือนก่อน
m40 12gb現在能跑啥
@huanyihe777 6 หลายเดือนก่อน
不了解
@frank_zhao หลายเดือนก่อน
直接mac studio吧
@nking99t 7 หลายเดือนก่อน ⁺¹
mac用的unified memory，那应该多少才够？
@huanyihe777 7 หลายเดือนก่อน ⁺²
我没关注Mac。因为我的Macbook Pro还是2017年的，反正怎么着都跑不了。等M4出了，我要换机了再看了。Mac统一内存看起来很大，但具体怎么分配，搞不清楚。还有苹果版CUDA，不知道会怎么发展。等看今年WWDC会有什么消息。
@REcloudnest 7 หลายเดือนก่อน ⁺¹
64 起步 128G 稳定 196最好
@Lijin-f1y 7 หลายเดือนก่อน
游戏笔记本部署有什么推荐的
@huanyihe777 7 หลายเดือนก่อน
就照着配置推荐买咯
@tinkeringpoko 7 หลายเดือนก่อน ⁺¹
准备组3090 x 2 nvlink的我点进来看发现我是不是在overkill😂
@Trevor0713 7 หลายเดือนก่อน
是overkill了...XD
@tinkeringpoko 7 หลายเดือนก่อน ⁺¹
@@Trevor0713 3090 x 2应该可以跑llama 2 65b @ 4bit precision
现在缺冷头 nvlink的间距风冷是塞不下的（笑
@yanlizhang7972 21 ชั่วโมงที่ผ่านมา
这种只能对话吗？可以训练出来丢几百页的文件给他帮我解读和归纳主题思想吗？
@bluewatercg 6 หลายเดือนก่อน
共享显存可以吗
@huanyihe777 6 หลายเดือนก่อน
我没试过，应该可以。GPU不是必须的，但最好有
@benjaminzhong5882 7 หลายเดือนก่อน
个人玩票的配置
@huanyihe777 7 หลายเดือนก่อน ⁺¹
有生产力的
@allanallan6258 4 หลายเดือนก่อน
你倒是跑来看看啊
@BigggRicee 5 หลายเดือนก่อน ⁺¹
4090起步，有条件买几块H100也行
@ハヤシライス-l5v 5 หลายเดือนก่อน
請問如何在本地訓練自己的AI
@huanyihe777 5 หลายเดือนก่อน
微调，挺麻烦的，成本高，成功率不高。还是用rag吧
@wwxyz7570 2 หลายเดือนก่อน
本地訓練自己的大模型？先買一萬塊H100再說吧⋯⋯

ต่อไป

เล่นอัตโนมัติ

Local LLM Challenge | Speed vs Efficiency