本地跑大模型,需要什么配置

แชร์
ฝัง
  • เผยแพร่เมื่อ 16 พ.ย. 2024

ความคิดเห็น • 78

  • @huanyihe777
    @huanyihe777  5 หลายเดือนก่อน +2

    Patreon已上线,欢迎加入:www.patreon.com/newtype_ai
    newtype是我创建的社群。之前开通了知识星球,面向国内小伙伴,已经运营三个月。现在有了Patreon,海外的小伙伴也可以加入讨论了。

  • @Trevor0713
    @Trevor0713 7 หลายเดือนก่อน +18

    我分享一下我在公司工作站上的配置, Xeon W 2123, AMD 7900XT, 64GB DRAM, 跑llama 2-chinese 13B int8是完全沒有問題的, 7900XT的VRAM夠大, 可以把整個模型都塞進GPU, 再搭配LM Studio的伺服器功能, 可以架一個LLM給四五個部門同事同時使用, 非常順暢. 我目前正在考慮改用Int 8的7B版本, 把一些VRAM騰出來給SD用.
    但我說句老實話, 我目前不推薦使用AMD的GPU, 因為開源LLM如果沒有微調, 生成品質是沒辦法跟chatgpt相比的. 但微調這件事, 目前在A家平台上, 只能使用ubuntu linux, windows還不支援.

    • @fornoonee
      @fornoonee 4 หลายเดือนก่อน

      amd能跑大模型吗。。。好像没见过欸。

    • @DigitalAlligator
      @DigitalAlligator 3 หลายเดือนก่อน +1

      为什么要用windows?我以为AI没人会用windows

    • @fornoonee
      @fornoonee 3 หลายเดือนก่อน

      @@DigitalAlligator我就是简单调一下ollama的api试试。现在windwos也可以用了。rocm支持windwos的6800到以后的卡了。

    • @overabyser
      @overabyser 2 หลายเดือนก่อน

      非常不错的了,我家里的配置没有这么高,就整了个人用的4070也还不错,跑7-9b的模型(Q4KM量化吧,5或者6还没试过),挺快的其实,在往上点还能接受,至少也没有等待时间,都是刷刷刷的回复
      建议还是英伟达显卡,没办法,人家生态太广了。

    • @wwxyz7570
      @wwxyz7570 2 หลายเดือนก่อน +1

      Windows上跑AI推薦ROCm 6.1.3 WSL2

  • @huanyihe777
    @huanyihe777  7 หลายเดือนก่อน +4

    这期一录完,我就下单了两根16G DDR4 3200内存条,明早到。可以跑更大的模型了。达芬奇也应该会更流畅。

    • @5204
      @5204 5 หลายเดือนก่อน

      去年內存便宜的時候買了八根16g的ddr4 3200 ecc,在epyc7402上組八通道,整機價格還不到五千人民幣

  • @wwxyz7570
    @wwxyz7570 2 หลายเดือนก่อน +5

    Llama 3.1 405B FP8 GGUF IQ3必須用Mac Studio M4跑,100多GB顯存需求哪個Gaming PC也頂不住,必須買圖形工作站,大約一萬多美元,蘋果真香。

  • @cartoonandcrafts
    @cartoonandcrafts 23 วันที่ผ่านมา

    目前跑本地模型还没到最佳时候,让硬件再发展个几年,到时再来跑本地模型应该比较好

  • @newartdesign
    @newartdesign หลายเดือนก่อน

    有介紹安裝的部分嗎?

  • @testabc2010
    @testabc2010 หลายเดือนก่อน

    大佬,请问如何绑定多块显卡为一块(比如堆叠)?然后进行模型训练?

    • @huanyihe777
      @huanyihe777  หลายเดือนก่อน

      英伟达的消费级显卡只有少数支持,你搜一下NVLink就知道

  • @拿破仑猫
    @拿破仑猫 หลายเดือนก่อน

    2070super+32g可以吗

  • @Ersambx
    @Ersambx 7 หลายเดือนก่อน +5

    你这应该叫小模型,不叫什么大模型,就像马斯克上次发布的大模型,硬件就至少需要8块h100显卡,才能跑的动。

    • @huanyihe777
      @huanyihe777  7 หลายเดือนก่อน +1

      🙃

    • @天明-u6y
      @天明-u6y 5 หลายเดือนก่อน

      你说的训练,博主说的推理,不是同一个阶段

    • @DigitalAlligator
      @DigitalAlligator 3 หลายเดือนก่อน

      😂哪来的沙雕,连training和inference都分不清

    • @overabyser
      @overabyser 2 หลายเดือนก่อน +2

      大模型就是大模型,哪有什么小模型,大模型只是参数不一样,一般人家里面用的参数就是2b-13b,至于70b或者130b,甚至是几百b那就是chatgpt级别的了,那些需要的内存和显存以及gpu算力才需要很多张a100或者h100这种级别的显卡,像我现在本地64g运行内存,显卡4070 12g,跑llama3.1和gemma的量化绰绰有余,参数是6b,7b和9b,还有13b。
      其次,你的评论并没有说清楚是训练还是推理,上次发布的大模型你也没说是什么。8块h100(80vram一张约25.5w¥),而且视频中博主我看到使用了qwen 7b的模型,证明这并不是推理像你所说的超大参数的大模型,另外,在大模型当中,以6b参数 并且已4 bit量化为例子,3070 移动端 8g显存跑起来勉强可以,如果是全量版,那么速度绝对缓慢甚至爆显存,回到6b参数4bit量化的例子,推理3070 移动端8g足以正常体验(但还不是特别快),记住,我说的是推理,但是如果你要训练或者微调6b的模型,8g显存肯定不够,只少得12g或者16g显存往上,在大点4090 24g才是入门级,简洁一点,8g显存推理体验足够,但训练和微调8g就可能很慢甚至无法进行工作。
      在我使用llama.cpp(一个开源项目的源代码,为开发者提供定制化加载和加速推理本地大模型)进行定制大模型项目开发的时候,发现参数是非常多的,还包括gpu,cpu,ram的分配程度,另外,载入模型需要消耗一定的显存,聊天历史保存也会不断增大显存占用,剩下的那一部分则用来跑推理,在我的开发测试当中,载入一个llama3.1-8b-ggml-model-Q4_K_M.gguf模型大约占用4-5g的显存,在进行推理的时候,这时的总显存占用到达9g以上,token速度是65t/s,至于代码我就不说怎么写了,做了很多参数优化和调整,65token/s这个速度对于我来说已经是非常快了,基本上刷刷刷的跟官网一样快,甚至更快。
      其次,并不是每个人的电脑配置都如此之高,很多人对显卡并不了解,甚至还有很多轻薄本用户,当然,在最近的优化之中,cpu也可以轻松运行不少llama,gemma,mistral等小参数量化模型。对于你说的8块h100显卡,令人为其汗颜,正常用户是不会用的是这种配置的大模型的,都是用我之前说的家常可用的参数(2-13b),本次评论没有恶意,只是说清楚一个事实

    • @wwxyz7570
      @wwxyz7570 2 หลายเดือนก่อน

      @@天明-u6yLlama 3.1 405B推理也需要100GB大顯存,質量媲美GPT4

  • @yan_yan_1995
    @yan_yan_1995 7 หลายเดือนก่อน +3

    想看主題的話由 3:00 開始看就可以了 😃

  • @raze0ver
    @raze0ver 7 หลายเดือนก่อน +1

    请教 4060 ti 16gb 会比3060 12gb 更推荐吗?还是没必要,如果不能一步到位4090,就干脆还是3060 12gb ? 主要是针对音频生成的模型

    • @huanyihe777
      @huanyihe777  7 หลายเดือนก่อน +1

      肯定优先40系显卡。内存32G吧,不贵

    • @raze0ver
      @raze0ver 7 หลายเดือนก่อน

      @@huanyihe777 谢谢回复!可能没说清楚,是4060 ti vram 16gb版本和3060 vram 12gb版本,不是内存大小

    • @acer5504
      @acer5504 7 หลายเดือนก่อน

      4060 16G​@@raze0ver

    • @overabyser
      @overabyser 2 หลายเดือนก่อน

      优先推荐新显卡,40系对ai加速优化是非常棒的,除了8090后缀,其他的功耗和温度也不高。记住,一般是算力第一,显存第二(算力够了,显存需求可以优化降低,但是遇到硬性显存需求,只有算力没有显存也是无法进行工作的,如果你的项目对显存有优化,那么算力第一。如果你的项目没有显存优化,那么显存第一)

  • @lamleo-tp7gb
    @lamleo-tp7gb 5 หลายเดือนก่อน

    你好我想問MacBook 18G m3pro 可以跑嗎 我想訓練一個很小的語言大模型

    • @ananceng-cp1vv
      @ananceng-cp1vv 4 หลายเดือนก่อน

      可以 m芯片的內存是可以當顯存用的

    • @huanyihe777
      @huanyihe777  3 หลายเดือนก่อน

      可以的。我最近在尝试微调Llama3.1,之后会分享视频。

  • @TuringAdvanced
    @TuringAdvanced 6 วันที่ผ่านมา

    mac mini m4 pro with 64 GB ram,完美

  • @user-bbq8
    @user-bbq8 10 วันที่ผ่านมา +1

    手机上跑 7B模型 gguf大小在5G左右

  • @jingxiang7830
    @jingxiang7830 7 หลายเดือนก่อน +1

    请问哪一款开源大模型比3.5好

    • @huanyihe777
      @huanyihe777  7 หลายเดือนก่อน

      比如,Alpaca,斯坦福大学基于LLaMA 7B模型微调出的新模型。还有那些MoE的,都很强

    • @wwxyz7570
      @wwxyz7570 2 หลายเดือนก่อน

      Llama 3.1,如果你不需要中文的話

  • @pangzima
    @pangzima 7 หลายเดือนก่อน +1

    感谢😄内存够了,显存就。。。。哎~

    • @huanyihe777
      @huanyihe777  7 หลายเดือนก่อน

      换显卡吧😅

    • @pangzima
      @pangzima 7 หลายเดือนก่อน

      @@huanyihe777 4060ti16显存,您觉得怎么样,用来跑本地大语言模型

    • @youtube-user-offical
      @youtube-user-offical 7 หลายเดือนก่อน

      @@huanyihe777笔记本可以换显卡吗

    • @CreativeEnglishTeaching
      @CreativeEnglishTeaching 4 หลายเดือนก่อน

      @@youtube-user-offical 有可插拔独立显卡的可以换显卡,但即便是这样,也不代表所有人的这种独立显卡都可以换,那种显卡有半高的和标准全高的,半高的显卡如果显存是最高容量了,那么就没法换了,全高的显卡还有升级的可能。通常使用全高的独立显卡的这种笔记本电脑是17寸的笔记本,这种笔记本基本上都是工作站电脑,用的人较少,对于15寸或者14寸的笔记本电脑显卡插槽基本上装不上全高的那种显卡,因为显卡占的面积太大。笔记本还可以使用外置显卡,可以通过雷电接口或者Expresscard扩展外置显卡。

    • @youtube-user-offical
      @youtube-user-offical 4 หลายเดือนก่อน

      @@CreativeEnglishTeaching 谢谢,很专业

  • @Fandral2008
    @Fandral2008 7 หลายเดือนก่อน +1

    主要我无法忍受比gpt4弱智的大模型了,所以还是要长期续费GPTplus,局域网做一个企业知识库的话,普通大模型应该就可以了

    • @huanyihe777
      @huanyihe777  7 หลายเดือนก่อน +1

      可以混合使用。比如,像Anything LLM这种软件支持多种大模型聚合。把API Key填进去,需要用的时候随时切换。

  • @张云勇
    @张云勇 6 หลายเดือนก่อน

    MBP M2 MAX 96G内存8T配置能跑吗

    • @huanyihe777
      @huanyihe777  6 หลายเดือนก่อน +1

      可以

    • @张云勇
      @张云勇 6 หลายเดือนก่อน

      @@huanyihe777 明天试一试

  • @star95
    @star95 7 หลายเดือนก่อน +1

    請問OS是應該windows 還是Linux?

    • @huanyihe777
      @huanyihe777  7 หลายเดือนก่อน +1

      都行吧,我是用Win10

    • @wwxyz7570
      @wwxyz7570 2 หลายเดือนก่อน

      推薦Linux,搞AI用Windows會增加不必要的麻煩

  • @文王少
    @文王少 6 หลายเดือนก่อน

    m40 12gb現在能跑啥

    • @huanyihe777
      @huanyihe777  6 หลายเดือนก่อน

      不了解

  • @frank_zhao
    @frank_zhao หลายเดือนก่อน

    直接mac studio吧

  • @nking99t
    @nking99t 7 หลายเดือนก่อน +1

    mac用的unified memory,那应该多少才够?

    • @huanyihe777
      @huanyihe777  7 หลายเดือนก่อน +2

      我没关注Mac。因为我的Macbook Pro还是2017年的,反正怎么着都跑不了。等M4出了,我要换机了再看了。Mac统一内存看起来很大,但具体怎么分配,搞不清楚。还有苹果版CUDA,不知道会怎么发展。等看今年WWDC会有什么消息。

    • @REcloudnest
      @REcloudnest 7 หลายเดือนก่อน +1

      64 起步 128G 稳定 196最好

  • @Lijin-f1y
    @Lijin-f1y 7 หลายเดือนก่อน

    游戏笔记本部署有什么推荐的

    • @huanyihe777
      @huanyihe777  7 หลายเดือนก่อน

      就照着配置推荐买咯

  • @tinkeringpoko
    @tinkeringpoko 7 หลายเดือนก่อน +1

    准备组3090 x 2 nvlink的我点进来看 发现我是不是在overkill😂

    • @Trevor0713
      @Trevor0713 7 หลายเดือนก่อน

      是overkill了...XD

    • @tinkeringpoko
      @tinkeringpoko 7 หลายเดือนก่อน +1

      @@Trevor0713 3090 x 2应该可以跑llama 2 65b @ 4bit precision
      现在缺冷头 nvlink的间距风冷是塞不下的(笑

  • @yanlizhang7972
    @yanlizhang7972 21 ชั่วโมงที่ผ่านมา

    这种只能对话吗?可以训练出来丢几百页的文件给他帮我解读和归纳主题思想吗?

  • @bluewatercg
    @bluewatercg 6 หลายเดือนก่อน

    共享显存可以吗

    • @huanyihe777
      @huanyihe777  6 หลายเดือนก่อน

      我没试过,应该可以。GPU不是必须的,但最好有

  • @benjaminzhong5882
    @benjaminzhong5882 7 หลายเดือนก่อน

    个人玩票的配置

    • @huanyihe777
      @huanyihe777  7 หลายเดือนก่อน +1

      有生产力的

  • @allanallan6258
    @allanallan6258 4 หลายเดือนก่อน

    你倒是跑来看看啊

  • @BigggRicee
    @BigggRicee 5 หลายเดือนก่อน +1

    4090起步,有条件买几块H100也行

  • @ハヤシライス-l5v
    @ハヤシライス-l5v 5 หลายเดือนก่อน

    請問如何在本地訓練自己的AI

    • @huanyihe777
      @huanyihe777  5 หลายเดือนก่อน

      微调,挺麻烦的,成本高,成功率不高。还是用rag吧

    • @wwxyz7570
      @wwxyz7570 2 หลายเดือนก่อน

      本地訓練自己的大模型?先買一萬塊H100再說吧⋯⋯