🌈 Ollama发布重大更新 | 支持多请求并发,多模型加载啦!💥 | ChatOllama并发多模型聊天来啦!

แชร์
ฝัง
  • เผยแพร่เมื่อ 19 พ.ค. 2024
  • #ollama #chatollama #rag #llm
    - 关注我的Twitter: / verysmallwoods
    - 关注我的Bilibili: space.bilibili.com/615957867/
    - 如果您有任何问题或者建议,欢迎通过邮件联系我:0001coder@gmail.com
    如果您喜欢这个视频并希望请我喝一杯咖啡,欢迎前往我的BuyMeACoffee页面
    👉 www.buymeacoffee.com/01coder
    Ollama是目前最流行的大模型本地化工具之一。Ollama支持一系列开源大模型,包括主流的聊天模型和文本嵌入模型(Embedding Models)等。
    最近,Ollama发布了一个重大更新,支持多请求并发,并同时加载多款模型。这个更新为Ollama的使用带来了更多的灵活性和效率。
    ChatOllama
    github.com/sugarforever/chat-...
    Ollama
    ollama.ai
    Experimental concurrency features | Ollama
    github.com/ollama/ollama/rele...
    【Ollama合集】播放列表
    • Ollama
    章节
    00:00 Ollama支持并发啦!
    00:43 最新版本中如何支持并发?
    01:37 不指定并发参数的Ollama表现如何?
    03:19 请求并发参数的效果
    04:58 请求并发在单一模型加载上的效果
    06:53 同时加载多模型的参数设置与效果
    09:25 在ChatOllama与Ollama多模型并发聊天
    11:08 总结
  • วิทยาศาสตร์และเทคโนโลยี

ความคิดเห็น • 22

  • @gw1284
    @gw1284 8 วันที่ผ่านมา

    来了,来了,01coder大佬讲课了! 离线4周, 需要补课了

  • @user-vo5yw8nc4j
    @user-vo5yw8nc4j 16 วันที่ผ่านมา

    每天都在等老师更新,每次学习都受益良多。

  • @yuna_tseng
    @yuna_tseng 15 วันที่ผ่านมา

    先按讚再來看!

  • @pongpong5441
    @pongpong5441 16 วันที่ผ่านมา

    先赞后看

  • @gw1284
    @gw1284 8 วันที่ผ่านมา

    "OLLAMA_NUM_PARALLEL=3 OLLAMA_MAX_LOADED_MODELS=2 ollama serve" is for running CLI, how to configure those parameters for running ollama as service?

  • @mintisan
    @mintisan 16 วันที่ผ่านมา +5

    M4 Ultra 192G 内存看来是需要提上日程了,,,

    • @leonvking0
      @leonvking0 15 วันที่ผ่านมา

      请问自己部署LLM和直接用gpt比有哪些好处呢?

    • @mintisan
      @mintisan 15 วันที่ผ่านมา +1

      @@leonvking0 我现在的帮公司评估本地方案【这个是刚需,总有内部数据不想上传到外网的】,所以想自己评估现在开源的性能能不能满足要求,毕竟开源进步很快,现在基本很大程度上可以替换 3.5 的一些场景了保不齐过段时间就可以部分替换 4 了,对吧

  • @user-vo5yw8nc4j
    @user-vo5yw8nc4j 16 วันที่ผ่านมา

    老师能否讲讲LLaMA-Factory 系列,它跟ollama服务怎么联通起来。

  • @jasonyu-sg5wr
    @jasonyu-sg5wr 14 วันที่ผ่านมา

    Hi, 01 coder
    你的是APPLE OS,APPLE的晶片設計 cpu+gpu 共享內存,不知道能加載的models數量或容量上限為何? 不知道其他人有試過嗎?
    印象中,LM studio 好像也可以同時加載多個LLM models,並幫你計算所以你加載模型的GB數量,提醒你走cuda時不要超過本地的Nvidia GPU容量,因為會容易爆顯存~印象中有試過,GPU閃退,LM studio control panel 直接掛掉死機~

  • @user-vo5yw8nc4j
    @user-vo5yw8nc4j 16 วันที่ผ่านมา

    ollama导入是gguf格式的模型文件,怎么生成或转换这些文件。导入到ollama中,希望老师能多多指导下。

  • @user-mv9ul9tz1c
    @user-mv9ul9tz1c 11 วันที่ผ่านมา

    請問有影片講解怎麼用openAI API 或是本地的LLM 搭配RAG實操練習呢?
    如果openAI API assistant使用File search上傳個人知識txt檔案,如果要assistant 看根據上傳的檔案的內容規則把我另外輸入的文本分類,這會消耗額外的tokens和費用嗎? 謝謝

  • @alenboy2530
    @alenboy2530 11 วันที่ผ่านมา

    更新之后,发现是可以并发了,但RAG失灵了!

  • @sunsea678
    @sunsea678 16 ชั่วโมงที่ผ่านมา

    请问win下怎么设置启动参数?

  • @frankgao3323
    @frankgao3323 7 วันที่ผ่านมา

    老哥,我跑langchain开了ollama serve并发,但是处理的时候还是一个一个排队的,langchain也是abatch并发,一直找不到原因。能指点指点么?

  • @ro8954267
    @ro8954267 15 วันที่ผ่านมา +1

    就我所知,這次ollama的新feature只是補足原本無法多請求併發的問題。
    請問這與vllm相比之下,會有較好的性能嗎?

    • @01coder30
      @01coder30  13 วันที่ผ่านมา

      没有测试对比过,还不好说。个人感觉在需要并发的环境中还是vLLM更能满足需求

  • @yin3331
    @yin3331 16 วันที่ผ่านมา

    #大神看能不能强强联合#
    有个开源项目AirLLM可以实现4GB显存运行Llama3 70B大模型,那能不能把AirLLM与ollama做某种形式的结合,实现在个人消费级电脑上流畅运行Llama3 70B等大模型?我不是技术人员,英语也不行,真心求问!如果可行的话反映给ollama开发者,

  • @wcwong22000
    @wcwong22000 14 วันที่ผ่านมา

    我的 Ollama 服务器闲置一段时间后进入休眠状态。如何让它继续运行?

    • @01coder30
      @01coder30  13 วันที่ผ่านมา

      Ollama有个keep_alive参数,或许是你需要的

  • @jerryyuan3958
    @jerryyuan3958 14 วันที่ผ่านมา

    ollama 可以用在生成环境吗?

    • @01coder30
      @01coder30  13 วันที่ผ่านมา

      要看你的生产环境流量和并发量了。你可以测试一下 Ollama 的这个并发支持是否支持你的环境