llama3 02 环境配置 模型下载 基于vLLM进行模型推理

แชร์
ฝัง
  • เผยแพร่เมื่อ 2 ก.ค. 2024
  • 在这节课中,我们将深入探讨如何配置和部署Llama3模型,以确保能够顺利地开始你的AI项目。首先,我将一步一步带你完成环境的设置,并向你演示从官方网站及Hugging Face库下载Llama3模型的两种方法。其次,我将详细介绍如何使用Transformers库和vLLM框架来部署和进行模型推理。通过实际示例和详细步骤,你将学习如何有效地利用这些工具,以确保模型能够最大限度地发挥其性能。
    大模型LLM系列课程相关资料,请在以下GitHub页面自助获取:
    github.com/Tommy-s-Online-Cou...
    本节课程内容包含:
    00:00:00 llama3模型-官网下载
    00:04:08 llama3模型-Hugging Face下载
    00:05:46 llama实战环境配置
    00:06:36 验证llama3模型下载是否正确
    00:08:07 llama3模型推理-GPU版本
    00:09:39 llama3模型推理-基于vLLM
    00:16:39 下节预告
    大语言模型相关精品系列课程请访问我的网站:
    www.TGLTommy.com
  • วิทยาศาสตร์และเทคโนโลยี

ความคิดเห็น • 11

  • @user-ot6qr9zi1j
    @user-ot6qr9zi1j หลายเดือนก่อน

    Tommy老师,感谢分享!有个问题请教一下,是不是使用vllm,就可以本地化部署类似于llama3这样的开源模型,然后再生成API接口,供自己的app调用了?如果再要做fine tune,可以用unsloth这样的工具去做,做完后依然用vllm去部署并生成接口。感谢感谢

    • @TGLTommy
      @TGLTommy  หลายเดือนก่อน +2

      可以基于vLLM将第三方开原模型部署为对外的API接口服务;可以基于开源的训练框架(deepspeed,xtuner, LLaMA-Factory等工具)进行模型微调,然后部署为API服务。可以学习一下我这个系列分享的课程,已经有包含。

    • @user-ot6qr9zi1j
      @user-ot6qr9zi1j หลายเดือนก่อน

      @@TGLTommy 好的,我仔细学习一下,感谢tommy老师

    • @user-ot6qr9zi1j
      @user-ot6qr9zi1j หลายเดือนก่อน

      @@TGLTommy 另外请教一下,如果是按照您上述的这些框架,最后包装成API之后,我还能用langchain的框架去管理吗?还是说得用其他框架呢

    • @TGLTommy
      @TGLTommy  หลายเดือนก่อน +1

      @@user-ot6qr9zi1j API管理?我没有用过langchain去做过。不过,你可以参考一下FastChat项目中用controller对API进行管理,可以参考一下。

  • @bibiworm
    @bibiworm หลายเดือนก่อน

    老师 这是本地部署对吧

    • @TGLTommy
      @TGLTommy  หลายเดือนก่อน

      嗯嗯,是的哈

  • @simonwu6992
    @simonwu6992 หลายเดือนก่อน

    你好,想请教一下,我的模型老报错AssertionError: Meat-Llama-3-8B/tokenizer.model,不知道这边有没有碰到过。-e都装完了也没抱错,用的是官方github那段torchrun指令。

    • @TGLTommy
      @TGLTommy  หลายเดือนก่อน

      请问是否查看了模型的SHA256是否与huggingface上一致呢?如果模型下载过程中出现了问题,会抛出error

  • @simonwu6992
    @simonwu6992 หลายเดือนก่อน

    用vllm是不是只能使用Hugging face下载的模型呢?我在原生的git上下载的模型就跑不起来vllm。另外想请教下,我的显卡是4070ti,看配置有2个16Ggpu显存,跑推理只用到其中一个专用显存,还有一个空着,有没有配置方式能把另一个也用上呢?

    • @TGLTommy
      @TGLTommy  หลายเดือนก่อน

      如果用vllm进行模型推理,建议模型格式是huggingface格式。使用vllm进行推理时,可以配置在2张GPU上进行并发推理,提高服务的性能。