【2023/07/27】一般庶民でもfine-tuningしたい! ~ローカルLLMのGPU節約の手法を解説~【アーカイブ】
ฝัง
- เผยแพร่เมื่อ 30 ก.ย. 2024
- 2022年にOpenAIがChatGPTを公開して以降、大規模言語モデル (LLM) 界隈は大きく盛り上がっています。 最近ではオープンソースのLLMが続々と公開されるようになり、そうしたモデルたちはローカル環境で動かしたり学習したりすることができます。
しかし、一般にLLMは数十億以上のパラメータを持ち、全パラメータをロードするだけでも大量のメモリが必要になります。 一般的なスペックのGPUでは、LLMをメモリに乗せることすらできないのが現状です。fine-tuningは言わずもがなです。
では、一般庶民はLLMを動かすことはできないのでしょうか? そんなことはありません。
LLMの学習や推論に必要なGPUメモリを削減するための技術は多く研究されています。 今回はその中でも量子化 (quantization) とLoRA (Low-Rank Adaption) を紹介し、これらの技術を使って実際にOpenCALM (サイバーエージェント社のオープンソースLLM) をfine-tuningしてみた結果を共有します。
===
2023/07/27に開催したオンラインセミナーのアーカイブ動画です。
イベントページ:studyco.connpa...
発表資料:speakerdeck.co...
===
運営:studyco.io
デカすぎんだろ...
勉強になりました