Taiwan LLM - The first traditional mandarin large language models

林彥廷

มุมมอง 22 039

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 22 ต.ค. 2024

ความคิดเห็น • 61

@chunyen7573 6 หลายเดือนก่อน ⁺¹
收穫良多，期待未來更多的應用和結果
@radio0529 7 หลายเดือนก่อน ⁺¹⁴
「形容一個人『好電』跟形容一個人『好雷』有甚麼差別?」
感覺這個問題很適合拿來考驗語言模型對文化的理解
也感謝電神發起這個企劃
@adamlin120 7 หลายเดือนก่อน
愛您
@澤翰陳 9 หลายเดือนก่อน ⁺¹⁴
非常感謝原作者的分享，可能是近期聽到最好的decoder only transformer的課程🎉
@adamlin120 9 หลายเดือนก่อน ⁺¹
謝謝你的鼓勵！
@810602jay 8 หลายเดือนก่อน ⁺⁴
非常寶貴的經驗! 感謝林博士的分享 🥰
@adamlin120 8 หลายเดือนก่อน ⁺¹
謝謝你的鼓勵 🙏🏻
@g83.07 7 หลายเดือนก่อน ⁺²
太好了感謝你的分享我還在苦惱語言模型的問題
@KevinKuei 9 หลายเดือนก่อน ⁺⁴
真的非常感謝林同學分享這些insights
@adamlin120 9 หลายเดือนก่อน
謝謝您
@user-grkjehejiebsksj 8 หลายเดือนก่อน ⁺¹
感謝分享，台灣有你們真好🎉
@adamlin120 7 หลายเดือนก่อน
愛您
@ficialArti 2 หลายเดือนก่อน
愛您
@賴兆信 7 หลายเดือนก่อน ⁺¹
感謝地方賢達，愛您❤
@adamlin120 7 หลายเดือนก่อน
愛您
@BruceChouTW 7 หลายเดือนก่อน ⁺⁴
謝謝林博士的分享，邏輯非常清淅易懂，分享的insight也全是重點，讓人聯想到Andrej Karpathy的教程。未來想聽您分享更多的算法見解如state space model跟mixture of token。
@adamlin120 7 หลายเดือนก่อน
愛您
@gjlmotea 7 หลายเดือนก่อน ⁺¹
加油國產拚個台灣之光&資安安全
@liangchang3678 6 หลายเดือนก่อน ⁺¹
請問預訓練的資料集，如何加入title及source，例如作者、出自哪本書，每一筆資料結構會是長什麼樣子？另外請問每一筆長度若超過4000 token時，該怎麼處理？再請教預訓練後模型，該如何測試有學到新知識？
@adamlin120 6 หลายเดือนก่อน ⁺¹
你可以直接想像是epub轉成txt檔。超過4000就把後續當下一筆資料
@stuser 9 หลายเดือนก่อน ⁺⁸
台灣的落地應用, 有機會找台灣的遊戲廠商合作嗎? 其實滿希望看到LLM應用到遊戲領域的
@adamlin120 9 หลายเดือนก่อน ⁺¹⁰
我們 Taiwan LLM - v2 的合作夥伴就是遊戲業的相關廠商，LLM 在角色扮演(Roleplay) 已經看到很好的效果，我相信落地到遊戲中很快就會發生
@stuser 9 หลายเดือนก่อน ⁺²
@@adamlin120 太棒了, 如果是繁體中文的遊戲, 應該可以收集到更多繁體中文玩家的對話語料 🙂
@me1996017 7 หลายเดือนก่อน ⁺³
很感謝分享，看完整個影片後有幾個問題想請教
- 有提到嘗試跑FP8訓練，但資源有限，好奇是指Ada以及Hopper系列顯卡目前在台灣學術界還是很不足嗎?
- 關於體感體驗分數這個指標(metric)，有沒有可以分享的一些論文在做相關研究? 在做圖像生成的領域有很多人在討論 "aesthetic score"，影片中提到的 "文化匹配" 是不是也有一個可以量化的指標呢?
- 關於模型架構的部分，除了 MoE 外，有考慮做 Quantization 的實驗嗎?
@adamlin120 7 หลายเดือนก่อน
FP8 我在去年底用 H100 和 4090 跑過，當時沒有一個訓練架構可以 finetune 原本不是 fp8出來的模型 (e.g. LLaMa)，目前好像有一點點支援了，但還沒嘗試過。Hopper 很少見，但是 A6000 Ada 挺多的
@adamlin120 7 หลายเดือนก่อน
你提到 "aesthetic score" 這概念很棒，我也是一直在想在地化到底可不可以有自動化指標，目前還沒想法，但是用 arena.twllm.com/ 收集了一些群眾標註
@drayg0n806 8 หลายเดือนก่อน ⁺³
感謝分享！
想請問 26:39 這邊的這種epoch內loss沒有明顯下降，但切換到下一個epoch 時會陡降是正常的現象嗎？最近在pretrain一個model的時候也遇到這種形狀的loss curve
有試著上網看過有些網友也有遇到，但好像都沒人能下結論說是好還是不好
@adamlin120 8 หลายเดือนก่อน ⁺¹
26：39 這邊的 Y軸是cross entropy loss，屬於 log space 的維度，會貌似沒有下降太多。實際把數值取自然指數後（exp(loss))，還原成entropy就會比較明顯往下。
我的經驗是loss不要往上跑就可以了xD
Btw 這邊是訓練三個epoch，且固定資料順序。所以每當新的epoch開始時，loss會驟降也是正常現象。
@drayg0n806 8 หลายเดือนก่อน
@@adamlin120 了解! 感謝林博士撥空回覆
@gordonko 2 หลายเดือนก่อน
PhD 不是應該是做一些原創或基礎性的工作嗎？用OpenAPI現成的Tools Chain做一個LLM, 和拿Excel 寫一個報稅程式本質上有什麼差別?
@羅裕耀 4 หลายเดือนก่อน
老師好，請教一下，如何測試落地與token驗證
@ChangKevinSiriusThory 7 หลายเดือนก่อน ⁺²
有考慮跟教育部合作把一些官方的資料放進去訓練嗎？比如說教育部國語辭典之類的
@ura186 7 หลายเดือนก่อน ⁺¹
模型很難做他要口語訓練就不能拿教科書沒人講話講成字典的說法
@adamlin120 7 หลายเดือนก่อน ⁺²
倒是可以訓練進去台語客語，這部分語料應該政府比民間多
@起風咯 7 หลายเดือนก่อน ⁺¹
台語(文)的分析與整理可以用Taiwan LLM
@Andrew-vh9td 7 หลายเดือนก่อน ⁺¹
你的聲音很適合播音
@adamlin120 7 หลายเดือนก่อน
愛您
@wangjohn9224 7 หลายเดือนก่อน ⁺³
您好，问一个问题问您，llama2的tokenizer 中的简体和繁体的token都非常少，请问您们的团队是否对token做了扩充，增加了中文的token在里面，还有问一下，您的 continue pretraining 是使用losa的类似方式，对llama的模型做了freeze，还是在整个llama2 上面训练的谢谢,
@adamlin120 7 หลายเดือนก่อน ⁺¹
CPT 是全參數訓練。不做詞表擴充是因為 1. 當時預算只夠跑一次訓練，不容失敗，不想嘗試太高風險的東西 2. stabilityai 的 japanese-llama-70b 做了日文擴充表現沒有比較好
@wangjohn9224 6 หลายเดือนก่อน
@@adamlin120 你说的对，对于大语言模型，全量训练成本挺高，我想问的是：如果是从实际应用的角度，使用RAG配合向量数据库提供本地信息给大模型，是否可以一定程度上取代使用SFT 和RLHF 的全参数训练呢？RAG成本低一点
@chenchenlingcat 7 หลายเดือนก่อน ⁺¹
01:14林彥廷OpenAI Codebase Next Word
@Victor-ol9el 9 หลายเดือนก่อน ⁺²
好奇想問一下，訓練的三個步驟您所用的framework是Nemo嗎？
@adamlin120 9 หลายเดือนก่อน ⁺⁴
影片所說的訓練是用自己兜起來的腳本，有些用Megatron-llm。nemo 在2023末才支援 llama-2，影片中的模型來不及用上。順帶一提，Nemo+GPU應該是最有效率之一的，之後有大規模訓練我們會選用 nemo。
@起風咯 7 หลายเดือนก่อน ⁺²
我用Copiot查NTU是回答台大
@陳楷翔-i6s 7 หลายเดือนก่อน
14:20預訓練
@吳承憲 7 หลายเดือนก่อน ⁺¹
使用TWLLM的話，用MoE-alpha還是13B-v2.0-chat?
@adamlin120 7 หลายเดือนก่อน
finetune的話 13b 就行了
@Starburst8763 8 หลายเดือนก่อน ⁺¹
請問Taiwan LLM可以使用Ollama、VLLM等等，這些用於加速性能或是使其易於開發LLM的套件商去嗎?
@adamlin120 8 หลายเดือนก่อน ⁺¹
都可以呀，我自己都用 vllm 來 serve 模型。python -m vllm.entrypoints.openai.api_server --model yentinglin/Taiwan-LLM-13B-v2.0-chat --port 80 --host 0.0.0.0 --tensor-parallel-size 2
@Starburst8763 8 หลายเดือนก่อน ⁺¹
@@adamlin120 您好，因為我的Vram只有16gb(4060ti)，所以我用的是Taiwan llm 7B，h0 參數gpu_memory_utilization=1，但還是出現ValueError: The model's max seq len (4096) is larger than the maximum number of tokens that can be stored in KV cache (2128).的錯誤，請問他可以quantization嗎?
@冰塊-v6i 8 หลายเดือนก่อน
@@Starburst8763 依照 Error，你可以把 max seq len 設定成
@garfieldlavi 7 หลายเดือนก่อน ⁺¹
你們不用RLHF嗎？
@adamlin120 7 หลายเดือนก่อน
試過幾次，體感回答的穩定性有比較好。之後的版本會做DPO/KTO
@alanchau8037 8 หลายเดือนก่อน ⁺¹
666
@adamlin120 7 หลายเดือนก่อน
愛您
@taiwanSmart 7 หลายเดือนก่อน
台灣的大語言模型叫做「草泥馬」？

ต่อไป

เล่นอัตโนมัติ