ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
收穫良多,期待未來更多的應用和結果
「形容一個人『好電』跟形容一個人『好雷』有甚麼差別?」感覺這個問題很適合拿來考驗語言模型對文化的理解也感謝電神發起這個企劃
愛您
非常感謝原作者的分享,可能是近期聽到最好的decoder only transformer的課程🎉
謝謝你的鼓勵!
非常寶貴的經驗! 感謝林博士的分享 🥰
謝謝你的鼓勵 🙏🏻
太好了 感謝你的分享 我還在苦惱語言模型的問題
真的非常感謝林同學分享這些insights
謝謝您
感謝分享,台灣有你們真好🎉
感謝地方賢達,愛您❤
謝謝林博士的分享,邏輯非常清淅易懂,分享的insight也全是重點,讓人聯想到Andrej Karpathy的教程。未來想聽您分享更多的算法見解如state space model跟mixture of token。
加油 國產拚個台灣之光&資安安全
請問預訓練的資料集,如何加入title及source,例如作者、出自哪本書,每一筆資料結構會是長什麼樣子? 另外請問每一筆長度若超過4000 token時,該怎麼處理? 再請教預訓練後模型,該如何測試有學到新知識?
你可以直接想像是epub轉成txt檔。超過4000就把後續當下一筆資料
台灣的落地應用, 有機會找台灣的遊戲廠商合作嗎? 其實滿希望看到LLM應用到遊戲領域的
我們 Taiwan LLM - v2 的合作夥伴就是遊戲業的相關廠商,LLM 在角色扮演(Roleplay) 已經看到很好的效果,我相信落地到遊戲中很快就會發生
@@adamlin120 太棒了, 如果是繁體中文的遊戲, 應該可以收集到更多繁體中文玩家的對話語料 🙂
很感謝分享,看完整個影片後有幾個問題想請教- 有提到嘗試跑FP8訓練,但資源有限,好奇是指Ada以及Hopper系列顯卡目前在台灣學術界還是很不足嗎?- 關於體感體驗分數這個指標(metric),有沒有可以分享的一些論文在做相關研究? 在做圖像生成的領域有很多人在討論 "aesthetic score",影片中提到的 "文化匹配" 是不是也有一個可以量化的指標呢?- 關於模型架構的部分,除了 MoE 外,有考慮做 Quantization 的實驗嗎?
FP8 我在去年底用 H100 和 4090 跑過,當時沒有一個訓練架構可以 finetune 原本不是 fp8出來的模型 (e.g. LLaMa),目前好像有一點點支援了,但還沒嘗試過。Hopper 很少見,但是 A6000 Ada 挺多的
你提到 "aesthetic score" 這概念很棒,我也是一直在想在地化到底可不可以有自動化指標,目前還沒想法,但是用 arena.twllm.com/ 收集了一些群眾標註
感謝分享! 想請問 26:39 這邊的這種epoch內loss沒有明顯下降,但切換到下一個epoch 時會陡降是正常的現象嗎?最近在pretrain一個model的時候也遇到這種形狀的loss curve有試著上網看過有些網友也有遇到,但好像都沒人能下結論說是好還是不好
26:39 這邊的 Y軸是cross entropy loss,屬於 log space 的維度,會貌似沒有下降太多。實際把數值取自然指數後(exp(loss)),還原成entropy就會比較明顯往下。我的經驗是loss不要往上跑就可以了xD Btw 這邊是訓練三個epoch,且固定資料順序。所以每當新的epoch開始時,loss會驟降也是正常現象。
@@adamlin120 了解! 感謝林博士撥空回覆
PhD 不是應該是做一些原創或基礎性的工作嗎?用OpenAPI現成的Tools Chain做一個LLM, 和拿Excel 寫一個報稅程式本質上有什麼差別?
老師好,請教一下,如何測試落地與token驗證
有考慮跟教育部合作把一些官方的資料放進去訓練嗎?比如說教育部國語辭典之類的
模型很難做 他要口語 訓練就不能拿教科書 沒人講話講成字典的說法
倒是可以訓練進去台語客語,這部分語料應該政府比民間多
台語(文)的分析與整理可以用Taiwan LLM
你的聲音很適合播音
您好,问一个问题问您,llama2的tokenizer 中的简体和繁体的token都非常少,请问您们的团队是否对token做了扩充,增加了中文的token在里面 ,还有问一下,您的 continue pretraining 是使用losa的类似方式,对llama的模型做了freeze,还是在整个llama2 上面训练的 谢谢,
CPT 是全參數訓練。 不做詞表擴充是因為 1. 當時預算只夠跑一次訓練,不容失敗,不想嘗試太高風險的東西 2. stabilityai 的 japanese-llama-70b 做了日文擴充表現沒有比較好
@@adamlin120 你说的对,对于大语言模型,全量训练成本挺高, 我想问的是:如果是从实际应用的角度,使用RAG配合 向量数据库 提供本地信息给大模型,是否可以一定程度上取代使用SFT 和RLHF 的全参数训练呢?RAG成本低一点
01:14林彥廷OpenAI Codebase Next Word
好奇想問一下,訓練的三個步驟您所用的framework是Nemo嗎?
影片所說的訓練是用自己兜起來的腳本,有些用Megatron-llm。nemo 在2023末才支援 llama-2,影片中的模型來不及用上。順帶一提,Nemo+GPU應該是最有效率之一的,之後有大規模訓練我們會選用 nemo。
我用Copiot查NTU是回答台大
14:20預訓練
使用TWLLM的話,用MoE-alpha還是13B-v2.0-chat?
finetune的話 13b 就行了
請問Taiwan LLM可以使用Ollama、VLLM等等,這些用於加速性能或是使其易於開發LLM的套件商去嗎?
都可以呀,我自己都用 vllm 來 serve 模型。python -m vllm.entrypoints.openai.api_server --model yentinglin/Taiwan-LLM-13B-v2.0-chat --port 80 --host 0.0.0.0 --tensor-parallel-size 2
@@adamlin120 您好,因為我的Vram只有16gb(4060ti),所以我用的是Taiwan llm 7B,h0 參數gpu_memory_utilization=1,但還是出現ValueError: The model's max seq len (4096) is larger than the maximum number of tokens that can be stored in KV cache (2128).的錯誤, 請問他可以quantization嗎?
@@Starburst8763 依照 Error,你可以把 max seq len 設定成
你們不用RLHF嗎?
試過幾次,體感回答的穩定性有比較好。之後的版本會做DPO/KTO
666
台灣的大語言模型叫做「草泥馬」?
收穫良多,期待未來更多的應用和結果
「形容一個人『好電』跟形容一個人『好雷』有甚麼差別?」
感覺這個問題很適合拿來考驗語言模型對文化的理解
也感謝電神發起這個企劃
愛您
非常感謝原作者的分享,可能是近期聽到最好的decoder only transformer的課程🎉
謝謝你的鼓勵!
非常寶貴的經驗! 感謝林博士的分享 🥰
謝謝你的鼓勵 🙏🏻
太好了 感謝你的分享 我還在苦惱語言模型的問題
真的非常感謝林同學分享這些insights
謝謝您
感謝分享,台灣有你們真好🎉
愛您
愛您
感謝地方賢達,愛您❤
愛您
謝謝林博士的分享,邏輯非常清淅易懂,分享的insight也全是重點,讓人聯想到Andrej Karpathy的教程。未來想聽您分享更多的算法見解如state space model跟mixture of token。
愛您
加油 國產拚個台灣之光&資安安全
請問預訓練的資料集,如何加入title及source,例如作者、出自哪本書,每一筆資料結構會是長什麼樣子? 另外請問每一筆長度若超過4000 token時,該怎麼處理? 再請教預訓練後模型,該如何測試有學到新知識?
你可以直接想像是epub轉成txt檔。超過4000就把後續當下一筆資料
台灣的落地應用, 有機會找台灣的遊戲廠商合作嗎? 其實滿希望看到LLM應用到遊戲領域的
我們 Taiwan LLM - v2 的合作夥伴就是遊戲業的相關廠商,LLM 在角色扮演(Roleplay) 已經看到很好的效果,我相信落地到遊戲中很快就會發生
@@adamlin120 太棒了, 如果是繁體中文的遊戲, 應該可以收集到更多繁體中文玩家的對話語料 🙂
很感謝分享,看完整個影片後有幾個問題想請教
- 有提到嘗試跑FP8訓練,但資源有限,好奇是指Ada以及Hopper系列顯卡目前在台灣學術界還是很不足嗎?
- 關於體感體驗分數這個指標(metric),有沒有可以分享的一些論文在做相關研究? 在做圖像生成的領域有很多人在討論 "aesthetic score",影片中提到的 "文化匹配" 是不是也有一個可以量化的指標呢?
- 關於模型架構的部分,除了 MoE 外,有考慮做 Quantization 的實驗嗎?
FP8 我在去年底用 H100 和 4090 跑過,當時沒有一個訓練架構可以 finetune 原本不是 fp8出來的模型 (e.g. LLaMa),目前好像有一點點支援了,但還沒嘗試過。Hopper 很少見,但是 A6000 Ada 挺多的
你提到 "aesthetic score" 這概念很棒,我也是一直在想在地化到底可不可以有自動化指標,目前還沒想法,但是用 arena.twllm.com/ 收集了一些群眾標註
感謝分享!
想請問 26:39 這邊的這種epoch內loss沒有明顯下降,但切換到下一個epoch 時會陡降是正常的現象嗎?最近在pretrain一個model的時候也遇到這種形狀的loss curve
有試著上網看過有些網友也有遇到,但好像都沒人能下結論說是好還是不好
26:39 這邊的 Y軸是cross entropy loss,屬於 log space 的維度,會貌似沒有下降太多。實際把數值取自然指數後(exp(loss)),還原成entropy就會比較明顯往下。
我的經驗是loss不要往上跑就可以了xD
Btw 這邊是訓練三個epoch,且固定資料順序。所以每當新的epoch開始時,loss會驟降也是正常現象。
@@adamlin120 了解! 感謝林博士撥空回覆
PhD 不是應該是做一些原創或基礎性的工作嗎?用OpenAPI現成的Tools Chain做一個LLM, 和拿Excel 寫一個報稅程式本質上有什麼差別?
老師好,請教一下,如何測試落地與token驗證
有考慮跟教育部合作把一些官方的資料放進去訓練嗎?比如說教育部國語辭典之類的
模型很難做 他要口語 訓練就不能拿教科書 沒人講話講成字典的說法
倒是可以訓練進去台語客語,這部分語料應該政府比民間多
台語(文)的分析與整理可以用Taiwan LLM
你的聲音很適合播音
愛您
您好,问一个问题问您,llama2的tokenizer 中的简体和繁体的token都非常少,请问您们的团队是否对token做了扩充,增加了中文的token在里面 ,还有问一下,您的 continue pretraining 是使用losa的类似方式,对llama的模型做了freeze,还是在整个llama2 上面训练的 谢谢,
CPT 是全參數訓練。 不做詞表擴充是因為 1. 當時預算只夠跑一次訓練,不容失敗,不想嘗試太高風險的東西 2. stabilityai 的 japanese-llama-70b 做了日文擴充表現沒有比較好
@@adamlin120 你说的对,对于大语言模型,全量训练成本挺高, 我想问的是:如果是从实际应用的角度,使用RAG配合 向量数据库 提供本地信息给大模型,是否可以一定程度上取代使用SFT 和RLHF 的全参数训练呢?RAG成本低一点
01:14林彥廷OpenAI Codebase Next Word
好奇想問一下,訓練的三個步驟您所用的framework是Nemo嗎?
影片所說的訓練是用自己兜起來的腳本,有些用Megatron-llm。nemo 在2023末才支援 llama-2,影片中的模型來不及用上。順帶一提,Nemo+GPU應該是最有效率之一的,之後有大規模訓練我們會選用 nemo。
我用Copiot查NTU是回答台大
14:20預訓練
使用TWLLM的話,用MoE-alpha還是13B-v2.0-chat?
finetune的話 13b 就行了
請問Taiwan LLM可以使用Ollama、VLLM等等,這些用於加速性能或是使其易於開發LLM的套件商去嗎?
都可以呀,我自己都用 vllm 來 serve 模型。python -m vllm.entrypoints.openai.api_server --model yentinglin/Taiwan-LLM-13B-v2.0-chat --port 80 --host 0.0.0.0 --tensor-parallel-size 2
@@adamlin120 您好,因為我的Vram只有16gb(4060ti),所以我用的是Taiwan llm 7B,h0 參數gpu_memory_utilization=1,但還是出現ValueError: The model's max seq len (4096) is larger than the maximum number of tokens that can be stored in KV cache (2128).的錯誤, 請問他可以quantization嗎?
@@Starburst8763 依照 Error,你可以把 max seq len 設定成
你們不用RLHF嗎?
試過幾次,體感回答的穩定性有比較好。之後的版本會做DPO/KTO
666
愛您
台灣的大語言模型叫做「草泥馬」?