【生成式AI導論 2024】第6講:大型語言模型修練史 - 第一階段: 自我學習,累積實力 (熟悉機器學習的同學從
ฝัง
- เผยแพร่เมื่อ 4 ต.ค. 2024
- 投影片:drive.google.c...
19:00 此處的訓練是 "train from scratch" ,因為有近乎無窮無盡的資料,所以比較不用擔心 overfitting 的問題
延伸閱讀:為什麼類神經網路可以正確分辨寶可夢和數碼寶貝呢?
• 【機器學習2021】機器學習模型的可解釋性 ... - วิทยาศาสตร์และเทคโนโลยี
# 1. 基本概念
- 機器學習的目標是找出模型參數,使之符合訓練資料
- 分為訓練(Training/Learning) 和 測試/推論(Testing/Inference) 兩階段
- 訓練:設定超參數,透過最佳化找出參數
- 測試/推論:使用已訓練的參數進行推論
# 2. 訓練挑戰
1. 超參數設定
- 影響最佳化結果,需多次嘗試調整
1. 過度擬合 (Overfitting)
- 訓練成功但測試失敗,找出的參數無法泛化
- 解決方式:增加訓練資料多樣性、設定合理初始參數
# 3. 語言模型訓練第一階段:自我學習
1. 目標:通過大量文字資料,學習語言知識和世界知識
2. 資料來源:網路上爬取的文本資料
3. 資料預處理:過濾有害內容、HTML標籤、重複資料等
4. 自監督式學習(Self-supervised learning),少量人工介入
5. 代表作:GPT系列模型 (GPT-1 -> GPT-3)
- 參數量從1億增加到1750億
- 訓練資料從700本書增加到3000億 token 量
- 但效果有限,無法真正理解和回答問題
# 4. 自我學習的限制
- 模型學到的只是片段知識,無法有效利用
- 需要透過人類指導,學習如何正確使用所學知識
# 5. 小結
- 透過網路資料的自我學習,語言模型獲得了豐富的知識
- 但僅獲得知識是不夠的,需要指導模型如何利用知識
- 接下來的第二階段將著重於此
大型語言模型修練史
第一階段:自我學習, 累積實力
第二階段:名師指點, 發揮潛力
第三階段:參與實戰, 打磨技巧
--------------------------------------------
第一階段:自我學習, 累積實力
00:00 1.0 大型語言模型修練三階段
00:44 1.1 背景知識:文字接龍
04:50 1.2 找參數的挑戰
11:51 1.3 如何讓機器找到比較「合理」的參數
15:02 1.4 需要多少文字才夠學會文字接龍?
17:44 1.5 任何文字資料都可以拿來學文字接龍 Self-supervised Learning (自督導式學習)
19:31 1.6 資料清理
22:39 1.7 所有文字資料都能拿來學文字接龍嗎?
23:42 1.8 在 ChatGPT 之前的 GPT 系列
33:20 1.9 為什麼語言模型不能好好回答問題?
感謝老師的分享,每集都受益良多,比追番還期待❤
有夠好看 期待下一集
太喜欢您的课程了,非常适合初学者。作为大语言模型从业者和关注下一代教育的家长,我一直觉得有一个这样的兼顾入门和深度的课程,对于初学者,尤其是高中以上的学生是非常好的训练。请问老师有没有可供参考的类似难度的英文课程、课件,我可以带着孩子们一起学?
哈利波特30万遍,这个说法印象深刻
😀😀😀刚好躺下,又起来了
今天也來學一般攻擊魔法了
謝謝老師
0:16 大型语言模型的修炼史,分为三个阶段,这三个阶段都是在让大语言模型学习文字接龙,只是训练资料不同。
2:03 大语言模型本身是一个有数十亿个未知参数的函数,训练大语言模型,目的是要找到最佳的这数十亿参数。
4:52 对训练大语言模型的训练,要设置合理的初始参数,并不断尝试不同的超参数hyperparameter,直至让大语言模型自动生成最佳化的参数parameter.
5:58 训练大语言模型的挑战1:需要大量算力来为大语言模型调超参数hyperparameter,这个过程很痛苦。
8:45 训练大语言模型的挑战2:对训练资料来说,训练training/learning成功了,但对于新的输入,结果却测试testing/inference失败了overfitting。
12:43 设置初始参数:①随机法train from scratch;②利用先验知识设定“好”的初始参数
15:00 学会文字接龙需要学习语言知识和世界知识
17:45 拿来学文字接龙的文字资料,人工可以不介入或者介入,以影响对模型的训练结果。(大语言模型机器学时,只管找到的参数有没有”符合“训练资料,不管有没有道理)
23:42 在chatGPT之前的GPT系列(大语言模型函数的参数量相当于天资,拿来学文字接龙的资料量相当于后天的努力),介绍了GPT1,GPT2,GPT3,并指出随着GPT的进步,prompt engineering变得并没有想象中的那么重要
32:41 大语言模型在第一阶段,根据网络资料学了很多资料,却不知道使用方法,需要进入修炼的第二阶段
感謝老師分享 👍
好想趕快看到下一章~
須要這樣多的fitting by iteration of parameters(coefficients??). No wonder the machine learning in a computer needs such high speeds and memory volumes.
上課啦
GPT3 也太好笑了, 你問AI一個問題, 他反問你更多問題
老师布置的作业在哪里可以找到?
🎉🎉🎉🎉
🎉
16:56 攝氏的「攝」是簡體字啊?
一代米要扛幾樓...
超參數太難找囉...
不知道為什麼,看到作業想到黃渤演的崩潰的家長……
请问作业在哪里看啊?
“调参数” - 怎么“调”, 没说清楚。 于此相关地,超参数到底和一般的参数的区别是什么?
超參數和初始參數的差別在於它們的定義和用途:
1. 超參數(Hyperparameters):
- 超參數是在訓練模型前需要設定的參數。
- 例如,學習率、批次大小、正則化參數等都是超參數。
- 在訓練過程中,需要不斷調整超參數以優化模型的性能。
- 影片中提到,訓練大型語言模型的挑戰之一是設定合理的超參數。
2. 初始參數(Initial Parameters):
- 初始參數是模型在開始訓練時的參數。
- 這些參數通常是隨機初始化的,或者可以基於先前的知識進行設定。
- 初始參數是模型在訓練過程中逐步優化的對象。
- 影片中提到,設定初始參數的方法有兩種:1) 隨機法(train from scratch);2) 利用先前的知識設定"好"的初始參數。
總結來說,超參數和初始參數都是訓練機器學習模型時需要考慮和設定的重要參數,但它們的定義、用途和調整方式有所不同。超參數主要用於控制訓練過程和優化模型性能,而初始參數則是模型開始訓練時的起始點。
AI產生,剛好我也想更清楚。
@@綠葉-h7j 谢谢🙏