【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论

Best Partners TV

มุมมอง 56 396

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 12 ส.ค. 2023
语言大模型内部究竟是如何工作的？本文用最少的数学知识和术语进行解释。如今，几乎每个人都听说过LLM，并有数千万人用过它们，但是，了解工作原理的人并不多。你可能听说过，训练LLM是用于“预测下一个词”，而且它们需要大量的文本来实现这一点。但是，解释通常就止步于此。它们如何预测下一个词的细节往往被视为一个深奥的谜题。
其中一个原因是，这些系统的开发方式与众不同。一般的软件是由人类工程师编写，他们为计算机提供明确的、逐步的指令。相比之下，ChatGPT是建立在一个使用数十亿个语言词汇进行训练的神经网络之上。
因此，地球上没有人完全理解LLM的内部工作原理。研究人员正在努力尝试理解这些模型，但这是一个需要数年甚至几十年才能完成的缓慢过程。
然而，专家们确实对这些系统的工作原理已有不少了解。本文的目标是将这些知识开放给广大受众。我们将努力解释关于这些模型内部工作原理的已知内容，而不涉及技术术语或高级数学。
我们将从解释词向量（word vector）开始，它是语言模型表示和推理语言的一种令人惊讶的方式。然后，我们将深入探讨构建ChatGPT等模型的基石Transformer。最后，我们将解释这些模型是如何训练的，并探讨为什么要使用庞大的数据量才能获得良好的性能。
本视频参考资料及相关论文：
www.understandingai.org/p/lar...
arxiv.org/abs/1905.05950
arxiv.org/abs/2012.14913
arxiv.org/abs/2305.16130
arxiv.org/pdf/2001.08361.pdf
arxiv.org/abs/2302.02083
arxiv.org/abs/2302.08399
openreview.net/forum?id=e5Yky...
onlinelibrary.wiley.com/doi/f...
arxiv.org/abs/2303.12712
arxiv.org/abs/2211.00593
dl.acm.org/doi/abs/10.1145/34...
#人工智能 #llm #transformer #attention

ความคิดเห็น • 122

@randnomber 2 หลายเดือนก่อน ⁺⁸
把我的脑子烧成烤脑花了。因为以前不了解，但认真听是能听懂的，少有的高质量视频👍
@musiclakemy3215 29 วันที่ผ่านมา ⁺⁴
讲的很通俗易懂，对我理解大语言模型帮助很大，感谢，加油！
@dilubigo8501 2 หลายเดือนก่อน ⁺⁴
感谢作者的倾力制作，让我学到不少LLM的知识
@chenwilliam5176 27 วันที่ผ่านมา
有一位小學生，到圖書館
借很多力學的書，並採取接龍的方式「寫
」成一本力學書，
他完全不懂這本書的內容，
你會看這本書
嗎？
生成式 AI
就如同這樣 🎉
@chenwilliam5176 27 วันที่ผ่านมา
上述接龍是
接出現頻率最高者，
這就有機率、
統計的色彩 😢
@user-zb7ex4ue3y 9 หลายเดือนก่อน
不錯
@zhaixiaoba 9 หลายเดือนก่อน ⁺²
感谢分享
@yanliu999 7 หลายเดือนก่อน ⁺¹
非常精彩的视频，谢谢博主的分享！
@user-yk7gd7do2q 6 หลายเดือนก่อน ⁺¹
说的太好了，谢谢❤
@chenchen-ub6xd 9 หลายเดือนก่อน ⁺²
感谢分享～❤
@junweibuffalo 2 หลายเดือนก่อน ⁺¹
真不错，赞👍
@robinzhang8322 2 หลายเดือนก่อน ⁺¹
辛苦，感谢！
@jj0302 หลายเดือนก่อน
感谢❤❤❤
@alphashen2009 7 หลายเดือนก่อน ⁺¹
谢谢飞哥！！！太给力了
@simonpeter9617 3 หลายเดือนก่อน ⁺¹
这个太好了！
@Zwf5458 9 หลายเดือนก่อน ⁺²
优秀呀，继续关注。
@dueuhskejdhdss 9 หลายเดือนก่อน ⁺³
非常棒的影片，謝謝大飛
@user-hx2dj1gl3k 6 หลายเดือนก่อน ⁺¹
讲得内容很受用，大飞辛苦了。
@Michellexing 2 หลายเดือนก่อน ⁺¹
真大神👍
@jay54867 9 หลายเดือนก่อน ⁺²
謝謝大飛，學習了
@danlau007 9 หลายเดือนก่อน ⁺²
为大飞再手动点个赞👍
@user-vc4jl2hl3h 2 หลายเดือนก่อน ⁺¹
说的很好，感谢！！
@wangjimmie 6 หลายเดือนก่อน ⁺²
讲得太好了，听的我不能自拔，激发了更大兴趣，谢谢
@ddyang1167 15 วันที่ผ่านมา ⁺¹
太有用了
@kaubordy1266 9 หลายเดือนก่อน ⁺³
說明的很清晰
@phoenixx9545 4 หลายเดือนก่อน ⁺¹
讲的真好，非常清晰
@wangmckee2159 9 หลายเดือนก่อน ⁺³
震撼人心的一集！
@fxsc8932 2 หลายเดือนก่อน ⁺²
讲的很好，感谢你
@lihuadong หลายเดือนก่อน
非常感谢，有收获
@gbting1988 18 วันที่ผ่านมา ⁺¹
讲的太好了！
@joyceqiu3889 6 หลายเดือนก่อน ⁺¹
准备看第二遍
@jet8772 หลายเดือนก่อน ⁺¹
听到一半，太牛B了，先点个赞。
@jizhiguo 9 หลายเดือนก่อน ⁺⁹
大飞的节目实在是开卷有益，每期必看。
@user-hc4tj1ny9o หลายเดือนก่อน ⁺²
非常有启发性，谢谢
@Charlie66 9 หลายเดือนก่อน ⁺²
讲的很好，谢谢，不过我有个问题，输入层的词向量是怎么定的？比如输入有两个banks，但词义不同。
@YingleiZhang 2 หลายเดือนก่อน ⁺¹
thanks
@user-fo4ru2ti2g 4 หลายเดือนก่อน ⁺⁴
大飞老师讲的太棒了，每次一遇到不懂的来听大飞老师讲，网上的文章天花乱坠，只有大飞老师讲的最深入浅出，通俗易懂，宝藏博主。希望大飞老师能讲讲RAG，希望大飞老师坚持更下去！！！
@RolandLiMY 9 หลายเดือนก่อน ⁺¹
谢谢！
@bestpartners 9 หลายเดือนก่อน ⁺¹
非常感谢🙏！
@joeg4419 2 หลายเดือนก่อน
这是打赏功能吗, 我怎么没找到
@ms-mq7ro 4 หลายเดือนก่อน ⁺¹
0基础居然听懂了，说的真的很清楚👍
@scarhung หลายเดือนก่อน
謝謝！
@bestpartners หลายเดือนก่อน
感谢支持🙏
@user-ob5yw7qk2p หลายเดือนก่อน
Thank you a lot. This video helps me a lot!!!
@xinlake 4 หลายเดือนก่อน ⁺¹
讲的很好，比哪些以流量为目标的内容好太多
@raisin417 6 หลายเดือนก่อน ⁺³
非常感谢大飞制作的内容。
llm的表现是如此的亮眼，但是我们人类科学家似乎还不清楚模型内部是如何运作的。
同时也对中文大语言模型的未来感到悲观，近年来越发严格的言论审查，和网站的备案，导致大量的曾经存在的优质内容永久的消失在了中文互联网上。言论审查的另一个问题就是，大量的代词，如果不清楚当时语境和社会氛围，恐怕就连人都不知道，这段句子的意思吧。
@user-sz2yt4kd1e 4 หลายเดือนก่อน ⁺¹
講得挺好的，我最近剛開始研究這個課題，然後就找到你的影片。
裡面很多觀念與術語的解釋，真的讓人覺得聽起來覺得學到很多，也對此議題有更深的理解與認識。也讓我很訝異，沒想到簡單感覺很簡單的ChatGPT模型，竟然背後有著麼多學問與論文的堆積。
然後再一開始觀念建立的地方適當加入Google論文裡面的例子，整體讓人更加容易理解。
而且另外我認為提供不同資料，解釋了GPT的能力與人類對應(心智那裏)，在與不同領域的理論(哲學、語言例子)進行比較，我覺得讓內容變得相當扎實。
而且，這是我第一次聽到，松鼠檢查水閘門的例子來解釋反向傳播，然後正向則是人去轉水龍頭。
我認為超級有創意，而且也很直觀讓人理解。
很感謝你認真、用心的製作出這期視頻，讓我獲益良多！！
@albertwang5974 9 หลายเดือนก่อน ⁺¹
什么是智能？智能就是多层选择结构的系统展现出的计算能力！
@erictan6855 2 หลายเดือนก่อน ⁺¹
可以强的
@scarhung หลายเดือนก่อน
This is really good for education.
@kaichen6030 7 หลายเดือนก่อน ⁺⁵
🎯 Key Takeaways for quick navigation:
00:00 📣 介绍大语言模型的热度和背景
- 大飞介绍大语言模型为近期热门话题
- 蒂姆·李和肖恩·特洛特合作编写文章，简化大语言模型的解释
- 蒂姆·李和肖恩·特洛特的背景介绍
00:30 📘 文章内容的预览
- 文章内容关于人工智能的工作原理
- 肖恩特洛特研究人类语言理解和语言模型
- 文章翻译的目的是帮助初学者理解大语言模型，没有复杂的数学概念
01:00 💡 大语言模型的影响和普及
- ChatGPT在去年推出并引起轰动
- 机器学习研究者多年的努力
- 普通大众对大语言模型的了解和使用情况
01:32 ❓大语言模型的工作原理
- 一般的理解停留在“预测下一个词”
- 大语言模型如何预测下一个词被视为一个谜题
- 大语言模型的开发方式与传统软件开发不同
02:04 🧠 大语言模型的神秘性与研究
- 大语言模型基于复杂的神经网络
- 研究人员正努力探索其工作原理
- 旨在为广大受众解释其内部机制
02:34 📚 词向量、Transformer与训练过程
- 词向量是表示语言的一种方式
- Transformer是构建模型如ChatGPT的关键技术
- 模型训练需要大量数据来获得良好的性能
03:05 🔡 词向量的具体应用与空间推理
- 语言模型使用词向量来表示词汇，例如“猫”
- 词向量可用于推理空间关系
- 向量表示能反映实际空间中的关系，如城市间的距离
04:08 📊 词向量在大语言模型中的应用
- 词向量在词空间中代表一个点
- 相似含义的词在向量空间中位置接近
- 利用数字向量可以进行复杂的运算
04:39 💡 词向量的研究历史与重要性
- 2013年，Google的word2vec项目引起了关注
- Google利用大数据研究词向量
- 通过训练，神经网络学会了分类相似的单词
05:10 🔍 词向量的深度应用与推理能力
- 词向量可以用于词汇间的类比推理
- 例如，big与biggest的关系类似于small与smallest
- 词向量还能捕捉其他复杂关系，如国家与首都、单复数、对应性别关系等
06:12 🔄 词向量中的偏见及其重要性
- 词向量反映人类语言中的偏见，如“医生”与“护士”的关联
- 减少偏见是新的研究方向
- 词向量为大语言模型提供了微妙的关系信息
06:43 🌐 词的多重含义与词向量的限制
- 词语，如"bank"，有多重含义（金融机构、河岸）
- 自然语言中存在单词含有多种含义的现象
- 使用不同的词向量来表示同一个词的不同上下文意义
07:12 📖 同音异义词与多义词的处理
- 语言学家将单词有两个无关意义称为同音异义词（如"bank"）
- 与紧密相关的意义的词称为多义词（如"magazine"）
- 大语言模型能够根据上下文使用不同的向量表示同一个词
08:13 🤔 自然语言中的歧义问题
- 与传统软件明确的数据处理不同，自然语言有歧义
- 如同音异义词、多义词，还有代词所指的主体
- 人们依赖上下文来解决歧义问题
08:44 🔍 词向量在处理歧义上的功能
- 词向量能在特定上下文中表示每个词的准确含义
- 了解世界的实际情况能帮助解决歧义，如修理工修车、学生完成家庭作业等
09:15 🧠 GPT-3与Transformer的内部结构
- GPT-3是由多个神经网络层组成，每层都处理向量输入
- 大语言模型的每层是一个Transformer
- Transformer是Google在2017年的一篇里程碑式论文中介绍的神经网络结构
10:18 🧩 Transformer中的上下文信息处理
- 向量表示中的上下文信息是通过修改词向量的方式存储
- 新的向量称为"隐藏状态"，这些状态被传递给下一个Transformer
- 第二个Transformer提供更多的上下文信息，如"bank"的真实意义和"his"的指代
10:50 📊 大语言模型的层数与功能
- 大语言模型，如GPT-3，可能有多达96层
- 前几层神经网络专注于句子的语法和歧义解决
- 后面的层致力于对整个文本段落的高层次的理解，如角色信息和故事背景
11:21 🧠 大语言模型的内部机制与词向量维度
- 研究人员并不完全了解大语言模型如何跟踪信息
- 模型在各层之间传递信息时必须通过修改隐藏状态的向量来实现
- GPT-3的最强版本使用了高达12,288个维度的词向量
12:17 📜 GPT-3的词向量维度与上下文存储
- GPT-3的维度比word2vec大20倍，可以看作一种暂存空间
- 模型的每一层可以读取和修改之前层的信息，深化文章理解
- 对于一个长故事，像“John”的向量可能会有丰富的上下文注释
12:44 🌐 向量编码中的信息丰富性
- 所有事实和信息都被编码为一个12,288个数字的列表
- 这些数字代表故事中的词汇，如“John”，“钱包”等
- 目标是使网络的最后一层输出一个包含所有必要信息的隐藏状态
13:15 ⚙️ Transformer内部的工作机制
- Transformer更新词汇隐藏状态时有两个主要过程：注意力步骤和前馈步骤
- 在注意力步骤中，词汇观察并共享信息；在前馈步骤中，它会考虑之前的信息并尝试预测下一个词
- Transformer以单词为基本单元进行分析，而不是整句或段落，有利于GPU的并行处理能力
14:14 🔍 注意力机制中的查询向量与关键向量
- 单词之间的连接通过查询向量和关键向量实现
- 通过比较查询向量与关键向量来找到匹配的单词
- 例如, "John" 和 "his" 之间的匹配是通过查询向量和关键向量确定的
15:16 🧠 注意力层的多个注意力头功能
- 注意力层包含多个注意力头，每个都有特定的任务
- 有些注意力头关注代词与名词的匹配，有些处理词汇的多重含义，如"bank"
- 信息交换在每层上都会并行进行多次
15:46 🔢 GPT-3中的注意力头数量
- 每个注意力层的输出可以作为下一层的输入
- 大型模型如GPT-3有多个层，每层都有多个注意力头
- GPT-3的最大版本包含96个层，每个层有96个注意力头
16:16 📖 GPT-2对句子的预测分析
- 研究Redwood research对GPT-2的预测研究，如“How Mary and John went to the store…”的下一词预测
- GPT-2预测下一个单词为“Mary”
- 通过研究发现不同的注意力头如何对此预测作出贡献
16:46 🧠 注意力头的功能分类
- 存在三种不同类型的注意力头协助预测
- “名称移动头”帮助确定“Mary”是正确的复制词
- “主语抑制头”和“重复标记头”帮助决定不应复制“John”
17:44 📚 对GPT-2理解句子的深入分析
- 9个注意力头帮助GPT-2正确预测句子结构
- 选择“John gave a drink to Mary”而不是“John gave a drink to John”
- Redwood研究团队发布25页论文，详细分析如何识别和验证这些注意力头
18:15 🤔 GPT-2预测的挑战与复杂性
- 为何GPT-2决定预测"Mary"作为下一个单词仍是一个谜
- GPT-2预测的逻辑和其他可能性
- 揭示GPT-2的决策可能需要数月甚至数年的研究
18:45 📈 GPT系列的发展与复杂性
- GPT-3和GPT-4相对于GPT-2更加庞大和复杂
- 完全解释这些模型的内部机制是一个巨大的挑战
- Redwood团队的研究与更复杂的推理任务
19:13 🔍 注意力头和前馈网络的功能
- 注意力头如何在词向量间传输信息
- 前馈网络如何独立分析每个词向量
- GPT-3前馈层的结构和其庞大规模
20:17 📊 GPT-3前馈层的巨大参数量
- 前馈层结构细节和神经元数量
- 各神经元的输入值和权重参数的计算
- GPT-3前馈层总参数量的估算
20:47 🧠 前馈层的模式匹配功能
- 特拉维夫大学研究人员的发现
- 不同层神经元的匹配模式例子
- 深层神经元如何匹配更抽象的语言模式
21:48 📺 GPT-3前馈层对特定内容的识别
- 深层与浅层神经元对语言模式的不同识别
- 如何基于单一词汇如“已存档”识别与电视节目相关的内容
- 前馈层对单词和上下文的处理方式
22:17 🧠 注意力机制在前馈层的作用
- 注意力头如何移动上下文信息
- 神经元如何通过匹配模式向词向量中添加信息
- 临时预测下一个词的情况
22:46 🔍 使用向量运算进行类比推理
- Google的word2vec研究
- 前馈层如何使用向量运算来预测单词
- GPT-2对不同提示的响应示例
23:18 📈 GPT-2中不同层次的单词预测分析
- 布朗大学科学家对GPT-2的分析
- 模型如何逐步靠近正确答案的过程
- 如何通过向量映射预测对应首都及其他转换
24:20 🌍 GPT-2如何预测地理信息
- 注意力头和前馈层的不同应用
- 华沙作为波兰首都的预测
- 当前馈层被禁用时的模型反应
24:52 🔍 GPT-2的注意力机制和前馈层的分工
- 注意力机制如何从提示中提取信息
- 前馈层作为从训练数据中学到的信息的数据库
- 不同层次如何编码不同复杂度的信息
25:22 📚 大语言模型的推理与训练
- 大语言模型如何进行推理
- 早期机器学习算法的训练示例和需求
- 大语言模型不需要显式的标记数据的创新之处
@yanliu999 7 หลายเดือนก่อน ⁺²
这是否意味着未来的密码通信很可能被更先进的机器学习模型轻易破解？
@SerendipityLuo 2 หลายเดือนก่อน ⁺¹
按照Ilya的说法，能够充分压缩就是充分理解了。是不是只是statistical correlation不重要
@mysmth2010 9 หลายเดือนก่อน ⁺¹
听完了，言简意赅
@user-rc6qo5zs8q 9 หลายเดือนก่อน ⁺³
如果有更多的图像和动画会更清楚，单单听讲很难想象和消化。
@kaichen6030 7 หลายเดือนก่อน ⁺⁵
🎯 Key Takeaways for quick navigation:
26:05 📖 大语言模型的训练资料
- 模型如何通过预测下一个单词来学习
- 使用各种书面材料进行训练，如维基百科、新闻文章和计算机代码
- 输入文本的例子和模型如何预测下一个单词
26:55 🌡 调整模型参数的类比
- 描述如何调整水温时的类比
- 调整水龙头来达到理想的水温
- 当水温接近适当的时候，调整的幅度越小
27:25 🚿 模型调整的复杂性
- 有多达50,257个水龙头的假设，每个都对应一个不同的单词
- 水龙头后面有一大堆互连的管道和阀门
- 描述如何修复错误预测的复杂性
28:00 💡 语言模型的复杂性与摩尔定律
- 大语言模型需要大量的权重参数，如1,750亿个阀门
- 虽然从字面上看起来荒谬，但摩尔定律使得计算机能够处理这种规模
- 语言模型的行为由调整权重参数来决定
29:00 🔄 训练神经网络的过程
- 进行前向传播来检查预测是否准确
- 使用反向传播算法来逆向调整网络
- 松鼠的比喻说明了调整过程中的复杂性
29:31 🧠 GPT-3的训练规模
- 使用前向传播和后向传播来优化网络性能
- GPT-3的训练需要重复这个过程数十亿次
- OpenAI估计训练GPT-3需要超过3,000亿万亿次的浮点计算
30:01 💡 ChatGPT的强大性能与学习能力
- ChatGPT能执行复杂任务，如撰写文章和编写代码
- GPT3在约5,000亿个单词的语料库上训练
- 10岁的人类孩子接触到的单词数量约为1亿个
30:32 📈 OpenAI大语言模型的发展趋势
- OpenAI不断增大其语言模型的规模
- 模型规模与准确性、数据集规模和计算量之间存在幂率关系
- 模型规模越大，性能越好，但需要更多的数据和算力
31:03 📚 OpenAI发布的各个版本的GPT模型
- 2018年发布GPT-1，有1.17亿个参数
- GPT-2拥有15亿个参数
- 2020年发布GPT-3，有1,751亿个参数
- GPT-4规模预计大于GPT-3，具体细节尚未公布
31:33 🚀 模型的进化与抽象推理能力
- 每个新版本的模型都比其前身学到了更多
- 大模型在需要抽象推理任务上表现更好
- 例子：一个装满爆米花的袋子标签写着是巧克力
32:04 🍿 山姆与袋子的故事
- 山姆看到标有“巧克力”的袋子，但袋子实际上装的是爆米花，
- 描述了心智理论（theory of mind）在心理学中的意义，
- 争议：是否所有动物都具有这种推理能力。
32:33 📚 斯坦福的心智理论研究
- 米哈尔·科辛斯基的研究探索了大语言模型是否能解决心智理论的任务，
- 使用故事来测试模型的推理能力，
- 不成熟的模型可能会提供错误的答案。
33:05 📈 GPT系列模型在心智理论上的进展
- GPT-1和GPT-2在心智理论测试中的表现不佳，
- GPT-3的性能与3岁和7岁的儿童相当，
- GPT-4在此类问题上的正确率约为95%。
33:35 💡 模型的自发心智化能力
- 模型中的心智化能力可能是自发的，
- 这种能力是模型语言能力增强的一个副产品，
- 没有迹象表明这个能力是有意设计的。
34:06 🧠 GPT-3关于心智理论的表现
- 对于心智理论的研究，GPT-3在某些任务中与人类表现接近。
- 肖恩提到聪明汉斯效应，解释了大语言模型可能的成功表现原因。
- 虽然GPT-3有出色的表现，但它在某些任务中的稳定性仍存在疑虑。
34:37 🤖 GPT-4和人工智能的进步
- GPT-4在高级推理任务上有出色的表现，被视为通用人工智能的初步迹象。
- 微软的研究人员发现GPT-4能够使用复杂的编程语言绘制图像，如独角兽。
- 当提出挑战并修改独角兽的图像代码后，GPT-4的响应成为关键。
35:39 🦄 GPT-4对图像的理解
- 尽管训练数据完全基于文本，GPT-4能够理解并处理独角兽图像的相关任务。
- 通过大量文本训练，GPT-4学会了关于独角兽形态的推理。
- 关于大语言模型如何完成此类任务，目前尚无确切的了解。
36:11 🤔 模型理解与鹦鹉效应的辩论
- 有人认为模型开始真正理解训练集中的词汇。
- 但有些人认为语言模型仅是“随机鹦鹉”，仅重复复杂的单词序列而并非真正理解。
- 这种辩论指向了深层次的哲学争议。
36:41 🧐 语言模型的价值与重要性
- 若语言模型在特定问题中始终给出正确答案，并且能够确保没有在训练期间接触这些问题，那这是有价值的。
- 无论模型的理解方式是否与人类相同，这种能力都是有趣且重要的。
@EasonLLLLL 3 หลายเดือนก่อน
优秀
@alphashen2009 7 หลายเดือนก่อน ⁺²
Thanks! 谢谢飞哥
@bestpartners 7 หลายเดือนก่อน ⁺¹
谢谢打赏，你这个才是太给力了(՞ਊ՞)👍
@ironriverrat หลายเดือนก่อน ⁺¹
太棒的解說! 感謝感謝!!! 小小補充一下, 7:06 John picks up a magazine這裡的 magazine 意思彈匣
@bestpartners หลายเดือนก่อน ⁺²
谢谢指正，以后改正
@ironriverrat หลายเดือนก่อน ⁺¹
非常感謝您的知識分享受益匪淺@@bestpartners
@rongrongwu 2 หลายเดือนก่อน ⁺¹
这是继《自私的基因》后，对生命现象中的人的智能的一次大揭密。
@rzusa 6 หลายเดือนก่อน ⁺²
讲得非常好👍。7:20那里John picked up a magazine.这里的magazine更可能是指弹匣。
@siyuz8187 2 หลายเดือนก่อน
John Wick?
@kevinli2408 2 หลายเดือนก่อน ⁺¹
👍
@corgirun7892 9 หลายเดือนก่อน ⁺¹
听起来注意力提供了一种copy机制
@chenwilliam5176 27 วันที่ผ่านมา ⁺¹
認同它是一個
智能程序 ? （yes or no)
我並不認同 😅
@frank_1972 9 หลายเดือนก่อน ⁺²
🙋tksU👍🔔📝↗️
@pancakez7022 9 หลายเดือนก่อน ⁺²
无法解释真是个哲学问题，神创建了人类，人类作为神又创建了另一个智能的东西
@mmdn814 2 หลายเดือนก่อน ⁺¹
那中文是如何做的啊，这不都是基于英文为基础的吗
@davidchan8732 หลายเดือนก่อน ⁺¹
要是能结合文章配图一起讲解就好了，光听文字不太容易理解
@bestpartners หลายเดือนก่อน ⁺¹
做的比较早了，回头重新做一个视频吧
@yuli.kamakura 9 หลายเดือนก่อน ⁺²
| LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论这些和你的视频【时间】对齐，更好更佳专业了
@bestpartners 9 หลายเดือนก่อน ⁺¹
提取些关键词方便大家了解内容🙂
@yuli.kamakura 9 หลายเดือนก่อน ⁺¹
大模型的白盒化本身也是业内的演进趋势之一，以及评估工具也是总要的一个点@@bestpartners
@bestpartners 9 หลายเดือนก่อน ⁺¹
感谢建议，回头专门做一期讲一讲
@xiaochris7467 9 หลายเดือนก่อน ⁺¹
大飞讲解AIGC原理很精彩❤ BTW, HK经典黑帮电影"古惑仔"中有个人物叫""大飞哥"，黄秋生演的，大飞的网名是不是源自如此呢?
@bestpartners 9 หลายเดือนก่อน ⁺¹
哈哈，可能吧，工作的时候也有很多人管我叫大飞，就习惯了。感谢支持❤️
@bestpartners 9 หลายเดือนก่อน ⁺¹
秋生哥演的大飞确实经典，年轻的时候我也没少看古惑仔🥹
@CryptoRabit 2 หลายเดือนก่อน ⁺¹
建议这类视频可以加一些图表和文本，可以吸引很多新人和学生，而且可以反复观看😂
@bestpartners 2 หลายเดือนก่อน ⁺¹
做的比较早了，确实有点粗糙，有时间重做一下。感谢建议
@jkm8286 5 หลายเดือนก่อน ⁺²
我并不是在说你，你说的非常好。
但是这篇文章，13000多字甚么也没讲，也算是个奇迹了。
@fightingforeverything2670 6 หลายเดือนก่อน ⁺⁵
没有示例图和动画，听着容易走神
@coolirt1135 8 หลายเดือนก่อน ⁺³
根据你的详细讲解，我不由的联想到：有没有可能我们人类就是一种已经被实现的“人工智能”实体，每个人的dna就是被赋予的特殊模型参数。
@bestpartners 8 หลายเดือนก่อน ⁺²
马斯克曾经说过，这个世界 99.9999%是虚拟的🙂
@yuli.kamakura 9 หลายเดือนก่อน ⁺²
呦～～换头像了
@xiaoweili2697 5 หลายเดือนก่อน
请问博主在B站上有发表这个视频吗？想分享给更多的人看到
@bestpartners 5 หลายเดือนก่อน
没有做 B 站，抱歉😔
@chaochen6492 5 วันที่ผ่านมา
干货满满，就是没有图
@bestpartners 5 วันที่ผ่านมา
做的比较早了，回头重新做一版
@k46926472 9 หลายเดือนก่อน ⁺¹
可以啊，终于换头像了，不过名字也可以改改，比如什么什么tech啊，什么什么科技，
@bestpartners 9 หลายเดือนก่อน ⁺²
哈哈，我再想想，其实原来起这个名字，是想跟几个朋友一起来做这个频道的，结果做到现在只有我坚持下来了😓
@danlau007 9 หลายเดือนก่อน ⁺²
其实这个名字挺好，寓意你是大家的最佳拍档@@bestpartners
@bestpartners 9 หลายเดือนก่อน ⁺¹
@@danlau007 谢谢🙏❤️
@user-yd6mp6vw2c 9 หลายเดือนก่อน ⁺²
請問 redwood 那個論文名稱，或是連結有嗎？謝謝您
@bestpartners 9 หลายเดือนก่อน ⁺²
Redwood Research的论文是这个：arxiv.org/abs/2211.00593
其余视频涉及到的所有参考论文和资料，已经在视频简介中更新，请查阅。
@user-qg5uf3ln5q 2 หลายเดือนก่อน ⁺¹
LLM都听懂了，我还是没懂
@kingroc3651 หลายเดือนก่อน
还是有些概念不清楚，比如前馈层，神经元等
@Bravefsj 8 หลายเดือนก่อน
被频道名称耽误的频道
@simonpeter9617 3 หลายเดือนก่อน ⁺¹
大模型的逻辑推理能力应该没问题的啊
@michaelzap8528 2 หลายเดือนก่อน
这是毫无疑问的。想一想每一个词向量，它竟然包涵多达一两万个维度，高达上百的层数。。。等等事实，还有什么它能够推算不出，能够遗漏，会产生歧义的。人类的大脑最多能够达到10层，就会完全模糊了
@chenwilliam5176 27 วันที่ผ่านมา ⁺¹
人工智能在LLM的那裏？
我看不出來！
這是機率/統計
,不是智能 🤣
@zw1478 8 หลายเดือนก่อน ⁺¹
就干讲。视频不是这么做的呀……还不如看个blog说的清楚。
@bestpartners 8 หลายเดือนก่อน ⁺¹
嗯，不会做后期，只能干讲
@daydayup6992 3 หลายเดือนก่อน ⁺²
地球上目前没人理解大语言模型内部的工作原理，这个我表示疑惑呢，这东西不是开发人员编写并训练的模型吗，为什么不了解内部原理呢😂
@dsfd1600 2 หลายเดือนก่อน ⁺¹
不理解指的是模型内部的非常多的参数到底是什么意思
但是算法工程师知道这些参数是怎么来的：模型训练不断求最优化出来的
@kanotarogood 2 หลายเดือนก่อน ⁺²
艺术家绘画时候并不需要知道，也无法知道每滴颜料如何渗进布纤维之间。
@ofA-np8sd 2 หลายเดือนก่อน ⁺²
开发人员知道生物神经元的电信号传播条件，也知道构建类似人脑神经网络的规律。但是不能理解为什么这些电信号在网络上传递就有了理解能力
@farosislee83 2 หลายเดือนก่อน ⁺¹
可以理解为一个有几百亿个参数都数学方程式，你要解释每一个输入和输出的关系😅
@nick94890 2 หลายเดือนก่อน ⁺¹
千言万语都比不上一张图。多加点视图吧，看了几分钟就没兴趣了。
@bestpartners 2 หลายเดือนก่อน ⁺¹
很早做的了，比较粗糙，回头重新做一个吧
@chenwilliam5176 27 วันที่ผ่านมา
玩「文字遊戲」，
Without any
Sematic at all
and LLM does
not have understanding
ability at all 🎉
@chenwilliam5176 27 วันที่ผ่านมา ⁺¹
AGI ?
一個 AGI 程式不會回答
2+2=5 ！
@chenwilliam5176 27 วันที่ผ่านมา ⁺¹
Understand-ing ?
Thinking ?
@csqgb9801 9 หลายเดือนก่อน
试用了一下，非常难用，很痛苦，不得不上来回一下，不吐不快
想起个程序员笑话：准不准先不说，你就说快不快吧！！！
唉，光快有什么用啊！说粗俗一点，这简直就是快到还没进去呢就射了！！！！
@bestpartners 9 หลายเดือนก่อน
有没有可能是你的姿势不对呢？😄
@c3-qk4mvq6xp37r หลายเดือนก่อน ⁺¹
肉喇叭
@yuyongbin 9 หลายเดือนก่อน ⁺²
是不是啊，感觉不对呀，你确定么？
@c3-qk4mvq6xp37r หลายเดือนก่อน ⁺¹
是否鼓吹人工智慧，是判斷傻乄的好工具
SORA這種產品試用都沒有，發個影片宣傳廣告，就忽悠這麼多傻乄
現在又吹沒有發布的雲忽悠 GPT-5,傻乄太多了
根本不懂這些忽悠工具，是怎麼玩的
@c3-qk4mvq6xp37r หลายเดือนก่อน ⁺¹
是否鼓吹人工智慧，是判斷傻乄的好工具
SORA這種產品試用都沒有，發個影片宣傳廣告，就忽悠這麼多傻乄
現在又吹沒有發布的雲忽悠 GPT-5,傻乄太多了
根本不懂這些忽悠工具，是怎麼玩的

ต่อไป

เล่นอัตโนมัติ

从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)