【重制版】【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论

แชร์
ฝัง
  • เผยแพร่เมื่อ 7 ก.ค. 2024
  • 因为原视频《万字通俗讲解大语言模型内部运行原理》制作的比较早,所以比较粗糙,也没有加太多后期素材,应很多观众的要求,重新制作了该影片,包括以下改进:
    1. 优化了声音,降低了背景噪音和空旷感
    2. 增加了大量的后期素材和相关知识画面,方便大家更好的理解视频内容。
    由于原视频录制时间已久,如有个别内容略为过时,还请包涵。
    原视频链接地址: • 【人工智能】万字通俗讲解大语言模型内部运行原...
    #人工智能 #llm #transformer #attention
    成为此频道的会员,即可享受提前一天,观看频道最新发布视频的福利:
    / @bestpartners

ความคิดเห็น • 39

  • @oo-re6wo
    @oo-re6wo 2 วันที่ผ่านมา +1

    可见生物的出现,真的很奇妙。仅仅就是设计一个推理机,要经过如此复杂的过程。

  • @yanjh222
    @yanjh222 27 วันที่ผ่านมา +4

    大飞精益求精, 鼓励赞叹

  • @Will_Huang
    @Will_Huang 26 วันที่ผ่านมา +3

    大飛這期的視頻很可惜,只能給一個讚,我想給 100 個讚啊,講的實在是太棒了,非常感謝!🙏

    • @bestpartners
      @bestpartners  26 วันที่ผ่านมา +2

      感谢支持🙏一个赞就够了🤣

  • @kuangyushih
    @kuangyushih 26 วันที่ผ่านมา +3

    謝謝大飛! 這是一個很棒的內容讓我對transformer有了進一步的了解. 👏👏👏🎉🎉🎉!

  • @josephzhu9043
    @josephzhu9043 25 วันที่ผ่านมา +2

    太感谢了 我第二天又找出来来来回回再看几遍。让我能看到大语言大概。更坚定AI 前景

  • @pascalzhou929
    @pascalzhou929 26 วันที่ผ่านมา +6

    整个宇宙就是个超高维度的向量,我们这个世界就是这个超高维度的投影, 语言就是人类在这个投影下的现实世界的简化描述 , 大语言模型就是对描述的极致压缩。最后浓缩成一堆12288维度的单词向量表格。大家还对此乐此不疲,不过是窥豹一斑,降维下的浮光掠影,探索真实还远远没开始,也许永不会结束。

  • @留言
    @留言 26 วันที่ผ่านมา +4

    ## 大語言模型工作原理筆記
    ### 一、詞向量:表示語言的方式
    * 大語言模型使用**詞向量**來表示單詞,每個詞向量是由一串數字組成的列表,代表詞空間中的一個點。
    * **詞空間**中,含義相近的詞位置更接近,例如"貓"的詞向量會靠近"狗"、"小貓"等詞向量。
    * **詞向量的好處**:
    * 可以進行數值運算,例如"最大" - "大" + "小" = "最小"。
    * 能夠捕捉詞語之間的微妙關係,例如"瑞士人"與"瑞士"的關係類似於"柬埔寨人"與"柬埔寨"的關係。
    * 可以根據上下文用不同的向量來表示同一個詞,解決多義詞問題,例如"銀行"可以指金融機構或河岸。
    ### 二、Transformer:大語言模型的基石
    * **Transformer**是一種神經網絡結構,由多個層組成,每層都接收一系列詞向量作為輸入,並添加信息以更好地預測下一個詞。
    * Transformer 的兩個核心處理過程:
    * **注意力機制**: 詞匯會觀察周圍,尋找具有相關背景並彼此共享信息的詞,並通過查詢和關鍵項鏈的匹配來傳遞信息。
    * **潛會層**: 每個詞會思考之前注意力步驟中收集到的信息,並嘗試預測下一個詞。
    * **注意力機制**:
    * 可以將其視為單詞之間的"撮合服務",每個詞會製作查詢和關鍵項鏈來描述自己和尋找的詞,並通過比較找到最佳匹配的詞。
    * 擁有**注意力頭**,每個注意力頭專注於不同的任務,例如匹配代詞和名詞、解析多義詞等。
    * **潛會層**:
    * 可以訪問注意力頭提供的上下文信息,並通過模式匹配來預測下一個詞。
    * 早期層傾向於匹配特定單詞,後期層則匹配更廣泛類別的短語。
    * 可以通過向量運算進行推理,例如將國家轉化為首都。
    * 注意力機制和潛會層的分工:注意力機制從提示中檢索信息,而潛會層讓語言模型記住未在提示中出現的信息。
    ### 三、訓練:讓模型學習語言
    * 大語言模型通過預測文本段落中的下一個詞來學習,不需要人工標記數據。
    * 訓練過程:
    1. **前向傳播**: 輸入文本,檢查模型預測的下一個詞是否正確。
    2. **反向傳播**: 根據預測結果調整模型的權重參數,使模型做出更好的預測。
    * 訓練需要大量的數據和計算資源,例如 GPT-3 在 5000 億個單詞的語料庫上進行訓練,需要運行數月才能完成。
    ### 四、模型規模與能力:越大越好
    * 研究表明,模型規模越大,在語言任務上的表現越好。
    * 模型規模的增大帶來了更強的推理能力,例如 GPT-3 在心智理論任務上的表現接近人類兒童。
    ### 五、結論
    大語言模型通過學習大量文本數據,能夠以驚人的準確度預測下一個詞,並展現出一定的推理能力。雖然其內部工作機制尚未被完全理解,但其強大的能力和潛力已不容忽視。

  • @ecowang3323
    @ecowang3323 26 วันที่ผ่านมา +2

    很捧的分享,有了更深的了解。谢谢你😊

  • @superlambda4144
    @superlambda4144 27 วันที่ผ่านมา +2

    感谢大飞!这个科普真的很不错!非常棒!👍👍👍

  • @user-bm7dx8hl5x
    @user-bm7dx8hl5x 26 วันที่ผ่านมา +1

    淺顯易懂的說明🎉

  • @LinfengJang
    @LinfengJang 27 วันที่ผ่านมา +9

    虽然我曾经学习过线性代数,但是我听第一遍的时候依然有些晕😷。但是大飞的内容质量很高,再刷几遍!

    • @bestpartners
      @bestpartners  27 วันที่ผ่านมา +4

      感谢支持,能有些帮助就好

  • @scchen2011
    @scchen2011 27 วันที่ผ่านมา +2

    太棒🎉

  • @Im-rollin-rollin
    @Im-rollin-rollin 27 วันที่ผ่านมา +2

    学习了,谢谢播主

  • @simonpeter9617
    @simonpeter9617 27 วันที่ผ่านมา +2

    非常棒

  • @robinzhang8322
    @robinzhang8322 26 วันที่ผ่านมา +1

    辛苦了!

  • @meow-mi333
    @meow-mi333 26 วันที่ผ่านมา +1

    这篇文章不错

  • @zohar6006
    @zohar6006 24 วันที่ผ่านมา +2

    確實,光談到什麼叫做「理解」,就成了哲學問題

    • @oo-re6wo
      @oo-re6wo 2 วันที่ผ่านมา

      其实是数学问题

  • @dbdoUgaflemo
    @dbdoUgaflemo 14 วันที่ผ่านมา +2

    由此看来,高质量的训练内容可以极大的提高模型质量。由专业人员训练专业模型,生成高质量专家模型,再由专家模型训练更高质量的模型。词向量的感觉就像脑神经里的突触链接,词向量的纬度描述了脑神经里特定信息所持有的链接。同样的信息不同的人感受是不一样的,可能就是每个人的该信息词向量纬度和标记都不一样。可能基于人类行为正态分布训练出来的是一个普通人,不是一个独特的特别的人。未来可能会更精更专,同样的纬度词向量,参数规模在更精确更窄的范围内训练,出来的模型可不可以得到更好的效果。就像你去医院看病,你不知道什么问题先去问服务站的护士,她根据你的情况告诉你应该挂什么科的医生,到了医生那里医生给你开出了各种专业的检查,如果达不到要求,他可能要求你转院。你在每个层级遇到的人,都是差不多参数的大模型,但是每个模型训练的内容质量不一样。在现有人类能力之下,很快就会达到物理瓶颈,不可能无限制的增加芯片节点。未来的Ai,当你与Gpt交谈,它会自动匹配模型,来满足你的深度,从而让硬件系统效率最大化。大飞的视频质量越来越高了,🎉,感觉可以就某些方面做一系列,可以短小精悍,作为对主视频的补充。

    • @dbdoUgaflemo
      @dbdoUgaflemo 14 วันที่ผ่านมา +1

      还有一个问题就是,人类所接触的信息量远远小于Ai,也许未来Ai所展示的答案才是真实的。就像盲人摸象,你没有那么大的数据库,你理解的世界和Ai计算的世界会有出入。人类目前胜出的原因可能就是人类大脑里的模型更准确,短小精悍。不过也有可能是人类一叶障目不见泰山。

  • @zerohoozhang8063
    @zerohoozhang8063 26 วันที่ผ่านมา +1

    这些“层”是人工添加的还是通过程序来完成的

  • @Sulzbach-dk7ov
    @Sulzbach-dk7ov 24 วันที่ผ่านมา +2

    King - man + woman = queen 😂

  • @gpt-newbie
    @gpt-newbie 26 วันที่ผ่านมา +2

    大飛哥感冒了嗎?小心身體

  • @singasong2864
    @singasong2864 10 วันที่ผ่านมา +1

    每个神经元存储的实什么数据?一个词还是一个向量?

  • @user-qu2jf8mc5b
    @user-qu2jf8mc5b 26 วันที่ผ่านมา +1

    聽版主的英語,有很強烈的撞牆感,毛骨悚然

  • @hujosh8693
    @hujosh8693 26 วันที่ผ่านมา +2

    還是說皮毛而已。

  • @user-ul6yu2he8e
    @user-ul6yu2he8e 24 วันที่ผ่านมา +2

    为什么要研究呢,LLM 不是人开发出来的吗,直接问业内的不可以吗

  • @neonoply2205
    @neonoply2205 18 วันที่ผ่านมา

    所以想想看 创造人类本身是不知道高多少级别的设计

  • @11dizhu
    @11dizhu 27 วันที่ผ่านมา +4

    看了几集,我觉得你不需要出境,你全程没有情绪,像个AI人。

    • @bestpartners
      @bestpartners  27 วันที่ผ่านมา +16

      想要什么情绪,娱乐视频还没看够么?

    • @user-rd5gm6by9g
      @user-rd5gm6by9g 27 วันที่ผ่านมา +1

      @@bestpartners 他可能想表达视频有讲解的内容就好了,出境在讲解过程没起到作用

    • @bestpartners
      @bestpartners  27 วันที่ผ่านมา +7

      出镜的目的是给油管平台看的🤣另外也不是所有画面都能适合做后期素材,真的累啊

    • @zhongzhongclock
      @zhongzhongclock 26 วันที่ผ่านมา +1

      @@bestpartners 他想要一个小姐姐给他一边跳着性感的舞蹈,一边给他讲Transformer

    • @yanjh222
      @yanjh222 26 วันที่ผ่านมา +1

      抖音快手抗日神剧可能更适合你, :)