An artificial intelligence doctoral student tells you how the SORA diffusion model generates videos?

แชร์
ฝัง
  • เผยแพร่เมื่อ 3 ธ.ค. 2024

ความคิดเห็น • 96

  • @radio0529
    @radio0529 7 หลายเดือนก่อน +48

    你真的太厲害了
    不僅有本科的專業知識,還有如何轉化知識的教育專業,以及掌握影片節奏的腳本編排、剪輯能力

    • @可爱的世界World
      @可爱的世界World 7 หลายเดือนก่อน

      !?好熟悉

    • @radio0529
      @radio0529 7 หลายเดือนก่อน

      @@可爱的世界World 我也覺得好熟悉w

    • @nikoy4266
      @nikoy4266 7 หลายเดือนก่อน

      因為他不只是本科,是清華博士。five minutes paper 也是一樣前緣的研究人員

  • @yesweet
    @yesweet 7 หลายเดือนก่อน +40

    看过不少科普都是直接说通过图片到散点模糊训练,之后反向散点模糊图片到清晰图片输出,没有一个如你开头的路径比方剖析细节且易于理解,佩服感谢

  • @nickyma4409
    @nickyma4409 5 หลายเดือนก่อน +4

    好久没看到这么有知识,趣味和科普的视频,一连看了几个, 争取每个都看。谢谢科普。这才是新一代的精英,佩服!

  • @hayron8767
    @hayron8767 7 หลายเดือนก่อน +7

    感謝漫士,默默的追蹤了半年,很期待這種底層技術內容的更新!!

  • @peterxiau
    @peterxiau 7 หลายเดือนก่อน +48

    敝人也是念這個的,我的理解跟你一模一樣,我的腦海裡面的畫面也是你影片一般,我跟朋友說明的時候也是這樣描述,不過你把影片很傳神的做了出來,覺得超級厲害的,我以後直接給我朋友看你的影片就好了 XD

  • @dd7max1
    @dd7max1 5 หลายเดือนก่อน +5

    作为一个计算机科学本硕,目前从事人工智能开发的软件工程师来说,你说的东西我都明白,但是要像你这样的解释清楚真的不容易。👏

    • @arvinweng5435
      @arvinweng5435 5 หลายเดือนก่อน

      沒錯,打個比方,兩位擁有同樣知識的人,一位只會動手做,另一位能完整敘述並讓人理解,這就是講師與技師的差異。

    • @wiseluxe7553
      @wiseluxe7553 3 หลายเดือนก่อน +1

      我是完全无法理解他这个把一张排列有序的RGB高斯模糊之后通过评分函数又组合回原来的图片,有什么意义呀?这跟把雷锋的床铺弄乱了再叠一次有什么区别呀?

  • @wangdydu
    @wangdydu 7 หลายเดือนก่อน +2

    我覺得…感動。用心解說,用心譬喻,用心編排,謝謝你!

  • @小黃-n4x
    @小黃-n4x 7 หลายเดือนก่อน +4

    你真的是專家阿,學到不少,希望這技術能用於有益於人類日常生活。

  • @jenniferphillips4185
    @jenniferphillips4185 7 หลายเดือนก่อน +8

    目前为止看过的对Sora工作原理最详细、最透彻的解释!

  • @hcrdfju4954
    @hcrdfju4954 7 หลายเดือนก่อน +3

    7:23 score 的本義是"被賦予意義的痕跡";"評價的紀錄/評分" 只是最常見的一種score。名字沒有問題,只是翻譯不好。

  • @fool9111z
    @fool9111z 7 หลายเดือนก่อน +2

    非常棒的讲解,比我想象和理解的严谨细化很多👍

  • @鄭宇呈-o8p
    @鄭宇呈-o8p 7 หลายเดือนก่อน +2

    講解的相當清楚,非常感謝

  • @ysong5112
    @ysong5112 3 หลายเดือนก่อน +1

    讲的很易理解,感谢分享。牛逼!

  • @aurohonosenitony
    @aurohonosenitony 5 หลายเดือนก่อน +1

    講得很好,讓我學到了更深入的原理。

  • @willy7703
    @willy7703 7 หลายเดือนก่อน +8

    我看過很多diffusion model的介紹
    您的介紹很好
    從熱力學 高斯分布 背後邏輯 都講出來
    我之前也想很久 為什麼一定要高斯分布 不能用其他分布的理由
    學到了

    • @Neo-kx3fe
      @Neo-kx3fe 7 หลายเดือนก่อน +1

      有兴趣想讨论一下,真的没法diffuse到另外一个已知分布吗?

  • @K59820433
    @K59820433 7 หลายเดือนก่อน +3

    學到了 寫那篇論文的真的是天才

  • @dlfang
    @dlfang 7 หลายเดือนก่อน +18

    讲的这些我基本都了解,需要对实例操作并讲解。sd用过一段时间后,我发现提示词相同,生成的图片也就那几张,尤其是很多大模型都是用相同模型额外训练融合而成😏

    • @Sulzbach-dk7ov
      @Sulzbach-dk7ov 6 หลายเดือนก่อน +1

      Cfg 調低一點😂

  • @廖宴祥
    @廖宴祥 6 หลายเดือนก่อน +2

    感覺超詳細的解說 ~雖然看不懂,但是有朝一日我也會有機會研究這領域的!

  • @WeiGuo-yh5jg
    @WeiGuo-yh5jg 3 หลายเดือนก่อน +1

    感谢感谢,受教了!

  • @bobchen1133
    @bobchen1133 6 หลายเดือนก่อน +3

    講得很好 講出defusion 的精髓!
    有一個問題想問,denoising 的過程是否可以看成將雜亂的Noise 還原成一個隨即抽樣的normal distribution 中的某個sample?
    又當初train的時候有把圖跟文一起embedding 所以denoising 能找到幾乎符合生成需求的這個sample

  • @david-fox
    @david-fox 7 หลายเดือนก่อน +2

    好厲害的解析 好清楚👍👍👍👍👍👍👍👍👍

    • @manshi_math
      @manshi_math  7 หลายเดือนก่อน

      感谢😀

  • @user-sb9ho5jz3e
    @user-sb9ho5jz3e 7 หลายเดือนก่อน +4

    按照這個理解AI永遠無法取代人的主觀判斷,只能基於過去數據進行推論

  • @easonchen6012
    @easonchen6012 4 หลายเดือนก่อน +1

    講得很好 謝謝分享

  • @Charles-rn3ke
    @Charles-rn3ke 7 หลายเดือนก่อน +1

    14:56 激动到破音

  • @zsh5376
    @zsh5376 7 หลายเดือนก่อน +1

    搭配動畫變真好懂

  • @modernpkman
    @modernpkman 7 หลายเดือนก่อน

    非常棒的頻道

  • @bryc420
    @bryc420 7 หลายเดือนก่อน

    所以SORA怎麼克服影片每個frame之間的連貫性還有怎麼把文字跟圖片結合

  • @家榮楊-o7x
    @家榮楊-o7x 4 หลายเดือนก่อน

    想請教以後(不確定的未來)是否可以用類似SORA的影片來生成AV影片?
    如果可以,那麼是否可以用特定人物的照片來生成AV影片?
    換句話說就是:
    以後政治人物如果被盜用其照片來生成AV影片,要如何分辨真假?

  • @VictorNKC
    @VictorNKC 7 หลายเดือนก่อน

    0:41 一鍵三連是那一鍵那三連在那裡按呢?

  • @zhxzhx4826
    @zhxzhx4826 4 หลายเดือนก่อน

    人类的智慧是无限的,尤其是有些人发明了充分利用计算机无限扩展的机能问题的能力。不像我,会写个函数就知足了

  • @caijiali111
    @caijiali111 7 หลายเดือนก่อน +1

    我有一个问题,既然一开始是随机扩散的,然后再通过向量场去倒推,但是倒退出来的怎么就会是原来的图片呢?这里面不应该是混沌的,无法追踪的一个单向的过程吗?

    • @lischentejuleour5657
      @lischentejuleour5657 7 หลายเดือนก่อน

      其实我们并不想只能生成原来的图片,目标是生成新的图片。所以在训练过程中是用原来图片做引导,期望用高斯噪声恢复每一张原图,每一步是在approximate p(x_{t-1} | x_t, x_0)。但是在真正使用过程(网上那些给提示词生成图片),是采样噪声生成新的(没出现过)的图的。

  • @朱明熹-w9t
    @朱明熹-w9t 3 หลายเดือนก่อน

    超棒

  • @qiaoli8776
    @qiaoli8776 4 หลายเดือนก่อน +1

    我是非专业的,我看不懂,请教下,那个“最开始的结构”是已知的还是未知的?如果已知,那就应该不用花时间去找。那我觉得是未知的,所以要靠“评分函数”来推导。那“评分函数”怎么来的。我的逻辑链已经断了。可否用一个例子讲解一下其中涉及的关键步骤,每一步都发生了什么?比如从用户输入“关公大战铁血战士”到图片生成,都发生了写什么。先来个综述视频,然后再来点每个关键步骤的详细视频。。。谢谢!!!

    • @manshi_math
      @manshi_math  4 หลายเดือนก่อน

      未知的,评分函数是学出来的

  • @youalbert1900
    @youalbert1900 6 หลายเดือนก่อน

    00:24 清華 "姚班" 是啥 ?

  • @牛浩鑫
    @牛浩鑫 4 หลายเดือนก่อน

    赞!

  • @蔡秉諺-f5g
    @蔡秉諺-f5g 7 หลายเดือนก่อน

    有一點說錯了,擴散過程沒辦法證明物體由分子組成,能證明的是布朗運動。

  • @恩-h1u
    @恩-h1u 4 หลายเดือนก่อน

    真是太厲害了,

  • @azure353
    @azure353 7 หลายเดือนก่อน

    影片比單一一張圖片難算多了~~要很強的硬體~

  • @mrkokobebe
    @mrkokobebe 6 หลายเดือนก่อน

    我想了一個問題很久了,希望你能幫忙解答這個問題,由一張圖片擴散後必定是隨機粒子,再由這些隨機粒子聚合成另一張照片,為什麼不直接由一組隨機粒子聚合成一張照片呢?文字生成圖片的話,是不是就是直接由隨機粒子聚合成一張照片呢?謝謝你們解開我心中的疑惑🙏🏻

    • @不要稱讚我
      @不要稱讚我 4 หลายเดือนก่อน +1

      以下是我個人在大學修課後的理解,如果有誤還請糾正
      原本由一張圖片擴散成隨機雜訊,假設原圖是[擴散0%]、最終雜訊是[擴散100%],模型要學習把[擴散10%]還原成[擴散0%]、[擴散60%]還原成[擴散55%]、[擴散100%]還原成[擴散80%] 之類的變化,訓練模型作為影片中的 score function。
      訓練完成後,AI模型就是一個可以把雜訊逐漸轉回原圖的 score function,生成圖片時就只要隨便拿一張雜訊圖,讓模型把雜訊轉回原圖就好,跟訓練時的差別在於生成時給的雜訊圖不是由原圖擴散得到的,所以我們也不知道AI模型會把隨便給的雜訊圖還原成什麼,於是就能生成出新的圖片。
      [雜訊圖] -> [生成圖片]
      至於你說的"為什麼不直接由一組隨機粒子聚合成一張照片呢?"意思是訓練AI直接從[擴散100%]還原成[擴散0%]嗎?確實也有這種,我修課時學到叫VAE,應該算擴散模型的前生,效果沒有擴散模型好。
      至於文字生成圖片的話,需要再訓練把文字轉成嵌入式向量(電腦看得懂的數值),然後把向量跟圖一起輸入到擴散模型裡面訓練,變成模型要學習把[擴散10%+向量]還原成[擴散0%]、[擴散60%+向量]還原成[擴散55%]...,當然訓練的原圖要符合文字所指的圖。訓練完成後,就能給文字+雜訊圖生成圖片了。
      [文字] -> [向量]
      [雜訊圖+向量] -> [生成圖片]

    • @mrkokobebe
      @mrkokobebe 3 หลายเดือนก่อน

      @@不要稱讚我 多謝你呀,好詳細,原來整個過程是要不停擴散再還原少少,stable diffusion 都有很多模型都會提供VAE版本,是不是跟你說的vae 一樣意思呢?

  • @tiro_taiwan
    @tiro_taiwan 4 หลายเดือนก่อน

    知識飛過腦袋,不留下一絲痕跡

  • @洪霆霆
    @洪霆霆 4 หลายเดือนก่อน

    能放在仿真娃娃上面嗎? 這樣不需要女人了唷

  • @syashin7668
    @syashin7668 6 หลายเดือนก่อน

    請問預測前的擴散躁點圖片是怎麼出現的? 隨機生成嗎?

    • @manshi_math
      @manshi_math  6 หลายเดือนก่อน +1

      对,直接加噪

  • @wonmanintp
    @wonmanintp 6 หลายเดือนก่อน

    是熵,也是微分,積分

  • @werhs4520
    @werhs4520 6 หลายเดือนก่อน

    完全聽不懂······把一張有序的RGB圖片的像素打亂(高斯模糊),然後又重新還原(評分函數)·····有什麽意義呀?你幹嘛要打亂這些RGB呀?

  • @crank_3516
    @crank_3516 5 หลายเดือนก่อน

    不好意思,我還是不太懂,你說的去躁模型如何無中生有出一張圖片

  • @gigachadgogeta
    @gigachadgogeta 7 หลายเดือนก่อน

    14:56

  • @darkoy-vb2rp
    @darkoy-vb2rp 6 หลายเดือนก่อน

    由一組隨機粒子聚合成一張照片

  • @wiseluxe7553
    @wiseluxe7553 3 หลายเดือนก่อน

    这个简直不知所云······把一张图片高斯模糊,然后还原(评分函数)·······有什么意义呀?这跟生成图片有什么关系呀·····

  • @terryhe3426
    @terryhe3426 6 หลายเดือนก่อน

    厲害啊

  • @老肖怕熬夜
    @老肖怕熬夜 5 หลายเดือนก่อน

    虽然原理我也知道,但是我就是解释不通,别人都听不懂我在说什么,听了你的视频不得不佩服你讲的真的简单易懂

  • @nylb6446
    @nylb6446 6 หลายเดือนก่อน

    进化了几千年的人类历史与科技,进化来进化去的既没能永生也没能阻止生老病死,战争也从来没有停止过,利益化更严重了……累不累呀?

    • @conscientianoteveryonehas
      @conscientianoteveryonehas 6 หลายเดือนก่อน

      永動機也沒出現😂😂😂 其實很簡單,有些東西對所有人有利,但對某部分人的利益沒有那麼大,偏偏資源權力傾斜向這少部分人,所以世界怎麼走,需求偏向什麼都是由誰更有話事權來決定的

  • @oo-re6wo
    @oo-re6wo 6 หลายเดือนก่อน

    那可以还原宇宙最初的情况了

    • @jameschien6711
      @jameschien6711 5 หลายเดือนก่อน +1

      AI簡單說就是虛擬產物,人類收集一些數據輸入大型超級運算機器,經由工程師設計出來聚集矩陣,最後集結出聲音或畫面,目前看得到的大爆炸雲河互相吞噬,到無恐怕還做不到,因為基礎理論還在布朗運動--實質的粒子運動子運動

  • @_id_5829
    @_id_5829 7 หลายเดือนก่อน +3

    謝謝 感覺頭很痛 要長腦袋了

  • @Eureka_u
    @Eureka_u 15 วันที่ผ่านมา

    生成一个随机扩散噪点,然后数学时光倒流,倒流出来符合(符合设定的逻辑的图片)被筛选出来,不合格的绝大部分舍弃。这个逻辑?

  • @Jeremyho439
    @Jeremyho439 5 หลายเดือนก่อน +1

    你翻墙?

  • @jaxkk1119
    @jaxkk1119 7 หลายเดือนก่อน +3

    想知道您本人是否认为AI公司或个人擅自利用他人的版权物训练AI算是一种应该被定义为侵权且不道德的行为?

    • @oo-re6wo
      @oo-re6wo 6 หลายเดือนก่อน

      你从小就从版权物训练

    • @jaxkk1119
      @jaxkk1119 6 หลายเดือนก่อน

      @@oo-re6wo 又来混淆视听,把人类和AI混为一谈,淡化AI公司盗取版权物练AI的事实?

    • @imok666
      @imok666 5 หลายเดือนก่อน

      R.U.N. 一地恩?​@@oo-re6wo

  • @wonmanintp
    @wonmanintp 6 หลายเดือนก่อน +1

    他們只是在搬磚割韭菜吧了

  • @鄭小灣
    @鄭小灣 5 หลายเดือนก่อน +1

    太囉嗦

  • @tspan9634
    @tspan9634 7 หลายเดือนก่อน +2

    不是,老婆呢?

    • @Alan_autumn
      @Alan_autumn 7 หลายเดือนก่อน +2

      你的老婆、我的老婆、大家的老婆都是不同的向量
      我們要讓ai從金礦裡找老婆(?

  • @LongZhao-bz9te
    @LongZhao-bz9te 7 หลายเดือนก่อน

    Sora这个编辑器的操作是从色彩素材数据库里建模排列组合重新生成任意图片的意思吗?🤔

  • @tomxutw
    @tomxutw 4 หลายเดือนก่อน

    了不起, 深入簡出,真有幾把刷子!

  • @hayama2363
    @hayama2363 6 หลายเดือนก่อน +1

    图片怎么来的 都是原有的图,所以没啥创造力,AI还是在笼子里找玩具

  • @mqh6626
    @mqh6626 5 หลายเดือนก่อน

    ai是个程序,程序细说起来就是三种结构,选择,循环,以及顺序结构,也就是无脑的,那么这些无脑的东西如何组成ai呢,PS:纯属个人观点,勿喷

  • @itoobiased
    @itoobiased 3 หลายเดือนก่อน

    还是听不懂的集合 hhhhhhh
    算了 无所谓。你们搞这行的也不求人理解,一般人不懂就不懂了,听不懂还讲,讲了还听不懂真的有点多余。

  • @tystmm8982
    @tystmm8982 3 หลายเดือนก่อน

    會去買那種課的人 應該不會想看也看不懂這種科普吧 韭菜沒救

  • @taxitu8329
    @taxitu8329 5 หลายเดือนก่อน

    播主說的真好 AI 不過才啟蒙,就被吹捧上天

  • @dawsonjones8310
    @dawsonjones8310 3 หลายเดือนก่อน

    说的不好, 因为听不懂....谁要说自己听懂了...我给你掌声

  • @straynyan
    @straynyan 7 หลายเดือนก่อน +1

    我自己身處繪圈,大家看到AI就像看到鬼一樣,瘋狂DISS AI產的作品
    深深覺得很可笑,很像一群未開化的民眾第一次看見科技一樣
    確實AI會取代人類,不然發明AI來幹嘛的呢?
    如同當年工業革命一樣,一定有人會被犧牲,但世界就是如此,還是加緊學習新知識,學會適應這個新環境吧

    • @e04asdfghjkl
      @e04asdfghjkl 6 หลายเดือนก่อน

      更令人討厭的是趁大家想學時,欺騙賺錢的投機者,雖然再久一點這些人大部分會被市場淘汰,但是那時再學又似乎太晚了

  • @南一梦
    @南一梦 4 หลายเดือนก่อน

    老外怎么那么聪明

  • @shubob8074
    @shubob8074 4 หลายเดือนก่อน

    卵用,我不需要像博士那样打飞机。我们普通人都是找现实中的女人。而不是对着AI图打飞机。

  • @參知政事-e2v
    @參知政事-e2v 4 หลายเดือนก่อน

    人們都超討厭騙子,但是為什麼 掛上了 技術的面紗 偏受追捧?

  • @apacchidesu
    @apacchidesu 7 หลายเดือนก่อน

    優質頻道

  • @Joocoo03i
    @Joocoo03i 4 หลายเดือนก่อน

    废话真多,你是在科普,不是在说相声

  • @龍志芳
    @龍志芳 4 หลายเดือนก่อน

    av有碼片能讓他變無碼
    那他的大支馬是人工自行腦補
    還是原始型狀的大支馬??????

    • @tiro_taiwan
      @tiro_taiwan 4 หลายเดือนก่อน

      前者