All Things ViTs || CVPR 2023 Tutorial || Hila Chefer and Sayak Paul

แชร์
ฝัง
  • เผยแพร่เมื่อ 29 ม.ค. 2025

ความคิดเห็น • 14

  • @vi5hnupradeep
    @vi5hnupradeep ปีที่แล้ว +1

    Thanks for sharing this Sayak Paul . As always , amazing work in covering everything in so much detail.

  • @lorenzoleongutierrez7927
    @lorenzoleongutierrez7927 ปีที่แล้ว +1

    Thanks for sharing!

  • @НиколайНовичков-е1э
    @НиколайНовичков-е1э ปีที่แล้ว

    Thanks for sharing! It was very interesting!

  • @tydsuper3122
    @tydsuper3122 ปีที่แล้ว +1

    what a good presentation!

  • @aritraroygosthipaty3662
    @aritraroygosthipaty3662 ปีที่แล้ว +1

    Amazing! Congratulations.

  • @ritwikraha
    @ritwikraha ปีที่แล้ว +2

    This is fantastic! Congratulations Sayak da! 🎉

  • @sbeg-wv7fz
    @sbeg-wv7fz ปีที่แล้ว

    Thanks for sharing

  • @deepaksingh-vt2gq
    @deepaksingh-vt2gq ปีที่แล้ว +1

    I have a doubt, at 19:41 (From Self-Attention to Cross-Attention) slide, at the bottom, shouldn't we group Q and K for Text and V for Image?

    • @hoangminhnguyen435
      @hoangminhnguyen435 ปีที่แล้ว +2

      Cross Attention means you want to find the relevance between different objects inputs, so basically Q and K must come from different source, and K and V must come from same source because K and V are representation of same object with different scope.

  • @amitpareek4215
    @amitpareek4215 ปีที่แล้ว +1

    Congrats sir

  • @soumyasarkar4100
    @soumyasarkar4100 ปีที่แล้ว

    congrats !

  • @reloto5665
    @reloto5665 ปีที่แล้ว +1

    Is there a small mistake at 53:09?
    Shouldn't it be 0.2+0.05+0.04 = 0.31 instead of 0.11?

  • @SphereofTime
    @SphereofTime ปีที่แล้ว

    1:43:16

  • @mikhailandreev1595
    @mikhailandreev1595 ปีที่แล้ว +2

    Sayak is the backbone of half the global ML community