How CUDA Programming Works | GTC 2022

แชร์
ฝัง
  • เผยแพร่เมื่อ 5 ม.ค. 2025

ความคิดเห็น •

  • @zoriiginalx7544
    @zoriiginalx7544 หลายเดือนก่อน +1

    The illustration of how RAM works on a physical level really was illuminating. Really drove home why linear accesses are important and why cache lines are the way they are. Fantastic talk.

  • @sami9323
    @sami9323 7 หลายเดือนก่อน +8

    this is one of the clearest and most lucid presentations i have seen, on any topic

  • @dennisrkb
    @dennisrkb 2 ปีที่แล้ว +7

    Great presentation on GPU architecture, performance tradeoffs and considerations.

  • @ypwangreg
    @ypwangreg ปีที่แล้ว +2

    I was always puzzled and fascinated about how those grid/block/threads work in parallel in the GPU and this video explains it in one and all. very impressive and helpful!

  • @SrikarDurgi
    @SrikarDurgi 6 หลายเดือนก่อน +1

    Dan is definitely the MAN.
    Great talk!

  • @miramar-103
    @miramar-103 18 วันที่ผ่านมา

    superb!

  • @hadiorabi692
    @hadiorabi692 10 หลายเดือนก่อน +1

    Man this is amazing

  • @KingDestrukto
    @KingDestrukto 3 หลายเดือนก่อน

    Fantastic presentation, wow!

  • @holeo196
    @holeo196 2 ปีที่แล้ว

    Another great presentation by Stephen Jones, fascinating

  • @purandharb
    @purandharb ปีที่แล้ว

    thanks for detailed explanation. Really enjoyed it.

  • @chamidou2023
    @chamidou2023 8 หลายเดือนก่อน

    Great presentation!

  • @mugglepower
    @mugglepower 11 หลายเดือนก่อน +3

    oh man I hope my mum fixed me with a better brain processing unit so I could understand this

  • @KalkiCharcha-hd5un
    @KalkiCharcha-hd5un 5 หลายเดือนก่อน

    @21:17 "Its exactly the right amount of data to hit the peak bandwidth of my mem system , Even if my program reads data from all over the place , each read is exactly ONE page of my memory " I didnt understand this statement 21:17 "Even if my program reads data from all over the place" Does it mean even if the data is read from non consecutive memory ??

    • @perli216
      @perli216  5 หลายเดือนก่อน

      yes

    • @perli216
      @perli216  5 หลายเดือนก่อน +1

      You got the benefits of reading contiguous memory for free basically, even when doing random reads

    • @KalkiCharcha-hd5un
      @KalkiCharcha-hd5un 5 หลายเดือนก่อน

      @@perli216 Ok cool so basically only mem is contigues we get advantage like if i = tid + bid*bsize , and not like i = 2*(tid + bid*bsize)

    • @perli216
      @perli216  5 หลายเดือนก่อน

      @@KalkiCharcha-hd5un I don't understand your question

    • @KalkiCharcha-hd5un
      @KalkiCharcha-hd5un 5 หลายเดือนก่อน +1

      @@perli216 "Even if my program reads data from all over the place" , I think I got it , Initially I thought "... all over the place" as in any random memory / non consecutive .
      all over the place as in diff threads from same page , because single thread will bring in the data from same page anyway.

  • @kimoohuang
    @kimoohuang 5 หลายเดือนก่อน

    Great presentation!It is mentioned that 4 warps x 256 bytes per warp = 1024 bytes, and that equals to the Memory page size 1024 bytes. It only happens when the 4 warps running adjacent threads。Are the 4 warps always running adjacent threads?

    • @perli216
      @perli216  5 หลายเดือนก่อน

      @@kimoohuang Not necessarily. Depends on the warp scheduler

  • @openroomxyz
    @openroomxyz 2 ปีที่แล้ว +1

    Interesting!

  • @LetoTheSecond0
    @LetoTheSecond0 5 หลายเดือนก่อน

    Looks like the link in the description is broken/truncated?

    • @perli216
      @perli216  5 หลายเดือนก่อน

      @@LetoTheSecond0 yes, yourube did this. It's just the original source for the video