[Paper Review] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

แชร์
ฝัง
  • เผยแพร่เมื่อ 18 ก.ย. 2024
  • 1. 논문 제목: FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
    2. 논문 링크: arxiv.org/abs/...
    3. 인용 수: 1,144회 (~2024.9.18)
    4. 논문 Overview:
    - GPU 계층에서의 IO를 줄이는 방법으로 Attention에 소요되는 시간/공간적 자원 사용을 줄이는 효율성을 확보
    - Quadratic한 행렬의 실제화(Materialize)를 줄이는 것을 목적으로 함
    - Softmax 연산의 Tiling과 Backpropagation의 Recomputation을 통해 기존 Attention 연산과 계산 결과는 동일하면서도 빠르게 Forward pass와 Backward pass를 진행

ความคิดเห็น •