[DS Interface] Mamba:Linear-Time Sequence Modeling with Selective State Spaces
ฝัง
- เผยแพร่เมื่อ 8 ก.พ. 2025
- 발표자: 석박통합과정 3학기 김정현
본 영상은 Transformer-based Attention Mechanism 이후 Attention Mechanism에 버금가는 성능을 지니는 아키텍처 구조에 대해 소개하는 논문이다. 특히, Transformer의 Long Sequence에서의 Computational Inefficiency를 해결하기 위해 여러 모델들이 등장(SSM)했지만, 여러 방면에서 Attention mechanism을 넘어서기에는 역부족이었다. 그러나 Selective SSM을 통한 Mamba를 통해 Attention mechanism 없이 Transformer++(강력한 형태의 트랜스포머 구조)의 성능을 능가하고, Hardward-aware parallel algorithm을 통해 Recurrent 모델의 training inefficiency를 해결한다. 결과적으로 맘바는 Transformer 보다 5배 빠른 Inference 성능을 가지면서, Sequence Length에 Linear Scaling이 가능하고, Million-length Sequence에서도 좋은 성능을 보인다. 앞으로 맘바는 다양한 Foundation model의 Backbone model로서의 가능성을 보여주는 논문.
Reference : github.com/sta... , github.com/hkp..., www.kolaayonri..., • Mamba and S4 Explained...
Mamba 모델이 Transformer 기반 Attention Mechanism을 대체할 수 있는 강력한 아키텍처로 제안되었다는 점에서 매우 흥미롭습니다. 기존 SSM 기반 모델들이 Attention을 완전히 대체하지 못했던 한계를 넘어, Selective SSM을 활용하여 Transformer++의 성능을 뛰어넘었다는 점이 인상적입니다. 또한, Recurrent 모델의 병목이었던 학습 효율성을 Hardware-aware parallel algorithm으로 해결하고, inference 속도와 sequence length 확장성에서 큰 장점을 보였다는 점에서 실용적 기여가 큽니다. 향후 다양한 Foundation Model의 Backbone으로 활용될 가능성이 높아 보이며, 특히 Long Sequence Tasks에서 Transformer의 대안을 모색하는 연구에 중요한 전환점이 될 것으로 기대됩니다.
안녕하세요 데이터사이언스학과에 재학중인 신호준 입니다. 발표 잘 들었습니다. 이 발표를 통해 Transformer의 Long Sequence에서 발생하는 비효율성을 극복하기 위한 Mamba의 혁신적인 접근을 알게 되어 매우 흥미로웠습니다. 특히 Selective SSM을 통한 성능 향상과 하드웨어 병렬 알고리즘을 통해 학습 효율성을 개선한 점이 인상적이었습니다. Transformer++보다 빠른 추론 성능과 긴 시퀀스에서도 뛰어난 성능을 보이는 Mamba가 다양한 Foundation 모델의 백본으로 활용될 가능성이 매우 기대됩니다. 앞으로 이 분야에서의 발전이 기대됩니다.
안녕하세요, 데이터사이언스학과 석사과정 정원렬입니다. 김정현님의 발표 잘 들었습니다. Transformer의 Long Sequence 처리에서 발생하는 비효율성을 극복하기 위해 Mamba가 제안된 점이 매우 흥미로웠습니다. 특히 Selective SSM을 통해 Transformer++의 성능을 능가하고, 하드웨어 병렬 알고리즘을 활용하여 학습 효율성을 극대화한 점이 인상적이었습니다. Mamba가 Transformer보다 5배 빠른 Inference 성능을 보이면서도 긴 시퀀스 처리에서 뛰어난 성능을 발휘하는 점에서, 앞으로 다양한 Foundation 모델의 백본으로 활용될 가능성이 매우 기대됩니다. 좋은 발표 감사합니다.
안녕하세요 빅데이터 관리 및 응용 연구실 석사과정 김민선입니다. 본 연구는 attention에 기반한 Transformer의 계산 비효율성을 해결함과 동시에 뛰어난 성능을 제공하는 새로운 시퀀스 모델 Mamba를 제안합니다. 제안하는 모델은 기존의 structured SSM이 본질적으로 정보를 선택적으로 전파하거나 잊어버릴 수 없기 때문에 이를 보완하기 위해 매개변수를 입력의 함수로 설정함으로써 해결하고자 하였습니다. Language에도 적용될 수 있을 정도의 높을 성능을 보인만큼, SSM 관련 연구들에서 향후 많은 연구과제와 가능성이 남아있는 연구 분야라고 생각합니다.