V_JEPA는 메타 수석AI과학자 얀르쿤이 개발한 알고리즘이지... SSM기반 맘바는 아주 긴 String을 가진 데이터 input 처리에 유리(즉 스트리밍 인풋)하고. 여기서 가장 유니크한 접근이 V-JEPA임. 다른 건 모두 String 기반인데 이건 Image기반이거등. 쉽게 이야기해서 Transformer, MoE, SSM기반 Mamba, Jamba 다 String기반인데 V-JEPA만 Vision기반이니...
맘바, 잠바 같은 새로운 AI 아키텍처로 스케일링 법칙에 도전한다는 이야기로 들립니다. ^^ 최신 트렌드 전해주셔서 감사합니다. 지난주에 사티아 나델라가 스케일링 법칙이 아직도 유효하냐는 질문에 대한 대답으로 그 법칙에 대한 도전으로 새로운 AI 아키텍처가 등장하고 있는 것을 흥미롭게 지켜본다는 이야기를 했는데요. 오늘 안될공학님의 영상 내용과도 연결되는 것 같아 재미있습니다. 😊 안될공학님이 사티아 나델라급인셈이지요~ 🎉
지적에 대해 이해는 함. 하지만 유튜브는 원래 어그로가 기본이고, 정도의 문제인데. 썸네일처럼 엔비디아 gpu팔기가 힘들어지는 듯한 느낌을 주는게 정도를 넘었다고 보기 힘듬. 오해의 소지가 있다는 말이 주식채널이면 공감하겠는데, 그것도 아닌데 이런 부분에서 너무 예민하신듯.
음.. 이런 설명을 볼때마다 느끼는데 수학적인 계산을 너무 추상적으로 표현하려다 보니까 오히려 어렵고 대단해 보여요.... attention mechanism에서 의도하는 내용은 어떤 단어가 중요한지 분류하고 그에따라 가중치를 두겠다가 맞긴 합니다. 하지만 실제 연산으로 보면 그냥 질문 행렬 Q 와 문장 행렬 V의 행렬 곱으로 표현될 뿐입니다. nvidia의 그래픽카드가 많이 쓰이는 이유는 저 행렬 곱 연산을 가장 잘 할 뿐입니다... 거기에 이제 비용이 많이 들어가는 이유는, 저 행렬이 미친듯이 크고 많아요... 너무 클 뿐이에요 그냥 그게 끝입니다
썸네일이 좀 어그로네 형,,,, 나는 최근에 Graph 쪽에 맘바쓰는거 하고 있어, MoE나 Mamba가 gpu 안쓰자를 외치기 위해 나온게 아니라, 다른 목적이 있는데 어?! 해보니까 자원을 좀 상대적으로 덜먹네? 이거인거고 그리고 이거 gpu 없이 cpu로 못해(아예 못하는건 아니지만) 그리고 오히려 MoE나 Mamba로 적용 가능한 범위가 더 늘어나서 수요가 더 늘수도 있고, GPU는 더 필요할거 같아
고양이를 추론하는데 들어가는 데이터량과 전기값 하드웨어값이 얼마나 드는가? 각나라의 GDP를 조사하려해도 어렵고 여러가지 이유가 있어 안되고 양극화의 문제점을 찾으려해도 어려고 과거 역사적 철학적 관점에서 접근하려해도 시간 많이 잡아먹고...가성비가 있는것인지 아니면 70억 인구중 0.001%민을 위한 것인지 헷갈립니다!. 차라리 온디바이스로 각자가 자신의 데이터를 딥러닝해서 자신의AI를 구축하면 어떨까요? 갤럭시 S24에서 조금만 전문가들이 노력헤서 한국인들만 알려주어 각자 개발하면 수없이 많은 아이디어와 양질의 데이터가 나오지 않을까 합니다! 물론 학부나 연구소 정부는 여러가지의 모델을 사용해야겠지만 한글과 문화 역사의 유지가 후세대에도 이어나가야 한다는관점에서 개개인의 인공지능 역량도 체엄하고 국가적인 차원에서도 양질의 관리가 될것 같다는 생각입니다. 솔직히 어린애한테 고양이 그림보여주고 고양이다른 그림 보여주면 바로 고양이를 추론하지 않나요? 국민들에게 창의력을 길러주어야 할때인것 같습니다.
12분에 모든 트렌드가 요약되어있네요...엄청 가치있었습니다
좋은 내용 감사합니다.
새로운 공부거리를 얻었어요😊😊
흥미롭고 재밌는 영상이였습니다.
특히 제가 현업자이지만, AI분야가 아닌데도 굉장히 쉽게 다가와서 놀랐습니다!
와 설명 퀄리티에 지렸습니다…
왠만큼 알아서는 이만큼 요약 및 쉽게 설명 못할듯요
요즘 핫한 AI model들을 정말 쉽게 이해할수 있도록 재밌게 설명해주셨네요!😊
와 엄청 잘 요약하셨네요
마지막 아재개그도 좋아요 ㅎㅎ
굉장히 쉽게 이해했습니다 좋은 정보를 잘 알려주셔서 감사합니다
비유가 좋네요. 한계를 뛰어넘는다기보다는 최적화의 단계로 접어든거 같네요.
크으 완벽한 정리다 ㅠㅠㅠㅠ
와 퀄리티 뭐야 진짜 싹 정리하셨네
역시 IT 정보 채널은 안될공학👏👏👏
꽤나 전문적인 내용을 쉽게 풀어서 설명해주셨네여 감사합니다
설명을 눈높이에 맞춰서 겁네 잘하시네요.
오늘도 잠바를 여밉니다...
V_JEPA는 메타 수석AI과학자 얀르쿤이 개발한 알고리즘이지...
SSM기반 맘바는 아주 긴 String을 가진 데이터 input 처리에 유리(즉 스트리밍 인풋)하고.
여기서 가장 유니크한 접근이 V-JEPA임. 다른 건 모두 String 기반인데 이건 Image기반이거등.
쉽게 이야기해서 Transformer, MoE, SSM기반 Mamba, Jamba 다 String기반인데 V-JEPA만 Vision기반이니...
상당히 괜찮은 요약이구만요..
잠바 드립생각하며 뿌듯했을 에러형은 좋아요
설명 기깔난다...
와 진짜 꽉꽉 눌러담으셨네
맘바, 잠바 같은 새로운 AI 아키텍처로 스케일링 법칙에 도전한다는 이야기로 들립니다. ^^ 최신 트렌드 전해주셔서 감사합니다. 지난주에 사티아 나델라가 스케일링 법칙이 아직도 유효하냐는 질문에 대한 대답으로 그 법칙에 대한 도전으로 새로운 AI 아키텍처가 등장하고 있는 것을 흥미롭게 지켜본다는 이야기를 했는데요. 오늘 안될공학님의 영상 내용과도 연결되는 것 같아 재미있습니다. 😊 안될공학님이 사티아 나델라급인셈이지요~ 🎉
오늘은 ‘세상에 이런일이’ 성우 버젼인가요? ㅋㅋㅋ 재밌게 잘 들었습니다
마지막 개그라임은 최고네요...이건 트랜스포머가 잠바에 패딩에 깔깔이 입어도 흉내내지 못할듯😂😂
음 끄덕끄덕 하다가 결국 마지막에 아재 개그만 기억에 남아버렸네요
마침 인공지능 시험범위 내 개념들이 들어가 있어서 영상내용이 머릿속에 쏙쏙 들어가네요
유머 감각이 AI를 만들어서 스크립트 만드는거 같아. 너무 자연스러워. 왠지 공부 졸라 잘하는 사람일거 같다
근데 결국 transformer 자체를 어케 하긴 해야함… Attention 자체는 ai의 기본원리로 작동하는데에 필수인건 맞는거 같고 무식한 행렬 연산 말고 다른 방법으로 저걸 학습시킬 방법을 찾아야 할듯
알빠노 트랜스포머 슛!
@@쇼쇼더자 토큰포머가즈아!!
@@쇼쇼더자 ㅋㅋㅋㅋㅋ
무식한 행렬계산 대신 다른 방법이 V-JEPA야 하지만 그걸 제대로 구현 못하고 있는 중인거고.
@@ccp.search 뭔소리냐... 이건또..
시간복잡도 개념까지 소개영상에 등장할 정도로 알고리즘이 일반화 되고 있네요.
언제나 그랬지만, 특히 요즘 알고리즘이 이 모든 기술의 기반이 된다는 것이 참 재밌습니다.
컴퓨터 공학 분야에서 시간복잡도 개념을 빼놓고 설명할 수 있는게 있나요? 인공지능분야에서 학습은 파라미터를 최적화시키는 값을 찾아나가는 과정이기 때문에 파라미터 수에 대한 시간복잡도 개념은 필수 불가결로 들어가는거죠
@ 전공자 입장에서야 당연하죠. 상식 전달 수준의 영상으로 알고 있는데, 시간복잡도 얘기가 나오길래 흠칫해서 적어봤어요.
Mamba,jamba 든 모두 행렬기반 연산이라 학습에 GPU는 그대로 필요할텐데 썸네일에 오해의 소지가 있네요
공부더해
당연히 학습, 추론에서 병렬 컴퓨팅은 필요하지만 같은 성능의 기본 transformer에 비해 연산량을 상당히 줄일수는 있습니다. 특히 inference에서 더 그렇고요.
다만 아직 ssm은 메인스트림까진 아니고 이제 막 적용해보는 단계죠
지적에 대해 이해는 함.
하지만 유튜브는 원래 어그로가 기본이고, 정도의 문제인데.
썸네일처럼 엔비디아 gpu팔기가 힘들어지는 듯한 느낌을 주는게 정도를 넘었다고 보기 힘듬.
오해의 소지가 있다는 말이 주식채널이면 공감하겠는데, 그것도 아닌데 이런 부분에서 너무 예민하신듯.
@@y2394sswo 애초에 그 썸네일 지적이 공감이 안되는 지적임.
맞아
좋은 학습법들은 계속 나오는데 그래도 이전 학습 모델에서 추가로 올리는 게 아니라 계속 새로 모델 만들어야 하니 모델들이 좀 큰 것도 아니고 이제 필요한 건 결과는 좀 안 좋아도 인간마냥 학습 결과를 유지한 채 추가 학습시킬 수 있는 모델 아닌가 싶습니다
@@lkm 오 동의합니다..
계속 연구는 되고있는데 좀 안좋은 정도가 아니라 절반이상 안좋아서 못쓰는중임
세상에..AGI가 완성되면 컴퓨터에 의식이 생긴다는 무서운 정의가 맞는 순간이 될 수도... 후 덜 덜...
과거 인텔이 쓰던 코프로세서 개념을 쓴다는거죠?
특정 영역이 포착되면 해당 기능이 활성화되어 움직이는거.
결국 겨울에는 Jamba인건가?
그래서 어디주식 사면 되나요
엔비디아 Hymba도 궁금해요!
voice 생성해서 넣어 주시면 안될까요. 진심으로 부탁 드립니다. 내용은 알찬데 어투 때문에 집중이 잘 안되어 안타깝네요.
음.. 이런 설명을 볼때마다 느끼는데
수학적인 계산을 너무 추상적으로 표현하려다 보니까 오히려 어렵고 대단해 보여요....
attention mechanism에서 의도하는 내용은 어떤 단어가 중요한지 분류하고 그에따라 가중치를 두겠다가 맞긴 합니다.
하지만 실제 연산으로 보면 그냥 질문 행렬 Q 와 문장 행렬 V의 행렬 곱으로 표현될 뿐입니다.
nvidia의 그래픽카드가 많이 쓰이는 이유는 저 행렬 곱 연산을 가장 잘 할 뿐입니다...
거기에 이제 비용이 많이 들어가는 이유는, 저 행렬이 미친듯이 크고 많아요... 너무 클 뿐이에요 그냥 그게 끝입니다
와 최근 학사 프로젝트 하면서 MoE알게되고 제대로 적용을 못했는데 영상보고 적용방법을 아예 바꿔야 하는 걸 깨달았네요..
쉽게 설명 해 주셨는데... 이전내용을 자꾸 까먹네요. 저는 SSM이 약한가봅니다. ㅜㅜ
겨울엔 잠바 그다음 더위를 대비한 나시 모시
진짜 수학 천재들 대단하네요.
수포자는 웁니다.
인공지능 분야에서 직접 새로운 아키텍처를 만들어내는 영역이 아니라면 수학적으로 필요한건 수식에서 각 항이나 특정값이 어떤걸 의미 하는지와 그게 어디에 적용되는지(특히 손실함수)만 파악할 수 있어도 학습시켜서 사용하는데는 무리가 없습니다😊
모든건 경사하강법이 다 해줍니다. 목적함수만 기가막히게 모델링하면 all 해결.. 윗분이 말씀하신 대로 모델을 만드려면 데이터 차원에 대한 수학적인 인사이트가 깊히 있어야 할 것 같네요
맘바...잠바...그 다음은... 돕바?
이 오디오 혹시 AI로 생성하셨나요?
(문제 삼는게 아니라 그냥 궁금해서입니다!)
더빙임??
MoE 까지는 개발언어인 VueJS의 Router, Mixin 의 컨셉이 차용된 것 같이 보여 반갑게 봤는데 뒤에는 무슨말인지 모르겠군요 ㅎㅎ
모델이 뭔지 별관심 없고... AGI는 언제?
겁나 좋다
동시단순연산이 많이필요한거면 큐비트인 양자컴퓨팅이 해결법이되겠네 미래에는 양저컴퓨터도 손톱만한칩에서 돌겠지
맘바, 잠바가 그렇게 좋았다면 다들 그걸 쓰고있을텐데.. 논문을 읽어봐도 뭔가를 숨기고 있다는 생각만 들더군요
한번 테스트해볼 일이 있었는데 같은 파라미터 수일때 트랜스포머보다 성능이 떨어졌어요
논문 주장처럼 메모리 소비가 낮고 빨랐지만 퀄리티가 트랜스포머보다 좋진 않았음
Trade off가 있는 것 같아요
엣지쪽에서는 쓸지도 모르지만 성능 몇퍼 올리려고 연산량 몇배씩 올리는 현재 시점에서는 서버 쪽에서는 잘 안쓸듯
@@gagasbandas1646 서버에서 안쓰면 엣지에서도 안쓸것같아요. 보통 개발자들이 서버에서 많이 쓰는 오픈소스 모델을 쓰더라구요
형 그래서 엔비디아 팔아?
오 내가 일등이 될 관상인가
최근에 nvidia hymba도 나옴
뭔가 MoE는 LSTM 같은 느낌이네여
먼소린지는 모르겠지만 공부하는 느낌임ㅇㅇ
왜인지 모르겠는데 집중이 안 됨...
저 헬창 목소리 들으면 정나미 떨어져서 그런그임
@@ccp.search 그런 듯. 뭔가 억텐으로 하다보니 집중이 안 됨
형 후드 jamba 입고 나와줘!!
아쉽네요 😢
팔뚝보여주세요
역시나 수학자들이 함수로 프로그램을 압축한것 같은 일을 AI는 행열로 줄이는 일을 하고 있다고 이해함.
맞나?
예전 말투가 더 좋아요... 예전말투로 돌아가 주세요
맘바, 잠바 ㅋㅋ 라이코스 생각나네
오 라임보소 ㅋ
썸네일이 좀 어그로네 형,,,, 나는 최근에 Graph 쪽에 맘바쓰는거 하고 있어, MoE나 Mamba가 gpu 안쓰자를 외치기 위해 나온게 아니라, 다른 목적이 있는데 어?! 해보니까 자원을 좀 상대적으로 덜먹네? 이거인거고 그리고 이거 gpu 없이 cpu로 못해(아예 못하는건 아니지만) 그리고 오히려 MoE나 Mamba로 적용 가능한 범위가 더 늘어나서 수요가 더 늘수도 있고, GPU는 더 필요할거 같아
그걸 왜 몰랐다는 건가? 잠바건 MoE건 GPU 계산을 트랜스포머에 비해 덜 한다는 거지 아예 안하는다는게 아니자나. 잠바건 MoE건 모두 인퍼런스가 CUDA에서 돌아간다는건 GPU에 의존한다는 거자나. 너 AI 초보지?
ㅁ후 이번은 좀 어렵네
ㅋㅋㅋ 잠바😂
말투가 너무 가벼워서 집중이 안돼요.
트랜스포머만으로도 머리 아픈데 그 이상의 모델이 있다니 ... ㅎ
동덕여고 젠슨황
넘 늦었오
말투 복귀해주세요. 어색합니다
왜 이렇게 더빙 AI같지... 집중이 잘 안되네요....
돌고 돌아 다시 과거형으로 가는거구나.
전기사용량도 줄이고.
Moe 아키텍쳐?? 모에 아키텍쳐…?
샴페인은 모에나 돔 페리뇽이지.
엇뗀셔 니즈 올유닏~~ ㅋㅋㅋㅋㅋㅋㅋㅋㅋ
잠바는 한국어 특허내라!
모에???
너무 어려워요~공학도만 아는내용인가요? ㅎ
아니요 그건 당신이 완전 무식이라 모르는 거에요
나만 말투 킹받나..
ㅇㅇ
ㅋㅋ
쌍너머 헬창이라 말투가 원래...
시간적 컨텍스트를 더 잘 다루게 되면서 점점 의식에 다가가겠네요
억텐이 점점 심해지니까 내용 전달력이 오히려 떨어지네
엔비디 망하기전에
주식을 팔라고 권해보세요
잠바 드립하고싶어서 영상 만든거네...
뭔 말인지 1도 모르겠지만
잼있게 봔네욧 😅😅😅
알고 어그로를 하는지 모르고 오해했는지
인공지능에게 대본을 맡겼는지 안타깝네요
선행적 연산량 증가 구조 SSM으로
연산장치 GPU의 필요가 줄어든다? 오판인 듯
보이스가 집중이 안되는 톤입니다
최적화에 최적화 되있는 양자기술로 수렴하는 느낌...
뉴진스마저 어텐션으로 데뷔했죠
all you nee is
가 아니라 attention is all you need 였네
@@김배배-n5c Narco is all you need 아니고?
이제 nvidia는 끝물이 나왓따. 미래성이 없어 주식도 곤두박질이다. 이제부터
고양이를 추론하는데 들어가는 데이터량과 전기값 하드웨어값이 얼마나
드는가? 각나라의 GDP를 조사하려해도 어렵고 여러가지 이유가 있어 안되고
양극화의 문제점을 찾으려해도 어려고 과거 역사적 철학적 관점에서 접근하려해도
시간 많이 잡아먹고...가성비가 있는것인지 아니면 70억 인구중 0.001%민을 위한 것인지
헷갈립니다!. 차라리 온디바이스로 각자가 자신의 데이터를 딥러닝해서 자신의AI를
구축하면 어떨까요? 갤럭시 S24에서 조금만 전문가들이 노력헤서 한국인들만
알려주어 각자 개발하면 수없이 많은 아이디어와 양질의 데이터가 나오지 않을까
합니다! 물론 학부나 연구소 정부는 여러가지의 모델을 사용해야겠지만 한글과 문화 역사의 유지가 후세대에도 이어나가야 한다는관점에서 개개인의 인공지능 역량도 체엄하고
국가적인 차원에서도 양질의 관리가 될것 같다는 생각입니다. 솔직히 어린애한테 고양이
그림보여주고 고양이다른 그림 보여주면 바로 고양이를 추론하지 않나요? 국민들에게 창의력을 길러주어야 할때인것 같습니다.
@@paullee1792 글이 너무 중구난방....
그래서 메타의 라마가 있는 거자나.
못듣겠네 왜이리 오바하지