NVIDIA가 AI 시대를 얼마나 잘 준비했는지 짐작되는 기술... GPU 간, CPU-GPU 간 빠르게 통신할 수 있는 NVLINK 4.0 (feat. CXL, PAM4)
ฝัง
- เผยแพร่เมื่อ 13 ม.ค. 2025
- GPU는 CPU에 비해 병렬 연산에 특화되어있다고 하죠. 그런데 그러한 GPU 수만개가 병렬로 되어있는데 ChatGPT 같은 LLM을 돌리기 위해선 GPU 끼리의 통신 속도도 충분해야 병목이 되지 않고 빠르게 돌릴 수 있습니다. 기존 PCI Express (PCIe) Gen5 보다도 7배나 높은 900GB/s의 속도를 보여주는, NVIDIA의 자체 칩 간 통신 규격 NVLINK에는 일반적으로 사용되는 NRZ와 같은 방식을 쓰지 않고 PAM4라는 기술로 초당 보낼 수 있는 정보를 대폭 늘리고, 고속도로 차선 수를 늘린 것처럼 링크 수도 확대했는데요. AI 시대 NVIDIA가 얼마나 부지런히 준비했는지를 보여주는 대목입니다.
Written by Error
Edited by 이진이
unrealtech2021@gmail.com
고맙습니다. 매일 콘텐츠 기다리게되네요.
6:54 PCIe 6.0은 PAM4 Signal을 사용합니다. 애초에 PCIe5.0 spec이 예정보다 늦게 제정된 이유도 5.0부터 PAM4를 쓸지 아니면 마지막 NRZ로 쓸지에 대한 논의때문인거죠. 물론 아직 상용 PCIe 6.0제품이 없기때문에 그렇게 말씀하신거 같지만 정확히 따지자면 PCIe보다 먼저 사용했다라고 하는게 맞겠네요
잘보고 있습니다 공학님 👍
우와, 이건 좀 쉽게 이해가 된다. 그래픽으로 보여줘서 그런가 ㅎㅎㅎ NVLINK 이거 하나 건졌다. H100지렸다
참고로 현재 나와있는 RTX GPU중에 NVLink지원되는 GPU는 A5000이상 모델만 됩니다. 이 NVLink가 지원되는 GPU는 추가로 꼿으면 선형적으로 성능이 올라갑니다. 공돌이들은 모르는 문과 출신 컴터쟁이가 한마디 하고 갑니다.
문과는 모르는 법학자가 한마디 하겠습니다 호식인가요?
아닥하고그냥 지나가라 문과에 컴공이다. 법비야. @@데스나이트-n8q
@@데스나이트-n8q 댓글들 보니까 이런식으로 만 다는거 보면 현생이 보이네요.. ㅠㅠ ㅎ
공돌이한테 이상한 자격지심 안 가지셔도 돼요 ;;
전자공학과 4학년인데 전 그냥 말하는 감자에요.
감사합니다 잘 들었습니다~
감사드립니다
와 컨텐츠 정말 좋네요 감사합니다
NVLINK에 대해서 궁금했는데 잘 들었습니다. 감사합니다
잘 보고 갑니다.
감사합니다
CXL이 흥미로워 보이는데 CXL 자세히 다뤄주심 감사할 듯 합니다. CXL 기술로 GPU 메모리를 더 확장한다 하면, 인텔이든 AMD든 각 사의 CPU가 CXL 규격으로 통신해야 하니까 서로 상부상조 하면 좋겠으요.
NVLink를 가장 잘 설명한 콘텐츠네요. 감사합니다.
진짜 전문적인 내용...
혹시 cuda도 다뤄주실 수 있나요? 요즘 ai는 사실상 쿠다코어 필수 인것 같은데 비전공자여서 글은 읽어도 감이 잘 안오네요…
그러게요 cuda가 필수인지 궁금하네요. 리벨리온등도 cuda때문에 잘안되는거라고하고
Amd는 cuda땜에절대힘든가요?
사실 물리적 기술보다 더 큰 실질적 장벽이 쿠다죠. 많은 AI 지적 재산이 쿠다로 되어 있으니. 쿠다는 gpu 연산 프로그램 개발을 위한 프레임워크 정도로 생각하시면 됩니다.
기본적으로는 gpgpu를 위한 api라고 생각하시면 됩니다. 딥러닝 관련 패키지들이나 프레임들이 cuda를 사용하기 때문에 선점효과가 크기도하고 훨씬 효율적이기도 하고
@@ramieieieie 대략적인개념은 아는데 그게 amd가 절대못쫒아올만한 플랫폼인가에 대한질문입니다! 대안도궁금하고
@@고민이고민이다기술적인 문제가 아니라 인프라의 문제에요. AMD가 지금 쿠다같은 api를 만든다고 해도 기존에 쿠다로 된 코드들이 많기때문에 갈아타지 않을거에요.
cxl기술과 nvlink의 차이점이 뭔가요? ㅜㅜ
애러, 이 분은 천재인 것 같네요.
너무너무 잘 보고 잘 배우고 있습니다.
에러님 이효석채널에서 강의 하시는 것도 좀전에 봤는데요 데이터센터 열관리 중에서 액침냉각에 무척 관심이 많습니다. 한국에서는 sk와 삼성에서 쓴다고 하던데 북미 또는 글로벌에서 어떤 회사들이 액침냉각시스템을 만들고 그 분야에서 최고들인지 알고 싶어요. 최고의 회사들을 알아보는 능력은 저희같은 일반인은 불가능인 것 같습니다.
이정도면 외계 공학이네 와...
예전 SLI기술을 발전시킨 것이군요
이형 소식 진짜 빨라 랩틸리안이야 형 ?
엔비디아는 어디까지 갈것인가?
이야 이걸 또 해내네
그냥 이정도면 메타 , 엔비디아 , 마소 , 오픈 AI 기업 회장들은 AI가 만들어낸 초인류 아닐까
어떻게 아셨죠? 영적으로 그렇습니다. 스쳐 지나가는 무심코 한 생각들을 그냥 지나치지 마시고 자신을 믿고 파고들면 퍼즐이 맞춰 진답니다. 뭐든지.
뭐랰ㅋㅋ
어떻게 아셨죠?
@@IAMJIN7777고지능자만 이해할 수 있는 댓글이네요 👍
노예 같은 마인드입니다. 주류 AI 모델인 LLM 도 제프리 한튼 같은 선각자가 이미 수십년전에 시작한 것입니다. Www 발명자나 한튼 박사 같은 분이 진정한 선각자이죠. 현재 빅테크 수장들은 수혜자중 하나인데 시장을 너무 독점하니 무서운 현실입니다.
시스템 연구하는 사람인데, 이 분 왜케 잘 알지...? 아키텍쳐나 시스템 관련자이신가?😅
저는 클라우드 환경에서의 AI를 위한 시스템/OS 연구하고 있습니다. 이 쪽 분야는 거의 백지 상태인 듯. 기존 어플리케이션이랑 특성이 너무 달라서 교과서를 거의 새로 다시 써야할 수준임.
천재세요?
결국 돈때문에 대중적인 제품은 접근못하게 프로그램상으로 게이밍 카드는 NVLINK 막아버렸군..
테슬라 차세대 도조서버..랑 비슷하네요.
따라한거 같기도 하고..무튼 너무 멋진 설계잊니다
그냥 SLI?
900gb/s이면 CPU의 L1 캐시 속도랑 비슷하네
시모스에 하던 하드 레이드를 GPU레이드로
cpu를 졸라게 많이 만들어서 장착하면 졸라게 비싸지겠죠;;
링크 모듈레이션이 마치 광통신을 이용하는것 같군요. PAM4로 QSFP-DD에서 이미 상용화되어서 많이 사용하고 있습니다. 딱히 NVLINk라는것이 새로운것 같아 보이지 않아 보입니다. 이미 상용화된 광통신 모듈 테크닉을 보드에 구현한 정도로 보입니다.
광통신은 유리가 매질이나 nvlink는 매질이 구리이기 때문에 사실상 완전다른 기술이며 난이도 또한 차원이 다릅니다.
@@seong-jinlee6004 그런가요? 18개 링크 50Gbs로 딱떨어져서.. 광통신이라 생각했는데.. 매질이 구리인데.. 이 채널에서 설명하는것처럼 굳이 NRZ,PAM4와 같은 모듈레이션을 사용해야 하는지 잘 모르겠네요?
Chip to chip 인터페이스는 다 써데스 쓰는데, 물리적으로 써데스 rx tx의 동작 주파수 한계가 존재합니다. 그 상황에서 데이터 대역폭을 높히기 위해서 qam 같은 모듈레이션을 쓰는 거죠.
io speed를 높일 방법은 크게 두 가지가 있는데 nrz에 clk 주파수를 높이거나, 주파수를 조금 낮추고 pam을 쓰거나 둘 중 하나입니다. 주파수에 따른 channel loss가 어떻게 나오는지에 따라 둘 중 유리한 방법을 선택하면 되는데 구리에서 pam을 쓰면 안될 이유가 있을까요.
개념적인 소개만 하다보니 필요한 내용들은 많이 없네요 ㅠ 컴퓨팅 엔지니어링 전공은 아니지만 딥러닝에서 패럴 gpu사용을 하다 조금씩 공부하기는 하는데 gpu 연산 값을 모은다거나 서로 참고한다거나 할 때 결국엔 cpu가 연산을 한다거나 아니면 일종의 mother gpu(보통 0번 gpu)가 그런일을 한다던가 할텐데 단순히 통신이 잘되게 했다라는게 어떤 필요에 의한 부분인지는 모르겠네요... 채널의 타겟팅을 잘 하셔야할 듯 ㅠ
NVlink는 원래 GPU to CPU도 있고 GPU to GPU도 있습니다. 그런데 보통은 GPU to GPU 만 생각합니다.
무슨소리인지.결국 엔비디아주가는 계속 날라간다는거겠죠?😅
나온지 5년된 뒷북
pam4 아이다이어그램 폼미쳤다 3진법 보다 보법 찢은 응디비아 클라스
qam을 램으로 들고오네 와
4000번대 시리즈나왔을때 4090말고 쓰레기라고 거품물던 PC게임머들... 결국 엔비디아는 너희는 안중에도 없었어....ㅋㅋㅋㅋㅋㅋ개큰그림 그리고있었던 엔비디아
可以安排見面嗎
기본적인 정성적 분석에 대한 내용인데 정량적 기준에 대한 정보는 전혀 없군요.
몇십년전에 일반 메모리의 속도는 그야말로 처참했지요. SRAM에 비하면요. 그런 부분에 정량적 비교는 전혀 없네요? 900MB/ s가 빠르긴 하지만 1st 나 2nd cache memory에 비하면 아예 비교대상이 안됩니다. 단순이 빠르다가 아니라 전체 성능에 미치는 영향이 중요하겠죠.
AI에 비해 정말 간단한 수준인 게임 fps 만 보더라도 메모리 속도나 pci-express 속도가 어느정도 고해상도 게임에선 아무런 영향을 미치지 않는데 그런 부분과 비교해서 NV-link의 900mb/s의 속도가 실제 AI 연산 성능에 어느정도 영향을 끼칠까요? 이건 '절대' 비아냥이 아닙니다. 정말 궁금해서 여쭤보는거에요. 일반적으로 커뮤니케이션 속도 향상이 비약적인 성능 향상으로 이어진 경우는 극초반 게임 그래픽 시장 이외엔 없었으니깐요.
게임이랑 AI학습이랑 같은 측면으로 보시면 안될 것 같네요. 게임이 성능에 영향주는 원인이 훨씬 다양하고 많습니다. 그래서 대역폭 상승이 그대로 성능으로 반영되지 않은거구요.
초당 900GB 대역폭입니다..
아뇨? 대략 5년 전부터 램클럭이나 듀얼채널 구성이 게임 속도의 꽤 큰 영향을 끼치는데요;;; 개인적으론 게이밍 컴퓨터가 6코어 대중화 이후부터 대역폭에 대한 영향을 많이 받는다고 보여집니다
대역폭도 잘못알고 계시고 900GB/s는 현존하는 chip to chip 인터페이스에서 가장 빠른 인터페이스 입니다.
성능에 증가하는 이유는 간단합니다. 보통 초거대 모델 돌릴때 gpu 수십 수백 수천개씩 연결해서 쓰는데, gpu간에 데이터 공유를 해야합니다. 당연히 gpu간 연결 인터페이스 속도가 빠르면 빨라 지는 게 그냥 상식입니다
아...근데 너무 꼭지임...실적발표 후 떡락 예약
아직도 엔비갓을 의심하나요? 믿으세요
왜 꼭지라 생각하지? 근거가 뭐여
@@blackjoy315하락 없이, 고점 상승세를 지속적으로 유지하니 불안한 것도 사실이죠, 떡락은 하겠지만 그게 언제인지는 미지수라 실적 발표후에 떡락하지 않을까 예상하시는 것 같습니다.
미래에서 왔습니다. 꼭지라고 생각하신 850~900불에서 에서 불과 3개월 정도 지나면 다시 1.5~1.6배 상승해서 1,300불 까지 상승하지요. 실적발표후 떡락은 없고, 실적발표하는 날 오히려 떡상이 기다리고 있을 겁니다.
실적이 시장전망치 상회, 액면분할, 자사주매입등의 호재로 급등하고도 계속해서 상승중입니다.
@@kbk0723 좀 일찍와서 알려주지 그랬어요~~~
nvlink는 원래 있던거에요…
그러니까 준비를 잘했다고 그리고 버전업도 계속 해왔고
gpu간의 통신하면 발열문제나 소비전력수가 증가하고 gpu단가가 높기에 소비자입장에서는 굳이 gpu로만 로직을 구성하지는 않을거같네요.
cpu와 gpu간의 통신의 발전을 기다해봅니다.
감사합니다