좋은 질문 감사합니다. ResNet 논문에서는 residual connection을 이용했을 때 초기 단계에 빠르게 converge 할 수 있기 때문에 최적화를 쉽게 할 수 있었다는 구문이 있어 영상에서 그렇게 말했습니다. 원본 문장: "ResNet eases the optimization by providing faster convergence at the early stage." 다만 이게 직접적으로 global optima를 잘 찾을 수 있다고 주장한 내용은 아니라서, 제 의역은 경우에 따라 틀린 것 같습니다. 영상 찍을 때는 크게 고민하지 않고 말했네요... residual connection으로 인해 gradient vanishing 문제가 완화되어 이로 인해 수렴도 빨라지고, global optima도 쉽게 찾을 수 있다고 보는 게 정확한 표현인 것 같습니다. (단순히 learning rate를 줄이는 방법 등으로 억지로 빠르게 수렴하도록 하면, 되려 global optima가 아닌 local optima를 찾게 될 가능성이 커지므로)
13:35 이 부분에서 c_i가 좀 헷갈리네요 오른쪽 그림에서는 alpha_{t,1} 부터 시작해서 alpha_{t,T}로 끝나니까 c_i 에서 i는 t값이 되어야 하는것 같은데 그럼 총 t개 만큼의 c를 만들어서 s_{t-1}와 s_t를도출해 내는건지 ..? 그런데 t는 해당 timestep을 나타내는 것이지 vector의 사이즈를 나타내는 것은 아닌것 같고 ..
좋은 정보 감사합니다! 덕분에 이해가 안되던 부분 엄청 이해가 잘됐습니다! 이해가 안가는 부분이 하나 있는데 질문좀 드릴게요. 디코더 부분에 mask self attention을 수행하는데 예측하려는 뒷부분의 참고하지 않고 출력하기 위함이라고 하셨네요. 근데 예측하려는 뒷부분은 예측이 안된, 측 아무것도 없는 상태인데 그것을 안보기 위해 mask를 한다 라는 것이 이해가 잘 안되네요.. 예를 들어 첫번째 디코더 인풋으로 sos토큰이 들어왔을때, 들어온 인풋이 sos토큰 하나밖에 없는데 가릴게 있나요?
진짜 정말 감사합니다. 더 깊은 이해를 하는데 도움을 많이 주시고, 몇년 전부터 궁금한 이론이 있으면 나동빈님 영상 보면서 공부했습니다! 특히 딥러닝 코드 실습은 선물드리고싶을 정도로 감사하네요 ㅠㅠ 앞으로도 꾸준히 올려주세요!! 한국 코딩발전에 힘써주세요 :) 감사합니다 !!
영상 너무 잘 보고 있습니다!! 해당 코드를 분석하던 중 궁금즘이 생겨 문의를 남깁니다. ic| query.shape: torch.Size([128, 26, 256]) ic| key.shape: torch.Size([128, 33, 256]) ic| value.shape: torch.Size([128, 33, 256]) multattention레이어에 들어가는 query, key,value 값들을 출력을 해 보았는데 다음과 같이 가운데의 lenth가 다른 경우가 확인이 되어 서로 다른 문장들이 베치에 포함되어 있는 것으로 생각이 되는데 제가 생각하는 것이 맞을까요
제가 본 transformer 강의 중 가장 설명을 잘하시네요!
35:44 "Attention Energies"값을 통해 각각의 단어가 서로에게 어떠한 연관성을 가지는지 구할 수 있음
훌륭한 분입니다
19:05 포지셔널 인코딩. 선생님 잘 보고 갑니다. 아직 잘 이해가 안 돼서 더 봐야겠어요!
와.. 이렇게 코드 하나하나 친절하게.. 감사합니다 ㅠㅜ
논문의 이해도도 뛰어나시고 설명도 잘하시고, 관련분야 공부하시는분들에게 정말 많은 도움이 될 영상인거 같습니다!
갓동빈님.. 감사합니다.. 덕분에 정리되지 않던 내용들이 쏙쏙 이해되네요. 부와 영광을 얻으시길 ,,,
정말감사합니다 적게일하고 많이버세요
논문 읽다가 잘 이해가 안되었는데 설명 정말 감사드립니다!!
목소리도 너무 좋네요.
좋은 정보를 공유해주셔서 감사합니다~
이해가 잘 되고 코드 실습이랑 원본 논문 까지 리뷰해주시니까 정말 도움이 많이되네요 감사합니다!!
transformer 논문을 정확히 설명해 주셔서 많은 도움이 됐습니다. 감사합니다
이론 설명부터 코드까지 단계별로 너무 깔끔하고 상세한 설명 정말 감사합니다 논문 이해하는데 정말 큰 도움이 됐어요
항상 고맙습니다!! 이 동영상 덕분에 트랜스포머에 대한 감을 잡을 수 있었습니다.
좋은 강의 감사합니다
트랜스포머 개념이 잘 정리된 듯합니다. 강의 감사합니다~
대박이네요 진짜❤
도움 많이 되었습니다. 감사합니다.
37:48 에서 W(우변 두번째 항)의 차원은 d_model X d_model이 아니라 (d_v * head수) X d_model이 되어야 하지 않나요??
결국 d_v * head수 = d_model이 돼서 그렇게 적으신 것 같네요
최고의 강의입니다.
형 어디 갔어, 돌아와 제발
사랑합니다 선생님... 정말 너무너무 도움 됐어요!
항상 잘보고 있습니다!!!:)
26:20 Multihead attention
14:55 트랜스포머 논문 리뷰 시작
덕분에 잘 이해했습니다. 감사합니다 ^^
역시 설명도 쉽게 하는 교원대 출신 갓갓갓!
41:24 - Positional Encoding 동작 원리
정말 감사합니다. 모델을 이해하는데 많은 도움이 되었습니다.
나동빈님 존경합니다.
좋은 설명 감사합니다~ 구독하고 갑니다
좋은 정보 감사합니다!
설명 너무 쉽게 잘하시네요 행님;
학부생따리인데 졸프로 자연어처리 다루게 생겨서 공부하는데 덕분에 그나마 도움 얻습니다 ㅠㅠ
오랜만에 트랜스포머를 다시 보려니 헷갈려서 찾아봤는데, 이렇게 잘 설명된 강의가 있었네요. 한 번에 다 이해가 되네요 감사합니다
Transformers 논문 읽었었는데 이해하는데 많은 도움이 되었습니다! BERT 논문도 올려주세용 ㅜㅜㅜ
너무 깔끔하시다 진짜..
너무 잘 보고 있습니다. AI 공부 하는데 정말 많은 도움 되고 있습니다.
👏👏👏👏 transformer 강의 정말 잘 들었습니다! 처음 박사 과정을 시작했는데 이 논문은 알아야 할것 같아 막혀서 답답했는데 이거 보고는 많은 도움이 되었습니다! 코드랑 중간중간에 강조하셨던 부분들도 좋았습니다! 감사합니다
자연어처리 공부중인 대학생입니다! attention is all you need 공부중이였는데 정말 정리가 잘 되있어서 놀랐습니다.
공부에 도움 주셔서 정말 감사합니다.
자연어 처리에 관심이 많았는데 핵심 논문에 대한 자세한 설명을 해주시니 너무 좋습니다
코드 설명 덕분에, 이론에 대한 부족한 이해를 보완할 수 있었습니다. 정말 잘 봤습니다.
진짜 개 오지는 설명이네요.. 감사합니다 ㅠㅠ
감사합니다 어텐션 가물가물했는데 같이 짚어줘서 이해가 쉬웠어요!
이런 강의를 무료로 들어도 되나 싶습니다..ㅠㅠ 항상 잘보고 있습니다!
최고네요 정말. 체계적인 설명 감사합니다 :)
잘 보고 이해하였습니다. 감사합니다.
좋은 강의 감사합니다. 설명을 잘 하기 위해서 엄청난 노력을 하신게 느껴지네요.
좋은 논문리뷰영상 감사합니다!
20:30 수렴이 빠르면 global optimum 을 찾기 좋은가요??
좋은 질문 감사합니다. ResNet 논문에서는 residual connection을 이용했을 때 초기 단계에 빠르게 converge 할 수 있기 때문에 최적화를 쉽게 할 수 있었다는 구문이 있어 영상에서 그렇게 말했습니다.
원본 문장: "ResNet eases the optimization by providing faster convergence at the early stage." 다만 이게 직접적으로 global optima를 잘 찾을 수 있다고 주장한 내용은 아니라서, 제 의역은 경우에 따라 틀린 것 같습니다. 영상 찍을 때는 크게 고민하지 않고 말했네요...
residual connection으로 인해 gradient vanishing 문제가 완화되어 이로 인해 수렴도 빨라지고, global optima도 쉽게 찾을 수 있다고 보는 게 정확한 표현인 것 같습니다. (단순히 learning rate를 줄이는 방법 등으로 억지로 빠르게 수렴하도록 하면, 되려 global optima가 아닌 local optima를 찾게 될 가능성이 커지므로)
@@dongbinna 친절한 답변 감사합니다! 42자로 물어봤는데 537자로 대답해주시다니 ㅠㅠ
이제 나도 머신러닝 전문가~!?
transformer 설명 너무 감사합니다!
아적린거수불착 ❤❤
13:35 이 부분에서 c_i가 좀 헷갈리네요 오른쪽 그림에서는 alpha_{t,1} 부터 시작해서 alpha_{t,T}로 끝나니까 c_i 에서 i는 t값이 되어야 하는것 같은데 그럼 총 t개 만큼의 c를 만들어서 s_{t-1}와 s_t를도출해 내는건지 ..? 그런데 t는 해당 timestep을 나타내는 것이지 vector의 사이즈를 나타내는 것은 아닌것 같고 ..
감사합니다 돈주고도 못구하는 코드실습까지 감동 😭😭
최고입니다..
지금까지 여러 트랜스포머 논문 리뷰를 봤으나...이해가 하나도 안되었고.....ㅠ하지만 이 영상을 통해 드디어 간신히 이해하엿습니다ㅠ감사합니다
정말 이렇게 설명을 잘하시다니 대단하세요. 꼭 동빈나님처럼 멋진 연구자가 되겠습니다 ㅋㅋ
직관적인 자료와 충분한 설명. 온라인 강의는 보통 이해하려면 3-4번 돌려봐야 했었는데 한번만 들어도 어느 정도 이해하는 느낌을 주네요~ :)
11:45 에너지 값 구할때 a는 어떤 수식을 포함하는건가요?
동비니 굿굿 좋아요 누르고간당~~
강의 감사합니다. BERT 도 이렇게 해주실 생각없으신가요?
영상 37분 57초에 Wo 가중치를 곱해주는 이유가 shape를 d_model, d_model로 바꾸어주기 위한 건가요? 맞다면 왜 shape를 d_model, d_model로 바꾸어야하는걸까요..?ㅠㅠ
혼자 학습하려니 막막했는데, 영상보고 아키텍쳐의 맥을 효과적으로 빠르게 파악하였습니다. 감사합니다👍
정말 도움 많이 되었습니다. 감사합니다!
감사합니다
사랑합니다
57:18
14:55
좋은 정보 감사합니다! 덕분에 이해가 안되던 부분 엄청 이해가 잘됐습니다!
이해가 안가는 부분이 하나 있는데 질문좀 드릴게요.
디코더 부분에 mask self attention을 수행하는데 예측하려는 뒷부분의 참고하지 않고 출력하기 위함이라고 하셨네요.
근데 예측하려는 뒷부분은 예측이 안된, 측 아무것도 없는 상태인데 그것을 안보기 위해 mask를 한다 라는 것이 이해가 잘 안되네요..
예를 들어 첫번째 디코더 인풋으로 sos토큰이 들어왔을때, 들어온 인풋이 sos토큰 하나밖에 없는데 가릴게 있나요?
동빈님처럼 논문을보고 구현하는 경지에 이르고 싶은데 어디부터 시작해야할까요
혹시 궁금한 점이 있는데 이메일을 알려주실 수 있나요?
동비니형 짱
ChatGPT의 T, BERT의 T...
Transformer의 세상이네요.
이상하게 대회에서 rnn 기법의 모델들이 너무 낮은 성적을 가진다고 생각했는데, 이미 대세가 넘어간지 3년이나 지났었군요.... 좋은 자료들 배우고 갑니다!
동빈님 혹시 BERT 나 GPT도 논문리뷰 가능할까요?
혹시 처음 접하고 공부하실 때 얼마나 걸리셨나요ㅠㅠ정말 어렵네요,,,
22:43
너무 좋은 자료 감사합니다 !!! Batch normalization부터 항상 잘 보고 있습니다 !! 혹시 블로그에 글 작성할때 이미지 자료 사용해도 괜찮을까요??
training 중에 decoder에 trg가 들어가는데 test 때는 decoder에 넣을 정답 trg가 존재하지 않을텐데 어떻게 output이 나올 수 있는지 궁금합니다
진짜 정말 감사합니다. 더 깊은 이해를 하는데 도움을 많이 주시고, 몇년 전부터 궁금한 이론이 있으면 나동빈님 영상 보면서 공부했습니다! 특히 딥러닝 코드 실습은 선물드리고싶을 정도로 감사하네요 ㅠㅠ 앞으로도 꾸준히 올려주세요!! 한국 코딩발전에 힘써주세요 :) 감사합니다 !!
목소리 진짜 목소리 인가요???
좋은 설명과 코드 감사합니다. 코드 중에 궁금한 게 있는데 token을 임베딩하는 과정에서 scale 값을 곱해주는 부분이 있는데, 이렇게 scaling 값을 곱해주는 이유가 따로 있을까요?
에너지를 구하는 부분에서 i가 디코더에서 현재 state의 time-step인 것 같은데 이전의 state의 값과 인코더의 출력으로 attention score를 구하는 것인가요?
Multi head attention 관련해 질문 있습니다! 각 헤드에 대해 서로 다른 Q,K,V를 생성한다고 하셨는데, 모든 헤드는 같은 학습을 겪고 같은 input을 입력받았는데 서로 다른 Q,K,V를 생성할 수 있는 이유는 무엇인가요?
님들 저 3학년 1학기 끝난 시점인데 휴학을 했슴다 (지거국 편입 준비 + 인공지능 공부) 제가 CNN은 많이 다뤄봐서 아는데 이 동영상만 보고 자연어처리를 공부하려니까 하나도 이해가 안되는데 정상임까??.. 자연어처리에 대한 기초지식이 있어야 함까?
rnn 계열 기초를 보고 오시면 충분합니다.
감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다감사합니다
어렵워 .. ㅠ
동빈나님 이 코드를 개인 윈도우 주피터에서 실습하려고하는데 어떤 패키지를 받아야할까요 ㅠ
영상 너무 잘 보고 있습니다!!
해당 코드를 분석하던 중 궁금즘이 생겨 문의를 남깁니다.
ic| query.shape: torch.Size([128, 26, 256])
ic| key.shape: torch.Size([128, 33, 256])
ic| value.shape: torch.Size([128, 33, 256])
multattention레이어에 들어가는 query, key,value 값들을 출력을 해 보았는데
다음과 같이 가운데의 lenth가 다른 경우가 확인이 되어
서로 다른 문장들이 베치에 포함되어 있는 것으로 생각이 되는데 제가 생각하는 것이 맞을까요
48:31
친절한 설명 너무너무 감사합니다!!
와 설명 진짜 잘해주시네요.. 감사합니다.
동빈님 덕분에 Transformer에 대한 이해를 쉽게 할 수 있었습니다. 정말 감사합니다.
개쩐다...
목소리 이선균 닮음
나동빈!나동빈!나동빈!나동빈!나동빈!나동빈!
2등은 못참지
3등 가즈아