ترانسفورمر و مکانیزم توجه | Transformer and Attention
ฝัง
- เผยแพร่เมื่อ 2 พ.ค. 2024
- شاید بشه گفت ایده transformer ها که تو مقاله Attention is all you need اومده، از جذابترین و پرکاربردترین معماریهای شبکه عصبی بودن تا جایی که اکثر مدلهای زبانی بزرگی که امروز میشناسیم از جمله ChatGPT و حتی بخش عمده ای از کاربردهای پردازش تصویر و ویدیو از این معماری استفاده میکنن. تو این ویدیو بیشتر میخواستم با ساختار و جزییات این مدل آشنا بشیم و اگر دیدم که این بحث میتونه جذاب باشه براتون توی ویدیوهای بعدی بریم برای پیاده سازی های مدل های بر پایه transformer ها و این ایده ها رو نزدیک کنیم به محصول نهایی.
مقاله Attention:
arxiv.org/pdf/1706.03762
دسترسی به ویدیوهای سایر نتورکها:
Alex Net
• مقاله شبکه عصبی الکس ن...
ResNet
• مقاله شبکه عصبی رزنت |...
VGGNet
• دیپ لرنینگ | VGGNet یا...
GoogleNet
• دیپ لرنینگ | گوگل نت و...
EfficientNet
• دیپ لرنینگ | Efficient...
U-Net
• مقاله شبکه عصبی یونت |...
آدرس کانالهای ارتباطی:
بلاگ مقالات به روز حوزه: ctdrs.ir/ds1111
وبسایت دپارتمان علم داده: cafetadris.com/datascience
کانال تلگرام تخصصی علم داده: @dslanders
id تلگرام من: @rezashokrzad
Great💫
موفق باشید
ممنون استاد از آموزش جذابتون. خسته نباشید. ✋
ممنون استاد ، بسیار عالی
بسیار عالی...ممنون
ممنون استاد شکرزاد عزیز. خیلی عالی بودش.
عالی
خیلی عالی بود استاد ممنون🙌
خیلی ممنون
👏👍🌻
عالی بود ❤
🙏🙏
🙏🙏💎
آقای شکرزاد به چه نحوی میتونم باشما ارتباط بگیرم ؟ در خصوص یه پژوهش شدیدن نیازمند راهنمایی و تجربه شما تو این زمینه هستم
خیلی مفید و آموزنده بود. ممنون برای انتخاب موضوعات به روز و توضیح شفافشون. این روش برای داده های text استفاده میشه. آیا میشه از این روش برای داده های time series (مثلا پیش بینی هوا و..) استفاده کرد؟
کلا مناسب آنالیز هر داده sequntial از جمله تایم سریز و تکست هستش. تا جایی که دیدم مدل پری ترین برای پیش بینی هوا به طور خاص روی هاگینگ فیس نیست ولی میتونی از مدل climateformer که ترکیب climate و اون تیکه فورمرش از ترنسفورمر اومده رو چک کنی
ممنون. قسمتی که خروجی positional encoding هست و میره به multi head attention چطور انجام میگیره؟ تبدیل به k,q,v میشه؟ k,q,v اول کار چه مقادیری هستن؟
۱. ترکیب پوزیشنال و input encoding با هم ضرب میشن توی سه تا ماتریس کویری، کی و ولیوو
۲. این سه تا ماتریس از قبل بر اساس ابعاد پیش فرض که همون d_k و…. تعریف شدن. چیزی تبدیل نمیشه. خودمون تعریفشون کردیم
۳. مقادیر اولیه هر سه تا رندمه ( معمولا از یه initializer معروفی مثل Glorot یا He استفاده میکنن)
اگه یک ویدئو از پیاده سازی هم باشه عالی تر میشه .