PEGASUS Explained!

Pattern Exploiting Training explained! | PET, iPET, ADAPET

Contrastive Clustering with SwAV

สรุปอัปเดต76part2!! 30จุดซ่อนบอลทั้งหมด Godlyชายหาดใหญ่และUGCฟรี toilet tower defense

พยาบาล ER เหนื่อยแค่ไหนต้องดู นาทีวิ่งไล่จับคนไข้หนีออกจากห้อง เหตุเกิดที่ รพ.โชคชัย จ.นครราชสีมา

ตอนจบ!!!! เอาชีวิตรอด 100วัน Hardcore Minecraft จากมหาสงครามซามูไร!!!!

Small Language Models Are Also Few-Shot Learners

Connor Shorten

มุมมอง 5 209

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 28 ก.ค. 2024
This video explains the latest work in Pattern-Exploiting Training. This paper shows that this distillation scheme from knowledge captured in pre-trained language models to discriminative classifiers can also work in the Few-shot setting. This is compared directly with GPT-3's performance using 32 labeled examples for different tasks like BoolQ or Winograde Schema. This is very interesting, but not a fair, apples-to-apples, comparison with GPT-3. Thanks for watching! Please Subscribe!
Paper Links:
Paper Link: arxiv.org/abs/2009.07118
First PET Paper: arxiv.org/pdf/2001.07676.pdf
Next Word Prediction Demo: github.com/renatoviolin/next_...
Hacker News Reaction: news.ycombinator.com/item?id=...
HuggingFace NLP Viewer: huggingface.co/nlp/viewer/?da...
GPT-3: arxiv.org/pdf/2005.14165.pdf
SimCLRv2 (if curious about semi-supervised knowledge distillation in vision): arxiv.org/pdf/2006.10029.pdf
Measuring Massive Multitask Language Understanding: arxiv.org/pdf/2009.03300.pdf
GenAug: arxiv.org/pdf/2010.01794.pdf
Efficient Transformers Survey: arxiv.org/abs/2009.06732
T5: ai.googleblog.com/2020/02/exp...
Thanks for watching!
Chapters
0:00 Introduction
1:17 Bold Headline on Hacker News
2:16 All Tasks are Language Modeling
3:15 Pattern-Exploiting Training Recap
4:40 Masked Word Prediction Demo
5:56 Iterative PET
6:38 Semi-Supervised Knowledge Distillation
8:05 Text-Input, Text-Output to All Tasks are Language Modeling
9:04 Datasets
13:28 GPT-3 Priming: Recap
14:56 PET vs. GPT-3
17:08 PET with Multiple Masks
18:27 Generative to Discriminative Models
วิทยาศาสตร์และเทคโนโลยี

ความคิดเห็น • 5

@dawwdd 3 ปีที่แล้ว ⁺¹⁰
Welcome back bro :)
@connorshorten6311 3 ปีที่แล้ว
Thank you so much!
@DistortedV12 2 ปีที่แล้ว
This is a great paper. I hope NLP heads in this direction (it seems like the most industry needed application)
@MrjbushM 3 ปีที่แล้ว ⁺²
Thanks for sharing your knowledge and understanding!!! 👍
@connorshorten6311 3 ปีที่แล้ว
Thank you so much! I hope you found this useful!

ต่อไป

เล่นอัตโนมัติ

PEGASUS Explained!

PEGASUS Explained!

Pattern Exploiting Training explained! | PET, iPET, ADAPET

Pattern Exploiting Training explained! | PET, iPET, ADAPET

Contrastive Clustering with SwAV

Contrastive Clustering with SwAV

สรุปอัปเดต76part2!! 30จุดซ่อนบอลทั้งหมด Godlyชายหาดใหญ่และUGCฟรี toilet tower defense

สรุปอัปเดต76part2!! 30จุดซ่อนบอลทั้งหมด Godlyชายหาดใหญ่และUGCฟรี toilet tower defense

พยาบาล ER เหนื่อยแค่ไหนต้องดู นาทีวิ่งไล่จับคนไข้หนีออกจากห้อง เหตุเกิดที่ รพ.โชคชัย จ.นครราชสีมา

พยาบาล ER เหนื่อยแค่ไหนต้องดู นาทีวิ่งไล่จับคนไข้หนีออกจากห้อง เหตุเกิดที่ รพ.โชคชัย จ.นครราชสีมา

ตอนจบ!!!! เอาชีวิตรอด 100วัน Hardcore Minecraft จากมหาสงครามซามูไร!!!!

ตอนจบ!!!! เอาชีวิตรอด 100วัน Hardcore Minecraft จากมหาสงครามซามูไร!!!!

กองทัพไทยภายใต้รัชสมัย ร. 10 - BBC News ไทย

กองทัพไทยภายใต้รัชสมัย ร. 10 - BBC News ไทย

What is Small Language Model? | Need for SLMs | GPTs in Laptop | Offline Language Models

What is Small Language Model? | Need for SLMs | GPTs in Laptop | Offline Language Models

Introducing the next evolution of generative AI: small language models

Introducing the next evolution of generative AI: small language models

How small Language Models in AI could reform Education | Roger Basler de Roca | TEDxSchaan

How small Language Models in AI could reform Education | Roger Basler de Roca | TEDxSchaan

Retrieval-Augmented Generation (RAG)

Retrieval-Augmented Generation (RAG)

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

How ChatGPT is Trained

How ChatGPT is Trained

CLIP: Connecting Text and Images

CLIP: Connecting Text and Images

Small Language Models: Same performance but cheaper?

Small Language Models: Same performance but cheaper?

Language Models For Software Developers in 17 Minutes

Language Models For Software Developers in 17 Minutes

มันจะเอาเฟสเรา เตือนภัย!!! มิจฉาชีพ จ้องแฮก facebook ล่าสุด 2024 ครูหนึ่งสอนดี แชร์ด่วน!

มันจะเอาเฟสเรา เตือนภัย!!! มิจฉาชีพ จ้องแฮก facebook ล่าสุด 2024 ครูหนึ่งสอนดี แชร์ด่วน!

วิธีเก็บข้อมูลให้ได้เยอะๆ (Storage)

วิธีเก็บข้อมูลให้ได้เยอะๆ (Storage)

When Companies Copy Each Other...

When Companies Copy Each Other...

How NVIDIA just beat every other tech company

How NVIDIA just beat every other tech company

CrowdStrike IT Outage Explained by a Windows Developer

CrowdStrike IT Outage Explained by a Windows Developer

EP.143 เกิดความบรรลัย อุบัติเหตุกับ Kiha183 อินเตอร์เน็ตจะไม่ได้เล่นแล้วเขมร ประมาทหรือคิดไม่ได้

EP.143 เกิดความบรรลัย อุบัติเหตุกับ Kiha183 อินเตอร์เน็ตจะไม่ได้เล่นแล้วเขมร ประมาทหรือคิดไม่ได้

It's very relaxing#desksetup #desk #desktop #venom #pickup

It's very relaxing#desksetup #desk #desktop #venom #pickup

ทำไมสายแท้ต้องเน่า แอปเปิลต้องการอะไรกันแน่ 😂😂😂

ทำไมสายแท้ต้องเน่า แอปเปิลต้องการอะไรกันแน่ 😂😂😂