Teknik optimasi Deepseek yang nice one 🔥
ฝัง
- เผยแพร่เมื่อ 6 ก.พ. 2025
- di video kali ini kita membahas salah satu teknik policy yang membuat deepseek bisa sangat keren
referensi:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning : arxiv.org/pdf/...
Training language models to follow instructions with human feedback: arxiv.org/abs/...
DeepSeekMath: Pushing the Limits of Mathematical
Reasoning in Open Language Models: arxiv.org/pdf/...
komunitas discord kelas terbuka dan WPU:
/ discord
/ discord
Dukung Channel ini untuk terus berkembang dengan cara:
memberikan kritik, saran perihal konten
atau kamu bisa membuat pertanyaa dengan menambahkan issue disini: github.com/slo...
atau dukung dengan hantam konten kreatornya dengan saweran kalian disini: saweria.co/slo...
informasi lain:
instagram : / arfy.slowy
github: github.com/slo...
background song (lofi):
Chillpeach - In Dreamland : • [no copyright music] '...
#deepseek #llm #reinforcementlearning