Understanding the Llama 3 Tokenizer | Llama for Developers

แชร์
ฝัง

ความคิดเห็น • 15

  • @loabrasumente2283
    @loabrasumente2283 3 หลายเดือนก่อน +9

    TLDR
    - from llama 2 to llama3 they switched from sentencepiece to tiktoken
    - vocab size 32k -> 128k
    - ~15% fewer tokens for english, ~50% fewer for "some other languages"

    • @prasannakumar7035
      @prasannakumar7035 2 หลายเดือนก่อน

      adding to the list
      compression ration played a vital role in reducing the token length

  • @parvesh-rana
    @parvesh-rana 3 หลายเดือนก่อน +3

    Aston please explain the attention mechanism , Actually I am stuck in the chapter "Attention and transformer" of your book d2l

  • @therobotocracy
    @therobotocracy 28 วันที่ผ่านมา

    My instinct is tokenization is underestimate in importance. Usually the hard and boring fundamentals are where the magic happens. Across all fields.

  • @anirbansen7132
    @anirbansen7132 2 หลายเดือนก่อน +1

    Informative

  • @kaushilkundalia2197
    @kaushilkundalia2197 4 วันที่ผ่านมา

    Is the Llama 3 paper out yet? He mentions it @ 24:02

    • @AIatMeta
      @AIatMeta  วันที่ผ่านมา

      Yes! You can read the Llama 3 research paper here: ai.meta.com/research/publications/the-llama-3-herd-of-models/

  • @stephennfernandes
    @stephennfernandes 3 หลายเดือนก่อน

    could someone from the meta LLaMa 3 team please explain how to train my very own tiktoken tokenizer like you guys did for llama 3. there is no opensource steps to recreate this

  • @Sashvinth
    @Sashvinth 2 หลายเดือนก่อน +1

    You develop Tamil language for Tamil users

  • @HamedSoheili-q4r
    @HamedSoheili-q4r 2 หลายเดือนก่อน +2

    so this guy is payied to use open sourced tiktoken

  • @maksymkyiv1111
    @maksymkyiv1111 3 หลายเดือนก่อน

    ok.

  • @Windowsmakes
    @Windowsmakes 2 หลายเดือนก่อน

    x

  • @inteist
    @inteist หลายเดือนก่อน

    Classic example of a provably smart guy not being able to express his thoughts... 5 minutes of pain is all I managed to force myself to watch. A shame.

  • @user-wr4yl7tx3w
    @user-wr4yl7tx3w 3 หลายเดือนก่อน

    i don't think this format works unless the intent is to discuss at a high level.