CONTEXT CACHING for Faster and Cheaper Inference

แชร์
ฝัง
  • เผยแพร่เมื่อ 25 ม.ค. 2025

ความคิดเห็น • 12

  • @alleskepler9526
    @alleskepler9526 2 หลายเดือนก่อน

    Bro u a gem

  • @heski6847
    @heski6847 4 หลายเดือนก่อน +1

    Thank you, as always very useful content!

  • @Rishab-l1u
    @Rishab-l1u 2 หลายเดือนก่อน

    How do we deal with hallucination resulting from our background info?

    • @TrelisResearch
      @TrelisResearch  2 หลายเดือนก่อน

      Take a look at my video on synthetic data generation. I cover it there.
      Unless I’m misreading your Q and it relates to caching?

  • @explorer945
    @explorer945 4 หลายเดือนก่อน +1

    How does it different from cachi7by UI libraries like chainlit where they use redis to store the embeddings of prompt and if it matches they return the previous response without even hitting the llm api. Which is better?

    • @TrelisResearch
      @TrelisResearch  4 หลายเดือนก่อน +1

      Howdy! What you're mentioning is embedding caching, which is a complete cache (i.e. the whole answer is stored and retrieved if there's a match).
      This here is kv cache embedding, it's partial embedding for LLM inference. When part of a prompt is being reused (and it has to be the first part), there are some intermediate values (k and v) that can be reused in the forward pass to generate the response.

    • @explorer945
      @explorer945 4 หลายเดือนก่อน

      @@TrelisResearch got it. why it has to first part? i couldn't quite get it from the video. Also, it is based on initial layers or end layers? how does it help with RAG architectures?

  • @MrMoonsilver
    @MrMoonsilver 4 หลายเดือนก่อน +1

    Do you think this will come to open source, self-hosted models?

    • @TrelisResearch
      @TrelisResearch  4 หลายเดือนก่อน +1

      Yup, I show SGLang (same approach for vLLM) in this video!

    • @MrMoonsilver
      @MrMoonsilver 4 หลายเดือนก่อน

      Super cool, thank you so much.