Evaluating LLM-based Applications

แชร์
ฝัง
  • เผยแพร่เมื่อ 25 ก.ค. 2023
  • Evaluating LLM-based applications can feel like more of an art than a science. In this workshop, we'll give a hands-on introduction to evaluating language models. You'll come away with knowledge and tools you can use to evaluate your own applications, and answers to questions like:
    - Where do I get evaluation data from, anyway?
    - Is it possible to evaluate generative models in an automated way?
    - What metrics can I use?
    - What's the role of human evaluation?
    Talk by: Josh Tobin
    Here’s more to explore:
    LLM Compact Guide: dbricks.co/43WuQyb Big Book of MLOps: dbricks.co/3r0Pqiz
    Connect with us: Website: databricks.com
    Twitter: / databricks
    LinkedIn: / databricks
    Instagram: / databricksinc
    Facebook: / databricksinc
  • วิทยาศาสตร์และเทคโนโลยี

ความคิดเห็น • 9

  • @AnandShah-ds
    @AnandShah-ds 7 หลายเดือนก่อน +3

    Evaluations aside, I really enjoyed the presentation. I was hooked. Great story-telling skills Josh. Thanks for sharing your experience. We count on volunteers like you to spread knowledge.

  • @ndamulelosbg8887
    @ndamulelosbg8887 3 หลายเดือนก่อน +1

    This is an exellent coverage of the challenging task of llm evaluatuon

  • @vaishnavipatil3319
    @vaishnavipatil3319 10 หลายเดือนก่อน +1

    Thank you for clearing this concepts. Would like to see more videos from you on evaluation frameworks, methods.

  • @ndamulelosbg8887
    @ndamulelosbg8887 3 หลายเดือนก่อน +1

    "Your opininon on LLMs does not matter" - I found this to be a great quote

  • @asfandiyar5829
    @asfandiyar5829 9 หลายเดือนก่อน +1

    Just what I was after. Thanks

  • @bharath_v
    @bharath_v 6 หลายเดือนก่อน

    Good One!

  • @manishsharma2211
    @manishsharma2211 9 หลายเดือนก่อน

    Good work

  • @SpartanPanda
    @SpartanPanda 8 หลายเดือนก่อน

    Great storyline

  • @threevia.travel
    @threevia.travel 4 หลายเดือนก่อน

    Very generic, expected something more tangible! Sounds common sense which might work or might not work