DPO: Reward Model없이 사람선호를 학습할 수 있을까?| NeurIPS 2023 | 이승현

แชร์
ฝัง
  • เผยแพร่เมื่อ 16 พ.ค. 2024
  • NLP+AI 분야 커리어 컨설팅/논문 함께 읽기 멘토링
    - inf.run/BFSu
    발표자: 이승현
    발표자료: drive.google.com/file/d/1iXjq...

ความคิดเห็น •