오픈소스 LLM으로 RAG 시스템 만들기

모두의AI

มุมมอง 27 968

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 29 ธ.ค. 2023
오픈소스 LLM으로 RAG 시스템을 만들어봅니다. Colab 링크: colab.research.google.com/dri...

ความคิดเห็น • 81

@user-gf8eu1ip9j 5 หลายเดือนก่อน ⁺²
좋은 강의 감사합니다. 덕분에 LangChain에 대해 쉽게 이해할 수 있었습니다.
@user-sv4wz1vj1t 5 หลายเดือนก่อน ⁺³
혼자 공부하고 있는데 좋은 정보 감사합니다.
@seung-hoyoun6603 5 หลายเดือนก่อน ⁺²
원하던 내용인데 감사합니다. 🎉
@user-zb9pp2fy3g 5 หลายเดือนก่อน ⁺²
제가 원하던 강의입니다.
건강하고 행복한 새해 보내세요^^
@AI-km1yn 5 หลายเดือนก่อน
새해 복 많이 받으세요~ㅎㅎ
@Sam_Jang 2 หลายเดือนก่อน ⁺¹
초보가 따라하기에 너무좋은 설명들입니다. 감사합니다. 잘보고있습니다.
@AI-km1yn 2 หลายเดือนก่อน
도움이 되셨다니 감사합니다
@skcho-dt2ow 3 หลายเดือนก่อน ⁺¹
고맙습니다.
@user-xe2gd1su4g 4 หลายเดือนก่อน ⁺²
좋은 강의 감사합니다.
AI를 이제 시작하는 개발자입니다. AI개념도 낯설고 python도 이제 접해서 혼란스러운데 올려주신 강의가 도움이 되어 다시 한번 감사드립니다.
구독하고 파인튜닝 강의도 기다리고 있겠습니다. ~~
@AI-km1yn 4 หลายเดือนก่อน
좋은 말씀 감사합니다!
@user-hg2hk1ih8h 4 หลายเดือนก่อน ⁺²
감사합니다
@user-uw6nr1tr1i 3 หลายเดือนก่อน ⁺²
좋은 영상 감사합니다. 파인튜닝 관련 영상도 부탁드립니다.
@user-mp7fi4pq2d 5 หลายเดือนก่อน ⁺¹
좋은 설명 항상 감사드립니다. RAG도 좋지만, 궁극적으로 LLM모델에 대한 파인튜닝 강의도 해주시면 감사하겠습니다..
@user-hu9st3qj9r 5 หลายเดือนก่อน ⁺⁴
항상 좋은 강의 감사 드립니다.RAG 기반이 아닌 해당 LLM의 모델을 학습 시켜서 진행 하는 방법을 강의 해주시면 정말 감사할것 같습니다.
@AI-km1yn 5 หลายเดือนก่อน ⁺⁴
파인튜닝 기법도 한번 올려보겠습니다. 감사합니다
@white3634 2 หลายเดือนก่อน ⁺¹
우선 좋은 영상 감사합니다.
영상을 보던 중 의문점이 있었습니다.
보통 임베딩과 답변을 작성함에 있어서 같은 모델을 쓰는게 더 좋은걸로 아는데,
다른 모델을 사용한 이유가 있을까요?
@user-lt1ys5te7s 5 หลายเดือนก่อน ⁺¹
이번에도 좋은 강의 감사합니다~ RAG 시스템에서 참조할 문서들이 ko,en 혼합되어 있는 경우에 대해서도 강의가 있었으면 좋겠습니다!
@AI-km1yn 5 หลายเดือนก่อน ⁺²
기본적으로 한글 임베딩 모델로도 어느정도 잘 작동합니다 :) 기존 사전학습 모델이 구글에서 개발한 bert이기 때문에 영문 데이터셋으로 1차 대규모 학습되어서 그럴겁니다
@user-lt1ys5te7s 5 หลายเดือนก่อน
아~ 그렇군요ㅎㅎ 참고하겠습니다 감사합니다!
@jbk9913 9 วันที่ผ่านมา
정말 이런거 하는 사람들 대단한듯. 어떻게 저런걸 다 외우지.
-그냥 유투브에 떠서 영상 보고 하나도 이해못하고 가는 일인-
@jeongjunahn4555 5 หลายเดือนก่อน ⁺¹
항상 영상 보면서 열심히 공부중입니다. vllm이 속도가 엄청빠르다고 하던데 vllm과 langchain 속도비교도 기회되면 콘텐츠에 추가해주시면 감사하겠습니다!!!
@AI-km1yn 5 หลายเดือนก่อน
네 감사합니다!
@MovementFAV 2 หลายเดือนก่อน
메타가 이걸 또 해냅니다. 람마3 오픈소스 개이득! 저크녀석 좋았다리
@user-qb2rf3df6u 5 หลายเดือนก่อน ⁺¹
안녕하세요 :)
좋은 강의 영상 감사합니다~!! 정말 큰 도움이 되었습니다.!!
혹시 rag 시스템에서 답변 생성시, vector DB를 참조하는 정도를 조절하는 parameter가 있을까요??
테스트 결과, general한 질문임에도 너무 vector DB를 참조해서 답변하려는 성향이 강해 이를 조절하는 방법이 있을까 해서요..!!
@AI-km1yn 5 หลายเดือนก่อน ⁺¹
현재 시스템 프롬프트, 온도에 따라 답변이 바뀌는 건 확인했는데 아직 조절이 잘 안돼서 애를 먹고 있습니다 ^^;; 조금 더 공부해보고 해결책이 보이면 공유드리도록 하겠습니다.
@AI-km1yn 5 หลายเดือนก่อน ⁺³
Chroma의 similarity_search_with_score 함수를 활용하면 유사 문서 검색시 유사도도 함께 뱉어주는데요, 이 점수를 활용하여 threshold를 정해주고 이를 기반으로 유사 문서 검색을 조금 더 타이트하게 잡아보시죠
@user-qb2rf3df6u 5 หลายเดือนก่อน
넵 한번 시도 해보겠습니디.!!
답변 감사합니다😊
@user-bb4rx7xz8x 3 หลายเดือนก่อน ⁺¹
좋은 강의 정말 감사합니다!!
질문이 하나 있습니다~~
내부망에서 이와 같이 오픈소스 LLM으로 RAG 시스템을 구축하려고 합니다!
인터넷은 아예 연결이 되지 않는 상황인데 model-id는 임의 지정을 하면 될까요?
필요한 GPU, 개발환경과 라이브러리들은 구축이 가능한데 모델도 로컬환경에 탑재한다면
시스템 구성에 문제가 없을까여??
@AI-km1yn 3 หลายเดือนก่อน
로컬로도 실행 가능하십니다.
@user-cf2le4zl8n 9 วันที่ผ่านมา
안녕하세요. 강의를 잘보고 있습니다. 질문이 있는데요. HuggingFace 사이트에서 model_type이 pretrained, instruction-tuned, RL-tuned 저렇게 3가지로 구분되던데, 어떤 기준으로 선택하면 될까요?
@user-sv4tn9oe8h 5 หลายเดือนก่อน
한국어로 된 오프소스 llm을 이용해서 랭체인을 활용하는 방법이 무척 궁금했는데, 정말 감사합니다. 아직 제가 잘 모르는게 많아서 여쭤보고 싶은데요. 챗지피티 등을 활용하지 않고 랭체인을 이용해서 rag 시스템을 만드는게 보안을 위해서 라고 본 것 같은데, 구글 코랩을 이용해서 작업을 하게 되면 결국 보안이 필요한 자료가 구글에 넘어가는 건 아닌지 궁금합니다.
@AI-km1yn 5 หลายเดือนก่อน
랭체인은 보안을 위해서 사용하는것은 아니구요, LLM 활용도를 높이기위한 프레임워크라고 보시는게 좋습니다. 그리고 로컬 pc의 사양만 좋다면 로컬에서 실행하여 보안도 지킬수있습니다
@user-tr7hn6ms4k 3 หลายเดือนก่อน ⁺¹
안녕하세요 RAG 관련 정보가 없어 많은 도움이 되었습니다. 감사합니다!
그런데, sLLM모델을 kyujinpy/Ko-PlatYi-6B 외의 다른 모델 (beomi/polyglot-ko-12.8b-safetensors, nlpai-lab/kullm-polyglot-12.8b-v2) 등을 활용하면 오히려 이해하기 힘든 대답을 생성하는 경우가 많았습니다.
혹시 sLLM모델에 선택에 대한 팁이 있을까요?
@AI-km1yn 2 หลายเดือนก่อน
저도 다른 모델 대비 해당 모델 답변이 그나마 좋았네요ㅎㅎ... 그냥 하나씩 테스트해보는수밖에 없는것같습니다. 아니면 ko leaderboard에서 가장 중요한 지표를 기준으로 정렬해서 테스트해보셔도 좋겠습니다
@nauryu 5 หลายเดือนก่อน ⁺¹
선생님 영상 감사합니다.
질문을 드려도 될지 모르겠습니다.
LLM에 관심이 많아 선생님 채널을 구독하고 간간히 영상을 보고 있었습니다.
그렇지만 실력과 지식이 미천하여 이해하고 실행하는데 어려움을 겪고 있었습니다.
그러던중 이번에 올려주신 이 영상을 보고 자신감이 생겨 콜랩이 아닌
제 컴퓨터에 세팅을 하려고 몇번의 시도를 하였으나
bitsandbytes가 쿠다와 문제가 있는지 버전을 낮춘다던가 혹은
파이썬부터 모든 것들을 다시 설치하여도
결국엔 쿠다와 bitsandbytes 부분에서 문제가 발생하여
진행이 되고 있지 않습니다.(그래픽 카드 미발견)
제 시스템의 사양을 간단히 말씀을 드리면
- 윈도우10
- i7 13세대
- 램 64
- 그래픽카드 4080
입니다.
며칠 째 시도를 해도 되지 않아 고견을 여쭙니다.
@AI-km1yn 5 หลายเดือนก่อน ⁺¹
컴퓨터에 세팅하실때는 Ollama라는 패키지를 한번 사용해보시지요. 많은 유튜버분들이 해당 라이브러리 활용법 강의영상도 올려놔서 러닝커브가 높지않슴니다 :)
@nauryu 5 หลายเดือนก่อน ⁺¹
@@AI-km1yn
감사합니다. 좀전에 글을 올렸는데 보시고 바로 답변을 주셨네요. 정말 감사합니다.
바로 해보도록 하겠습니다. 감사합니다^^
@goodgood3364 3 หลายเดือนก่อน
문제 해결하셨나요? 저도 같은 문제에 직면했습니다.
@user-yo5zz2li9e 5 หลายเดือนก่อน ⁺¹
정말 좋은내용 감사합니다 선생님! 혹시 AI허브에서 받은 기계독해 데이터(원천/라벨링데이터)를 이용해서 해당 데이터에 대한 질문/답변이 가능한 모델을 만들 방법도 있을까요?
@AI-km1yn 5 หลายเดือนก่อน
네 가능합니다!
@user-zb9pp2fy3g 4 หลายเดือนก่อน ⁺¹
colab에서 작성한 것을 직원들이 함께 이용하고 싶은데 방법을 부탁드립니다.
@jh7529 5 หลายเดือนก่อน ⁺¹
항상 강의 잘 보고 있습니다. 혹시 LLM에서 질문에 대한 답변이 반복적으로 나올때 왜 그런지 알 수 있을까요? 혹 대처방법은 템퍼러쳐를 조절한다든가의 방법이 있는지 질문드립니다.
@AI-km1yn 5 หลายเดือนก่อน ⁺¹
오픈소스 LLM, 특히 토종 오픈소스 LLM은 아직 성능이 부족한 경우가 많아 템퍼레쳐를 조절하더라도 잘 안될 수 있습니다. 그래도 Temperature, max token, chunk size, retriever 등 다양한 모듈들을 조절해보시면서 결과를 개선시켜나가시면 좋습니다
@jh7529 5 หลายเดือนก่อน
@@AI-km1yn감사합니다 매번 강의기다리고 있습니다 ㅎㅎ 큰 도움주셔서 감사합니다
@user-xe2gd1su4g 4 หลายเดือนก่อน
안녕하세요. 올려주신 소스코드를 Colab에서 실습중입니다.
pdf 내용으로 답변은 잘되는데요. 다만 토큰이 300이라 그런지 답변이 다 출려되지 않는거 같아요
max_new_tokens=1000 로 변경하니 , 답변이 다 나오긴 하는데요...
답변이 다 나오게 하려면 어떤 방법으로 해야 하는지 궁금합니다. ~~~
@AI-km1yn 4 หลายเดือนก่อน
처리하신대로, max_new_tokens값으로 답변의 길이를 선택하실 수 있습니다. 다만 원래 오픈소스 모델의 경우, 특히 7B 이하의 모델의 경우 만족할만한 답변 품질, 길이를 모두 얻기는 쉽지 않습니다.
@user-cc3fj9pi1h 5 หลายเดือนก่อน ⁺²
선생님. 좋은 강의 감사합니다. 혹시 해당 llm 모델 및 코드들 windows에서도 돌아가나요?
@AI-km1yn 5 หลายเดือนก่อน
Window에서 돌리는 것은 무리가 없으나 GPU가 있어야 구동가능합니다.
@user-cc3fj9pi1h 5 หลายเดือนก่อน ⁺¹
@@AI-km1yn 답변 감사합니다.
여러 방면으로 활용하고자 colab이 아닌 local(window)로 해봤으나ㅡ 제 경우에는 되지 않아서 wsl2(ubuntu)로 진행해서 잘 됐습니다.
또한, 선생님의 이전 강의 영상들을 함께 활용해서 이번 코드에서 사용된 LLMChain 대신 ConversationalRetrievalChain으로 바꿔봤습니다.
되게 오래걸렸네요ㅠ langchain 깃헙 코드도 되게 복잡하고 해서.. 여튼 감사합니다 좋은 경험이 됐습니다.
다른 분들도 window로 하신다면 wsl로 해보세요~~
@user-zb9pp2fy3g 5 หลายเดือนก่อน
@@user-cc3fj9pi1h 우분투로 어떻게 하셨는지 구체적으로 알려주세요. 감사합니다^^
@user-cc3fj9pi1h 5 หลายเดือนก่อน
@@user-zb9pp2fy3g wsl2(ubuntu)로 하면 공유된 colab 코드들 (!pip install ~ 포함) 다 에러없이 됩니다!
@user-ov1jv9ji5o หลายเดือนก่อน
영상 화면의 글이 안보이는데 잘보이게 해줄 수 없는지요?
@goodgood3364 2 หลายเดือนก่อน ⁺²
코랩에서 한달전에는 잘 실행되었는데 1주일 전에 같은 코드를 실행해보니 4단계에서 안되요.
@user-jf6xr6mu6e 4 หลายเดือนก่อน ⁺¹
좋은 강의 감사합니다.
하지만 마지막에 질문을 했을 때 답변이 예 또는 아니오 밖에 출력이 되지 않는데 어떻게 하면 영상처럼 길게 대답을 해줄까요?
@AI-km1yn 4 หลายเดือนก่อน
오픈소스 LLM의 경우 파라미터 수가 늘어날수록 답변의 안정성과 길이가 늘어납니다. 제가 예시로 보여드린 모델은 6B로 상당히 작은 모델이라, 하드웨어 여유가 되신다면 13B, 70B모델 활용해보시면 좋겠습니다
@AI-km1yn 4 หลายเดือนก่อน ⁺¹
프롬프트나 temperature값에 따라 답변 품질이 달라지기도 하니 이거 먼저 한번 변경해보세요 ㅎㅎ
@qqqsemk 5 หลายเดือนก่อน ⁺¹
좋은 영상 감사합니다
그런데 중간 모델을 불러온 후 잘 작동되는지 테스트 하는 부분에서 질문 다음의 [SYSTEM] 답변이 출력되지 않습니다..
은행의 기준 금리에 대해서 설명해줘 [/INST] 로 끝나버립니다 혹시 원인을 알 수 있을까요?
@AI-km1yn 5 หลายเดือนก่อน
다시 로드해서 재실행해도 안되실까요?
@joomango4880 4 หลายเดือนก่อน
저도 똑같은 현상을 겪고 있습니다 endoftext 이후 답변이 출력이 안되네요
@user-ov1vq1yc1d 3 หลายเดือนก่อน
@@AI-km1yn 저도 같은 현장을 겪고 있습니다
@user-ov1vq1yc1d 3 หลายเดือนก่อน ⁺¹
좋은 영상 감사합니다.
궁금한게 있는데 똑같은 코드를 실행해도 저는 왜 답변에서 answer: true 라고만 나오는지 궁금합니다.
@user-ov1vq1yc1d 3 หลายเดือนก่อน
또한, 4단계의 은행기준금리에 대해서 설명해줘라는 것에도 코드는 실행되지만 답변이 생성되지는 않습니다
@AI-km1yn 3 หลายเดือนก่อน
작은 오픈소스 모델 특성상 답변이 온전치 않을수있습니다.
@user-er4hf3gh5j หลายเดือนก่อน
경랑화 모델 로드하기에서 아래와같은 에러메세지가 뜨는데 왜이러는지 알수있을까요
구글 colab에서 L4 GPU 런타임으로 돌리구 있습니다.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
@terry007x 28 วันที่ผ่านมา
올리신 내용은 error 가 아니라, warning 이에요. 신경이 쓰이시면... transformers.logging.set_verbosity_error() 으로 error 만 출력하게 할 수 있습니다.
warning 이유는 kyujinpy/Ko-PlatYi-6B 모델이 미세 조정 될 때 쓴거랑 똑같은 단어장으로 모델 돌리는거냐?하고 확인하는 정도에요.
@nbright3700 5 หลายเดือนก่อน ⁺¹
혹시 로컬 컴퓨터로 돌리다 보니까. Cuda에 대한 셋팅이 궁금합니다. 에러가 자꾸떠서요.
@AI-km1yn 5 หลายเดือนก่อน
로컬에 GPU가 없으시다면 device를 cpu로 설정하셔야 됩니다.
@nbright3700 5 หลายเดือนก่อน
@@AI-km1yn RTX 4090 을 쓰고 있어서요 함 해볼라고 했는데 pytorch 하고 cuda 설정등을 잘 몰라서 헤메고 있습니다.
@nbright3700 5 หลายเดือนก่อน
@@AI-km1yn RTX4090으로 Ubuntu-wsl-cuda12.1 에대 올려서 예제를 돌려 봤습니다. 일단 구동해서 답변은 내놓고 있습니다. 감사합니다.
@WhiteHat7 5 หลายเดือนก่อน ⁺¹
개인용 PC에서 서버를 구성해 돌린다고 했을때 사양은 어느정도가 되어야 할까요..?
@AI-km1yn 5 หลายเดือนก่อน
Rtx 3080 RAM 16gb이면 양자화 모델 돌리기에 적절할 듯 합니다 :) 실습 파일 돌려보시면서 램이 얼마나 필요한지 확인해보시고, 속도도 경험해보시면 감이 오실 것 같습니다. 제 경험 상으론 RAM 16기가는 되어야 모델 로딩과 구동에 무리가 없고 3080 이상은 되어야 답답하지 않은 속도가 나올 것 같습니다
@WhiteHat7 5 หลายเดือนก่อน
이번에 오픈소스 LLM으로 RAG 시스템 구축해 보려고 4070ti에 RAM 64G 주문했는데 사양상으로는 충분하군요
이런 강의 만들어주셔서 감사합니다.
@user-rl9ns5qb4o 5 หลายเดือนก่อน
@@AI-km1yn 모두의AI님이 말씀하신 16RAM이 VRAM 말씀하신거죠? 질문자 님이 말씀하신 64 RAM은 일반 RAM인것 같고요. 4070ti VRAM 12G, 16G 두가지 인것 같은데 16G를 구매하셨으면 합니다. LLM 7B 모델들이나 stable diffusion XD 모델들 돌릴 때 VRAM size 아쉬움 크게 느껴집니다. 저는 4060ti VRAM 16G 사용 중입니다. 7B 모델들은 양자화 없이 돌리고 있습니다.
@hyeonsoo 3 หลายเดือนก่อน ⁺¹
안녕하세요
CPU만으로도 RAG시스템을 만들 수 있을까요?
@AI-km1yn 3 หลายเดือนก่อน
네. LLaMa cpp에 대해서 공부해보시면 좋겠습니다
@ombb3576 3 หลายเดือนก่อน ⁺¹
왜 저는 4단계에서 답변이 안나오는지 모르겠습니다...
@AI-km1yn 3 หลายเดือนก่อน
더 좋은 모델을 쓰시면 잘 나올수도있습니다.
@igimbak 2 หลายเดือนก่อน
저도 아예 답변이 안나오네요
@nbright3700 5 หลายเดือนก่อน ⁺¹
감사합니다. 제가 원하는 강의 입니다. 좋은강의 매번 감사합니다.
여기다가 Streamlit 서비스 할 수 있는 부분을 해볼려고 합니다. 모르면 질문 올리도록 하겠습니다.
@user-zb9pp2fy3g 4 หลายเดือนก่อน
Streamlit으로 웹서비스 하셨는지요. 감사
@nbright3700 4 หลายเดือนก่อน
@@user-zb9pp2fy3g 네. 여기 선생님이 이전에 만들어 주신 영상을 보고 따라서 만들었고, 모델을 교체 하는 방식으로 했는데, 실력이 미천 하여 한번만 답변을 주고 이후 좀 에러를 못잡고 있어요.ㅠ.ㅠ

ต่อไป

เล่นอัตโนมัติ