🔥성능이 놀라워요🔥 무료로 한국어🇰🇷 파인튜닝 모델 받아서 나만의 로컬 LLM 호스팅 하기(

테디노트 TeddyNote

มุมมอง 20 309

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 10 เม.ย. 2024
한국어 모델을 허깅페이스에서 다운로드 받아 Ollama 에 얹고, LangServe 를 사용하여 무료 호스팅 그리고 마지막으로 RAG 데모까지 진행합니다.
💻 소스코드: github.com/teddylee777/langse...
🤗 EEVE Korean Instruct 10.8B V1.0
huggingface.co/yanolja/EEVE-K...
🤗 EEVE Korean Instruct 10.8B V1.0(gguf)
huggingface.co/heegyu/EEVE-Ko...
📘 랭체인 튜토리얼 무료 전자책(wikidocs)
wikidocs.net/book/14314
✅ 랭체인 한국어 튜토리얼 코드저장소(GitHub)
github.com/teddylee777/langch...
⭐️ 강의 홍보 ⭐️
LangChain + ChatGPT + Streamlit 강의(VOD 강의)
아래에 사전 등록을 하시면 강의 오픈 후 알림을 발송해 드릴 예정이며, 할인 쿠폰도 같이 제공해 드립니다.
📍 LangChain + ChatGPT + Streamlit 강의 사전알림 신청 🙏🙏
링크: forms.gle/buoXoiey7YHrVXVq9
#yanolja #eeve #huggingface
---
📘 랭체인 한국어 튜토리얼(무료 전자책): wikidocs.net/book/14314
📝 테디노트(깃헙 블로그) : teddylee777.github.io
💻 GitHub 소스코드 저장소: github.com/teddylee777
🍿 LLM 프로젝트: llm.teddynote.com

ความคิดเห็น • 146

@seminarcrunchy 26 วันที่ผ่านมา ⁺¹
00:00 인트로
00:57 로컬 모델 사용 시 걱정거리
02:21 EEVE 모델 소개(야놀자 샤라웃)
02:43 구조 소개
04:00 GGUF 파일
04:49 야놀자 샤라웃2
05:15 Heegyu님 GGUF
06:25 다운로드 받고 modelfile
09:28 EEVE 모델 설치
10:42 Ollama에 올린 모델 테스트
11:34 LangServe 설정
12:30 설정 설명
13:01 서버 구동
13:35 asitop (GPU 모니터링)
16:45 다음 단계(활용)
17:44 Remote Chain(LCEL)
18:52 서버에 세팅하기
20:14 ngrok 포트 포워딩
23:01 llm runnable
24:18 번역기
25:05 remote runnable RAG
26:01 Streamlit 테스트
26:44 pdf RAG 테스트
@teddynote 26 วันที่ผ่านมา
감사합니다😱🙏
@teddynote หลายเดือนก่อน ⁺²⁹
소스코드는 정리해서 3시간 내로 업로드 해드릴께요~ 좋은 밤 되세요.
@stonkseal หลายเดือนก่อน ⁺¹
좋은 영상 너무 감사합니다!
@teddynote หลายเดือนก่อน
감사합니다~^^
@user-vj6bu9qy6h หลายเดือนก่อน ⁺¹
너무너무 잘봤습니다. 좋은 영상 감사합니다.
@teddynote หลายเดือนก่อน
네 시청해주셔서 감사합니다🙏🙏
@user-gf8eu1ip9j หลายเดือนก่อน ⁺¹
오~~~ 좋은 내용 감사합니다. 이런걸 찾고 있었는데요..
@teddynote หลายเดือนก่อน
저도요~ 이런걸 찾다가 영상으로 만들었습니다 ㅎ
@hyungsungshim5714 หลายเดือนก่อน ⁺¹
감사합니다!!
@teddynote หลายเดือนก่อน
감사합니다~🙏
@hyungsungshim5714 หลายเดือนก่อน ⁺²
내용이 너무 좋아서 바로 멤버쉽 가입했습니닷!! 감사해요~ 테디님!
@teddynote หลายเดือนก่อน ⁺¹
아이쿠 멤버십 가입 감사합니다 앞으로도 좋은 콘텐츠 업로드 하겠습니다🙏
@user-is8vt8rc2g หลายเดือนก่อน ⁺¹
좋은강의 재밌게 잘 보았습니다. 오늘도 많은 공부가 되었습니다. 감사합니다.
@teddynote หลายเดือนก่อน
도움이 되셨다니 다행입니다. 감사합니다 🙏
@happyloper หลายเดือนก่อน ⁺¹
와 호기심에 따라해봤는데 겁나 잘되네요 좋은 자료 감사합니다 👍👍
@teddynote หลายเดือนก่อน
도움이 되셨다니 다행입니다. 감사합니다~!
@user-pj3cx5cp9z หลายเดือนก่อน ⁺¹
제가 찾던 내용이네요 👍 👍 👍 입니다
@teddynote หลายเดือนก่อน
감사합니당👍👍
@no-jv9eb หลายเดือนก่อน ⁺¹
이걸 할려고 했었는데 정말 감사합니다.^.^
@teddynote หลายเดือนก่อน
👍👍 감사합니다~
@hunkims หลายเดือนก่อน ⁺⁶
설명 너무 잘 들었습니다. 멋진 강의입니다!
@teddynote หลายเดือนก่อน ⁺¹
제 눈을 의심했습니다! 존경하는 교수님께서 댓글 달아주시니 영광입니다. 교수님의 모두를 위한 딥러닝 듣고 많이 배웠습니다. 감사합니다🙏🙏
@user-qn8kp6mj8f หลายเดือนก่อน ⁺¹
오 이 댓글은 정말 귀하네요
@Leo-zd1nn หลายเดือนก่อน ⁺¹
훌륭한 강의 고맙습니다. 덕분에 맥북으로 로컬에서 빠르게 테스트해볼 수 있었습니다!
@teddynote หลายเดือนก่อน
축하드립니다!!👍
@aowert6518 หลายเดือนก่อน ⁺²
16:00 부터 맥북이 버거워 해서 캠도 끊기는게 웃기네요 ㅋㅎ
영상 항상 잘 보고 있습니다. 감사합니다~~!
@teddynote หลายเดือนก่อน
맥북이 너무 힘들어 합니다😭😭😭 시청 감사합니다🙏🙏
@bjkang70 หลายเดือนก่อน
감사합니다 :)
@teddynote หลายเดือนก่อน
네 저도 감사합니다 🙏
@user-wm5lj4kd6k 17 วันที่ผ่านมา ⁺¹
뭐야 당신 아낌없이 주는 나무...?
너무 감사합니다...
@teddynote 17 วันที่ผ่านมา
어멋?! 다 가져가세요🤤
@user-pj5ln5lv8v หลายเดือนก่อน ⁺²
역시 한국어 sllm 중에서는 eeve 모델이 요즘 인기가 있네요~
좋은 강의 감사합니다!
@teddynote หลายเดือนก่อน
인기가 있는데에는 이유가 있더라구요! 감사합니다🙏
@user-ji4mi1gi3z หลายเดือนก่อน ⁺¹
감사합니다.
@teddynote หลายเดือนก่อน
아이쿠 이렇게 큰 금액을...😭 감사합니다. 맛있는 거 사먹겠습니다😍
@user-uw1fm1bf5y หลายเดือนก่อน ⁺³
아니 ollama로 플젝하면서 낑낑대고 있었는데 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 고구마에 사이다 오졌습니다...
@teddynote หลายเดือนก่อน
ㅋㅋㅋㅋㅋ 감솨합니다.
@user-iy5yx7zy9v หลายเดือนก่อน ⁺²
영상 뚝뚝 끊기며.. 로컬임을 입증..
@teddynote หลายเดือนก่อน
😭
@iamcan13 หลายเดือนก่อน ⁺¹
잘봤습니다. m3 max 성능도 상당하네요!
@teddynote หลายเดือนก่อน
만족스럽습니다😍
@user-is9kp7ks4c หลายเดือนก่อน ⁺¹
영상 몇 일 동안 돌려보면서 간신히 따라해보았습니다. 정말 훌륭한 강의 감사합니다. ^^ 혹시 강의 이후에 한글 embedder로 rag 성능 비교를 해보신 적이 있을까요? embedder를 변경하는 것으로도 성능차이가 많이 나지는 않을까 궁금해서 질문드려 봅니다. 그리고 혹시 한국어 embedder로 추천해주실 만한 것이 있을까요?
@teddynote หลายเดือนก่อน ⁺¹
임베더를 어떤 임베더를 사용하느냐에 따라서 성능 차이가 있을 수 있습니다. 따라서, 직접 변경해 보시면서 테스트 해보시는 것이 중요한 과정 중에 하나라고 볼 수 있습니다. 공개된 무료 임베더 중에서는 BGE-M3 임베딩 괜찮은 것 같습니다!
@plannedhappenstance7594 หลายเดือนก่อน
@@teddynote 감사합니다. 말씀해주신 임베더를 포함해서 다양하게 시도해보겠습니다^^
@user-ji4mi1gi3z หลายเดือนก่อน ⁺¹
오 주피터 도커 갖다썼었는데 익숙한 닉네임이다 싶었는데 테디님이 만드신거였군요! 커스텀 해서 잘 쓰고 있습니다
llm까지 ㅎㅎ 감사합니다 gpt api콜 비용 아낄수도 있으려나요
4090 전기세랑 비교를 해봐야 겠네요 ㅋㅋ
혹시 토큰 최대 인풋 아웃풋 길이가 어떻게 되는지 아실까요?
@teddynote หลายเดือนก่อน ⁺¹
저도 이부분은 찾아봐야 하는데요. 베이스 모델인 SOLAR 가 입출력 4096개 였던 것으로 기억합니다. 따라서, 아마도 4096개일 것 같습니다. 이건 저도 정확하지 않으니 한 번 테스트해 봐야지 정확히 알 수 있을 것 같아요! 여기 llm.extractum.io/model/upstage%2FSOLAR-10.7B-Instruct-v1.0,5KwUWNTl8dKlCxQ8QeQtzZ 에서 SOLAR 모델의 스펙은 확인해 보실 수 있어요~
@Happybitman 19 วันที่ผ่านมา
@@teddynote❤
@ikkkiaffgesk หลายเดือนก่อน ⁺¹
너무 좋은강의 감사드립니다. 원격으로 서비스 하는 방법에 대해서 고민했는데 큰 도움이 되었습니다.
이 구성으로 폐쇄망에서 폐쇄망 내부로 서비스가 가능할까요?( 이건 당연히 제가 테스트 해봐야 하는건데 아직 실력이 안되어서 질문드리네요 ...)
그리고 M3 사양이 어떻게 되나요? 생각보다 응답 속도가 너무 빠른데요!!
@teddynote หลายเดือนก่อน ⁺¹
폐쇄망끼리는 서로 통신이 되면 문제 없을껍니다. 다만 이때 ngrok 대신 내부 아이피를 사용해야 하고요 방화벽이 해당 포트에 대해 열려 있어야 합니다.
M3 정말 빠르더라구요! 맥북 프로 M3 gpu 업그레이드 한 CTO 사양입니다. 굳이 맥북 아니더라도 양자화 모델이라서 GPU 달린 노트북이라면 어느정도 답변 속도는 빠른편입니다^^
@changjunlee2759 หลายเดือนก่อน ⁺¹
오늘도 좋은 내용이네요. 감사합니다. 혹시 프로젝트 하실 의향은 없으신가요?
@teddynote หลายเดือนก่อน
어떤 프로젝트인지 간략하게 말씀해 주실 수 있으시다면 teddylee777@gmail.com 이쪽으로 보내주시면 감사드리겠습니다🙏🙏
@changjunlee2759 หลายเดือนก่อน ⁺¹
@@teddynote 적절한 시점에 연락드려 보겠습니다.
@user-bf8nq3xt7t หลายเดือนก่อน ⁺²
좋은강의 잘 봤습니다!! 보던중 궁금한게 생겼는데 aws와 같이 리눅스환경에서도 이 영상과 같이 똑같이 따라하면 웹서버를 구축할 수 있을까요??
@teddynote หลายเดือนก่อน ⁺¹
넵 가능합니다! 방화벽 설정을 추가로 해야할 수는 있습니다!
@moonlinks 4 วันที่ผ่านมา ⁺¹
정말 감사합니다. 보여주신 대로 따라하기 코딩 하여 진행하였습니다.!!!
다시 한번 테디 님께 감사 드려요!!
다른 것들은 잘 진행 되었습니다. 최종으로 streamlit 에서 안되고 있어요.
윈도우 환경에서 진행해서 그런지 최종 streamlit 에서 pdf 문서를 등록하니
"PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?"
에러가 발생하여 poppler 를 설치 하고 환경변수에 등록 했지만 아직 오류를 해결 못하고 있습니다.
다른 윈도우 환경에서 작업하는 분들은 잘 되시나요?
@teddynote 4 วันที่ผ่านมา
poppler 윈도우 설치 가이드 아래 링크 한 번 참고해 보세요!!
blog.naver.com/kiddwannabe/222464734713
@user-xq9dk9ek4o หลายเดือนก่อน ⁺³
재현방법: ollama create 실행시
에러발생: Error: unknown parameter 'TEMPERATURE'
해결: Modelfile-V02을 참고, Modelfile의 TEMPERATURE을 temperature 로 변경
@teddynote หลายเดือนก่อน
감사합니다👍
@user-be7rz5ir6j หลายเดือนก่อน ⁺¹
강의 정말 잘 봤습니다. 마지막 streamlit 에서 구동할때 답변이 다 완성된 후에 나오는 것 말고 stream 형식으로 나오게 하는 방법도 설명해 주시면 감사라겠습니다(runnable 형태에서요)
@teddynote หลายเดือนก่อน
소스코드에 바로 업데이트 해놨습니다^^
@user-be7rz5ir6j หลายเดือนก่อน ⁺¹
Expected response header Content-Type to contain 'text/event-stream', got 'application/json'
변경하신 코드로 해보니 이런 메시지가... 뜨네요ㅠㅠ
@teddynote หลายเดือนก่อน
아마 도메인끝에 llm 안 붙혀서 그런 것 아닐까요? llm붙여보세요~
@teddynote หลายเดือนก่อน
@@user-be7rz5ir6j 방금 소스코드에 주석 상세히 붙여서 코드 업데이트 해놨으니 참고해 보세요~
@user-be7rz5ir6j หลายเดือนก่อน
@@teddynote 늦은시간까지 답변주셔서 감사합니다 ☺️
@Berony1004 26 วันที่ผ่านมา ⁺¹
15:56 영상 끊기는것만 봐도 로컬 데스크탑에서 잘 돌아가고 있음이 느껴집니다. 😁
@teddynote 26 วันที่ผ่านมา
컴퓨터가 많이 힘들어 하더라고요😭😭
@user-ul5vn6nc9k 21 ชั่วโมงที่ผ่านมา ⁺¹
안녕하세요!
좋은 영상 잘 봤습니다
이렇게 하면 사내 서버에 설치된 올라마를 통해서만 동작하는거죠?
외부와의 연결점(보안상 문제 관련)은 없는거죠?
@teddynote 19 ชั่วโมงที่ผ่านมา
네 사내에서 동작 가능하구요 프록시도 설정 가능합니다~ 보안은 모델 자체의 문제보다는 연결시 보안 설정만 잘 해주시면 문제 없을 것 같습니다^^
@brain.trinity หลายเดือนก่อน ⁺¹
모델을 ollama에서 run하고 serve하면 옵시디언의 Text Generator이나 Copilot같은 곳에서도 모델 이용하는것도 해보셨나요!
@teddynote หลายเดือนก่อน
네 방금 말씀해 주셔서 해봤는데~ 꽤나 잘 동작합니다! 아이디어 주셔서 감사합니다. 그리고 브라이언님 덕분에 옵시디언 입문해서 너무나 잘 활용하고 있습니다~ 앞으로도 꿀팁 얻으러 자주 가겠습니다~^^
@mingyukang6592 หลายเดือนก่อน ⁺¹
local에서 ollama를 사용하는 경우에도 비용이 발생하는 건가요? 만약 비용이 발생한다면, 비슷한 형식으로 한글 기반 서비스를 하고자 할때 license free로 사용해볼만한 모델 추천 부탁드려요.
@teddynote หลายเดือนก่อน
비용이 발생하지 않기 때문에 Ollama 에 사람들이 관심을 많이 가집니다. 오픈되어 있는 모델을 다운로드 받아서 구동하는 개념이구요. 다만, 컴퓨터에서 돌리게되면 전기를 많이 잡아먹어서 전기료 정도? 발생한다고 보시면 됩니다. 오늘 공유드린 EEVE 모델 추천 드립니다. 개인이 사용하는 것은 자유롭고, Apache-license 로 표기되어 있기는 한데요. 상업적인 이용이 궁금하시면 이 부분은 원저작자인 yanolja 개발팀에 문의해보시는 것이 정확할 것 같습니다~
@user-yj1nt8kg5c 28 วันที่ผ่านมา ⁺¹
테디님 늘 좋은 강의 감사 드립니다. 한 가지 질문이 있어 문의 드립니다. Streamlit 로컬 에서 구현 시, 혹시 한글 임베딩 관련해서 페쇄망인경우 추천 해주만한게 있을까요?? 밖에서는 잘 되었는데 폐쇄망인 곳에서는 PDF등록시에 계속 오류가 발생되어서요
@teddynote 28 วันที่ผ่านมา
안녕하세요! 혹시 langserve github에 업로드된 streamlit 예제에서 bge-m3 임베딩 사용하는 예제가 있는데요. 폐쇄망에서도 문제 없이 잘 동작하고 pdf 도 문제 없이 잘 임베딩 되는데요. 한 번 확인해 보시겠어요? 소스코드 링크 남겨드립니다.
github.com/teddylee777/langserve_ollama/blob/main/example/main.py
@teddynote 28 วันที่ผ่านมา
만약에 폐쇄망에서 안되는 이유를 찾자면 허깅페이스에서 모델 다운로드 할 때 막혀있을 수는 있을 것 같습니다. 이 부분은 외부망에서 다운로드 받아 놓으시고 그 다음부터는 폐쇄망으로 진행해 보십쇼~!!
@user-xh7wh8gj7z 12 วันที่ผ่านมา ⁺¹
안녕하세요 영상 감사드립니다.^^ EEVE 모델을 상업용으로 사용해도 되나요?
@teddynote 12 วันที่ผ่านมา
apache 2.0 라이센스를 따릅니다. 상업용 사용이 가능하나 제약이 있으니 사전에 확인해 보세요^^
@Withipad 14 วันที่ผ่านมา ⁺¹
너무 잘봤습니다. 다름이 아니라 궁금한게 있는데요... 윈도우에서도 되는 건가여?
@teddynote 14 วันที่ผ่านมา
네 가능합니다!
@Withipad 14 วันที่ผ่านมา ⁺¹
너무 설명이 잘되어있어서 rag전까지는 성공을 하였습니다. 그 rag를 하려면 임베딩을 openai로 한다고 하고 다른걸로 할수도 있다고 하셨는데 오픈소스로 되어있는것이 뭐가 있을까요?
@teddynote 14 วันที่ผ่านมา ⁺¹
@@Withipad 허깅페이스에 bge-m3 임베딩이 있습니다~ 한글 처리 능력도 우수한 편입니다
@Withipad 14 วันที่ผ่านมา ⁺¹
@@teddynoteㅠㅡㅠ 감사드립니드
@Withipad 13 วันที่ผ่านมา
한가지만 마지막으로 질문드리려고 합니다..
그 오프라인 환경에서는 절대 진행할수없는 프로젝트인가요??
Server.py를 오프라인에서 실행시켰더니,
에러가 뜨더라구요 랭체인 모듈에서 온라인으로 가져오는게 있는것 같던데용..
@nbright3700 หลายเดือนก่อน
좋은 강의 덕분에 로컬 RAG시스템을 구축하였습니다. 질문이 있는데요. Runnable을 쓸때 , 답변으로 참조 문서를 받을 수 있는 방법이 있나요? ConversationalRetrievalChain에서 return_source_documents=True 요 옵션으로 result['source_documents'] 이렇게 받았었는데 Runnable에서 PromptTemplate에 추가를 해줘 봤는데, 자꾸 에러가 떠서 어떤 참고 할 만한 방법이 있을까요?
@teddynote หลายเดือนก่อน
답변에 참조 받을 수 있어요. 프롬프트에 답변에 참조를 포함해 달라는 요청을 하게 되면 답변 문자열에 참조가 포함되어서 나오기도 하구요. key 값으로 받고자 한다면, json output parser 를 사용하는 방법도 있습니다. 위키독스에 json output parser 로 검색해서 튜토리얼 참고하시면 좋을 것 같아요~!
@nbright3700 หลายเดือนก่อน ⁺¹
감사합니다. 일단 따로 쿼리 날려서 검색해서 찾아 내었습니다. 알려주신 부분도 해보겠습니다.
@user-xh7wh8gj7z 4 วันที่ผ่านมา ⁺²
안녕하세요
로컬 서비스 세팅 후
윈도우에서 로컬, 리모트 접속해서 질문을 1개만해도 속도가 엄청 느립니다.
질문과 동시에 cpu 99%, 메모리 full, gpu는 거의 안먹습니다.
(노트북 사양 : i7 12세대, 16g, 내장그래픽)
혹시 이유가 있을까요?
@teddynote 4 วันที่ผ่านมา ⁺¹
네 외장 그래픽(엔비디아 계열) 이 달려있지 않으면 답변이 굉장히 느립니다. 빠른 출력을 위해서는 GPU가 필요합니다!!
@heejuneAhn หลายเดือนก่อน ⁺¹
감사합니다. ollama 로 돌린 것이랑 transformer 로 돌린 것이랑 성능 차이가 좀 있는지 찾아 봐야겠네요
@teddynote หลายเดือนก่อน
양자화 모델이기 때문에 양자화 수준에 따라 약간의 성능 차이가 발생할 수 있습니다~
@nalgut6387 หลายเดือนก่อน
야놀자의 한글모델로 번역하면 딥엘과 비교해서 어떤가요? ㅎㅎ
@teddynote หลายเดือนก่อน ⁺¹
일반 번역 수준은 훌륭합니다. 저는 나름 만족하면서 사용하고 있어요!
@WhiteHat7 หลายเดือนก่อน ⁺²
양자화 모델에서는 VRAM 12G 정도에서도 원활하게 돌릴수 있나요?
@teddynote หลายเดือนก่อน
제가 테스트 해본 환경이 mac 이라 단순 비교가 어렵겠지만 12G충분히 돌아갈 것 같습니다!
@Jbleeok 15 วันที่ผ่านมา ⁺²
멋지네요.
그런데, cmd에서 실행하면 확실히 빠르고 gpu 100% 먹는데, python server.js 하면 대답도 느리고 gpu 사용량도 안올라가는데 이유가 무엇일까요?
@netan81 15 วันที่ผ่านมา ⁺¹
앗 저도 이거에 막혀서 이것저것 찾아보는 중인 ㅠ_ㅠ CUDA 설정 server.py에 필요한거 같은데 어디다 해야할지 모르겠네요;;
@teddynote 14 วันที่ผ่านมา
cuda 설정이 잘 되어 있는지 확인해 보시겠어요?
@netan81 14 วันที่ผ่านมา ⁺¹
앗 이것저것 하다가 해결되었네요.
1. CUDA재설치(설치내용 자세히 보니 1개만 설치완료되고 나머진 전부 실패였음;;;)
2. 내장그래픽카드 바이오스 상에서 사용 안함
그나저나 특이하게 CMD상에서 llama3:70B는 cpu로 동작하네요. 작은모델은 GPU로 동작하는데;;;
@teddynote 14 วันที่ผ่านมา ⁺¹
@@netan81 70B 어떤 양자화 모델을 사용하였는지는 모르겠지만 vram 메모리가 GPU 1장으로는 감당하기 어려운 사이즈라면 못 올릴껍니다 ㅜ
@user-tt6ky7fx3k หลายเดือนก่อน ⁺¹
질문 하나만해도 gpu가 100%가 되어버리네요 만약애 gpt3처럼 서비스를 하려고한다면 컴퓨터가 무수하게 많이 필요할까요?
@teddynote หลายเดือนก่อน
VRAM을 더 큰 GPU를 사용할 수 있고요 정말 사용자가 많다면 더 많은 장비가 필요할 수 있어요. 클라우드 서비스를 이용하면 손쉽게 확장할 수 있을 것 같습니다! 그런데 돈은 많이 들죠 ㅜ
@jongminlee6691 หลายเดือนก่อน ⁺¹
안녕하세요, 정말 좋은 영상 감사합니다. 모두 다 성공했으나, stramlit 실행 후 PDF불러와서 질의할 때 계속해서 TypeError: 'CacheBackedEmbeddings' object is not callable 오류가 뜨네요... 혹시 해결방법을 알려주실 수 있으실까요?
@teddynote หลายเดือนก่อน
작성하신 코드도 남겨 주실 수 있을까요~?
@user-hh4ye5zt9l หลายเดือนก่อน ⁺¹
10B이면 상당히 VRAM이 많이 필요할텐데 어떻게 맥북에서 돌아가나요? 아무리 MAX라고 해도?
@teddynote หลายเดือนก่อน
양자화 모델이라서 가능합니다!
@yjshon4352 20 วันที่ผ่านมา ⁺¹
윈도우에서 cuda 설정하는 방법 알 수 있을까요. main.py에서 model_kwargs = {"device": "cuda"} 로 했지만 CPU를 사용하고 있어 질문드립니다 ㅠㅠㅠ
@teddynote 20 วันที่ผ่านมา ⁺¹
우선 윈도우에서 CUDA 설정이 되어 있으셔야 model_kwargs = {"device": "cuda"} 이걸 사용하실 수 있어요. 구글에 "Windows CUDA 설치" 키워드로 검색하셔서 설치 먼저 해보십쇼!!
@yjshon4352 19 วันที่ผ่านมา
답변 감사드립니다 맥은 다른 설정 없이 가능했는데 윈도우믄 별도로 설치가 필요하군요. 설치 진행해보겠습니다.
@naratteu 29 วันที่ผ่านมา ⁺¹
--local-dir-use-symlinks 가 기본값이 True이기때문에 False를 명시해야하는건가요? 그냥 다운로드하는건데 심링크가 굳이 어떻게 왜 연결되는건가용?
@naratteu 29 วันที่ผ่านมา ⁺¹
없으면 일단 ~/.cache/~ 경로로 간 후에 심링크를 거는군용
@teddynote 29 วันที่ผ่านมา
True로 설정하면 파일 크기에 관계없이 심볼릭 링크가 생성됩니다. False로 설정하면 파일이 캐시에서 복제되거나(이미 존재하는 경우) 허브에서 다운로드되어 캐시되지 않습니다!
@juanfortube 29 วันที่ผ่านมา ⁺¹
cuda는 미리 설치해야 gpu가 작동하는건가요? cuda설치없으니 gpu가안도눈거같아서요
@teddynote 29 วันที่ผ่านมา ⁺¹
맞습니다 cuda는 설치되어야 gpu 잡아서 동작합니다!
@user-bj9lt7fg8c 18 วันที่ผ่านมา ⁺¹
gguf 파일까지 다운 받았고 Modelfile 만드는것 까지는 했는데 ollama create를 하니까 Error: command must be one of "from", "license", "template", "system", "adapter", "parameter", or "message" 가 발생하는데 원인이 뭘까요?
@user-bj9lt7fg8c 18 วันที่ผ่านมา ⁺²
TEMPERATURE를 없애니까 해결되었습니다
@teddynote 18 วันที่ผ่านมา ⁺¹
옙 좋습니다 제가 temerature 빼고 업데이트 해놓을께요^^
@jkim6881 14 วันที่ผ่านมา
@@user-bj9lt7fg8c 계속 안되서 댓글 보고 해결 했습니다!!! ㅠㅠ
@user-hq1dg9ye6m หลายเดือนก่อน ⁺¹
혹시 EEVE-Korean과 LLaMA3하고 연동할 수 있는 방법이 있을까요??
@teddynote หลายเดือนก่อน
모델은 보통 둘 중 하나를 택1 하여 선택하여 진행하는 것아 일반적입니다. 보통은 둘 다 테스트 해보고 더 나은 모델은 택 1 합니다만, LLM 라우팅이라는 방식도 있습니다. 코드에 관련한 내용은 llama 가 한국어 질문은 eeve 가 답변할 수 있도록 할 수 있어요~
@user-bg7yw4yz5x 29 วันที่ผ่านมา ⁺¹
윈도우 사용자입니다. ollama run EEVE-Korean-10.8B:latest을 실행하면 llama runner process no longer running: 1 error:failed to create context with model 이라는 오류가 뜨는데, 뭐가 문제일까요?ㅠㅠ
@teddynote 29 วันที่ผ่านมา
ollama 가 구동 중이어야 하는데 어떤 이유에선지 실행중이 아니라는 메시지 같아요. 먼저 ollama serve 로 구동시켜 놓고 새로운 터미널에서 ollama run 명령어 실행해 보세요!
@user-bg7yw4yz5x 29 วันที่ผ่านมา ⁺¹
@@teddynote ollama serve 구동 후에 ollama run을 실행해봤더니 ollama serve를 구동했던 터미널에 아래와 같은 오류 메시지가 뜹니다..ㅠㅠ
ggml_backend_cuda_buffer_type_alloc_buffer: allocating 384.00 MiB on device 0: cudaMalloc failed: out of memory
llama_kv_cache_init: failed to allocate buffer for kv cache
llama_new_context_with_model: llama_kv_cache_init() failed for self-attention cache
llama_init_from_gpt_params: error: failed to create context with model 'C:\Users\Commeci\.ollama\models\blobs\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28'
{"function":"load_model","level":"ERR","line":410,"model":"C:\\Users\\Commeci\\.ollama\\models\\blobs\\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28","msg":"unable to load model","tid":"19392","timestamp":1714406828}
time=2024-04-30T01:07:08.795+09:00 level=ERROR source=routes.go:120 msg="error loading llama server" error="llama runner process no longer running: 1 error:failed to create context with model 'C:\\Users\\Commeci\\.ollama\\models\\blobs\\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28'"
구글링 해봐도 해결법이 나오지 않네요..ㅜㅜ
@teddynote 29 วันที่ผ่านมา
@@user-bg7yw4yz5x 메모리가 부족하다는 에러인 것 같아요. 이미 GPU 가 다른 프로세스에서 사용하고 있어서 가용할 수 있는 메모리가 작아서 에러났을 수 있습니다~
@user-bg7yw4yz5x 28 วันที่ผ่านมา ⁺¹
@@teddynote 와아..ㅠㅠㅠㅠㅠ 진짜진짜 감사합니다!!!!!!!! 덕분에 해결했습니다!!!!!!! 늦은 시간까지 도와주셔서 감사합니다 ㅠㅠㅠㅠㅠ 항상 많은 도움 받고 있어요!ㅠㅠ
@phillipkorea1 29 วันที่ผ่านมา
아직 오류가 너무 많네요
@hyunbaek4917 หลายเดือนก่อน ⁺¹
안녕하세요 영상 감사합니다.
생 초보가 따라하려고 하는데, 싸이트에서 GGUF 파일 받아, Modelfile 만드려는데, 자꾸 에러가 나네요
modelfile 확장자가 yaml 맞나요? 메모장에서 확장자를 yaml로 저장했습니다.
cmd 창에서 Modelfile 있는 폴더가서 "ollama create EEVE -f Modelfile 로 하면 파일을 못찾겠다고 하고,
Modelfile.yaml 로 치면 "no FROM line for the model was specified" 라고 하는 에러가 계속 뜨네요.
@teddynote หลายเดือนก่อน
1. Modelfile 은 별도 확장자가 없습니다 그냥 확장자 없이 Modelfile 이라고 만드시면 됩니다~
2. Modelfile 안에 내용을 입력해 주셔야 합니다 내용은 github.com/teddylee777/langserve_ollama/blob/main/ollama-modelfile/EEVE-Korean-Instruct-10.8B-v1.0/Modelfile
링크의 파일을 보시고 입력하시면 되는데요. 맨 위의 FROM 다음에 나오는 파일의 경로만 본인이 저장한 경로로 변경해 주시면 됩니다!
@hyunbaek4917 หลายเดือนก่อน
@@teddynote 감사합니다. modelfile 을 확장자 없이 만든다는 말을 이해못했었는데, 메모장이 아니라 툴 이용해서 만드니까 되네요!
@user-cg2kw2dt8k 12 วันที่ผ่านมา ⁺¹
안녕하세요. 항상 자료 감사히 보고 있습니다!
덕분에 LLM 도 손쉽게 호스팅이 가능하다는걸 알게 되었는데요.
혹시 임베딩 모델도 ollama - langserve 조합으로 remote 가 가능할까요?
가능하다면 한국어가 잘되는 임베딩 모델로
예시) db = Chroma(..., embedding_function=RemoteEmbedding("주소/embedding/", ...)
@teddynote 12 วันที่ผ่านมา ⁺¹
가능해요.
아래의 코드를 참고 해 주세요
from langchain_core.runnables import RunnableLambda
embedder = HuggingFaceEmbeddings(...)
runnable_embedder = RunnableLambda(afunc=embedder.aembed_documents)
add_routes(app, runnable_embedder)
깃헙 이슈에 올라온 내용도 같이 참고하시면 좋아요
github.com/langchain-ai/langserve/discussions/383
@user-cg2kw2dt8k 11 วันที่ผ่านมา ⁺¹
정말 감사합니다ㅠ
제한된 환경이라 api 방식 밖에 사용 못했는데 덕분에 여러가지 로컬모델도 시도해볼수 있겠네요!!😊
@JeongminYoo-rc5bl 11 วันที่ผ่านมา ⁺¹
혹시 ollama 아래 에러는 왜 뜨는건지 아실까요? 구글링해도 잘안나오네요
ValueError: Ollama call failed with status code 500. Details: {"error":"llama runner process no longer running: -1 CUDA error: the provided PTX was compiled with an unsupported toolchain.
current device: 0, in function ggml_cuda_compute_forward at /root/parts/ollama/build/llm/llama.cpp/ggml-cuda.cu:2212
err
GGML_ASSERT: /root/parts/ollama/build/llm/llama.cpp/ggml-cuda.cu:60: !\"CUDA error\""}
@teddynote 11 วันที่ผ่านมา
llama cpp 로 실행하셨나요?
@JeongminYoo-rc5bl 11 วันที่ผ่านมา ⁺¹
@@teddynote 아뇨 처음엔 ollama pull로 땡겨오다가 저 에러가 뜨길래 영상 방식대로 GGUF에서 가져왔는데 똑같은 상황입니다. CUDA 버전문제일까요? 참고로 12.2 버전입니다.
@teddynote 11 วันที่ผ่านมา
@@JeongminYoo-rc5bl CUDA 버전 문제일 수 있어요. 지원하는 CUDA 버전 한 번 확인해 보시고 지원하는 버전으로 한 번 설치해 보시겠어요?

ต่อไป

เล่นอัตโนมัติ

🔥원데이 세미나🔥 ~4/14일까지 신청. [GPT를 활용한 jupyter notebook 변환기]