감사합니다 덕분에 처음으로 성공했습니다 diff 해보겠다고 몇날 며칠을 정보를 찾아봐도 제대로 정리된 곳은 여기밖에 없었습니다 후발주자들을 위해 보면서 이해 안가서 한참 헤맸던 부분을 말하자면 1.사전 프로그램 설치 링크는 전부 더보기란의 링크에 들어가면 모여있습니다. 특히 ffmpeg 설치할때 구글에서 검색해서 들어가면 영상의 저건 안나오고 요상한것들만 나옴 2.4번항목 프로젝트 다운 시 압축을 C드라이브가 아닌 다른 드라이브에 풀어버리면 프롬프트를 열고 d: 라고 입력후 진행하셔야 합니다. 안그러면 C드라이브에서 진행하려 듭니다 3.잘 보면 학습 환경 세팅시 영상의 과정과 더보기 링크의 과정이 좀 다름. 필자는 링크의 내용을 따라했을때 문제가 없었으나 어느것이 맞는지는 아직도 모름 4.8:10 갑자기 튀어나오는 raw폴더의 test.wav 파일은 원하는 목소리가 아니라 대본이 될 파일입니다. 학습 데이터처럼 따로 배경소리 제거,시간 조절등의 과정을 거쳐야 하기 때문에 전처리 과정에서 대본을 같이 넣어뒀다가 전처리 완료 후 대본파일들만 빼내서 여기 넣어도 괜찮을듯
dofig대로 폴더들 새로 만들고 python run.py --config training/config_nsf.yaml --exp_name test --reset 실행하면 ImportError: cannot import name 'kaiser' from 'scipy.signal' (C:\Users\Administrator\anaconda3\envs\diffsvc\lib\site-packages\scipy\signal\__init__.py)같은 오류는 저만 나오나여?
안녕하세요 영상 잘 보고있는 팬치입니다. 혹시 영상에서 활용하신 audio demixing 기능에 관심이 생겨 공부하려고 해봤으나 저의 힘이 부족하여 끝내 해내지 못하였습니다. 혹시 해당 기술을 공부하셨을 때 사용하셨던 사이트나 코드가 있다면 알려주실 수 있으실까요..?
@@최고다비챤 audio demixing 기술을 활용한 프로젝트로 반응 영상 모음집을 자동으로 만들어주는 프로그램을 제작하려고 합니다. 그런데, demucs를 사용해서 반응만을 분리하려고 했으나, 노래 부르는 목소리와 반응이 보컬로 같이 분리되었습니다. 혹시 최고다비챤님께서는 어떤 방식으로 반응만을 분리하셨나요?
프로그램 설치 및 코드 다운로드 0:00 1. 아나콘다 설치 0:33 2. ffmpeg 설치 1:31 3~4. CUDA 설치, 프로젝트 다운로드 1:58 5. Hubert checkpoint 다운로드 학습환경 세팅 3:11 1~2. anaconda prompt열고 프로젝트 폴더로 이동 3:24 3. anaconda 가상환경 생성 및 활성 3:46 4-1. pytorch-cuda=11.6 설치 4:17 4-2~3. 추가 라이브러리 설치 4:46 5. 환경변수 세팅 학습용 데이터 준비 5:01 1. preprocess 폴더 만들고 학습에 사용할 데이터 넣어주기 5:12 3. 데이터 전처리 5:28 4. 데이터 옮기기 6:00 5. 학습 configure 설정 6:26 6. 학습에 사용할 수 있게 binarize 모델 학습 및 결과물 뽑기 6:56 1. 학습 코드 실행 7:29 2. 학습 끝 결과물 뽑기
AI 보컬 유튜브 검색하고 찾다가 여기까지 오게 됐어요 날 잡아서 시도해야 할 거 같아요 도스 창만 보여 어려워 보이지만 따라서 천천히 해보려고요 성공하겠죠^^? 2070 20시간 하셨으니 초행길 초보라 그래픽카드 1080 이니 2틀 걸릴까요 중간에 쉬었다가 나눠서할까봐 걱정도 돼내요 ㅎㅎ
@@최고다비챤 requirements텍스트 설치시에 오류가 발생합니다 저 한가지 질문이 있습니다. sep wav py로 목소리 변환시에 보이스부분에서 The channel dimension of input Tensor must match audio_channels of HDemucs model. 에러가 발생하는데 해결방법이 있을까요?
안녕하세요... 학습 시작하는 과정에서 여러 번 시도해봐도 zero-size array to reduction operation maximum which has no identity 가 나오는데 어떻게 해결할 수 있는지 여쭤볼 수 있을까요? 두 번째로 답변 가능하시다면 VMware Windows 11에서도 학습? 사용?이 가능한지 궁금합니다. 깃허브에 댓글을 못 남기는데 유튜브도 답변 남겨주시는 거 보고 혹시하는 마음에 댓글 남깁니다. 감사합니다.
안녕하세여 코딩 하나도 모르는 일반인입니다.. 마지막 학습코드 실행 단계에서 이런 오류가 뜨네요..해결방법 없을까요? Epoch 1: : 0batch [00:00, ?batch/s]Traceback (most recent call last): File "", line 1, in File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 116, in spawn_main exitcode = _main(fd, parent_sentinel) File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 125, in _main prepare(preparation_data) File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 236, in prepare _fixup_main_from_path(data['init_main_from_path']) File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 287, in _fixup_main_from_path main_content = runpy.run_path(main_path, File "E:\ana\envs\diff-svc\lib unpy.py", line 288, in run_path return _run_module_code(code, init_globals, run_name, File "E:\ana\envs\diff-svc\lib unpy.py", line 97, in _run_module_code _run_code(code, mod_globals, init_globals, File "E:\ana\envs\diff-svc\lib unpy.py", line 87, in _run_code exec(code, run_globals) File "C:\amg\diff-svc-main un.py", line 3, in from utils.hparams import set_hparams, hparams File "C:\amg\diff-svc-main\utils\__init__.py", line 11, in import torch File "E:\ana\envs\diff-svc\lib\site-packages\torch\__init__.py", line 128, in raise err OSError: [WinError 1455] 이 작업을 완료하기 위한 페이징 파일이 너무 작습니다. Error loading "E:\ana\envs\diff-svc\lib\site-packages\torch\lib\cudnn_cnn_infer64_8.dll" or one of its dependencies. Traceback (most recent call last): File "", line 1, in File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 116, in spawn_main exitcode = _main(fd, parent_sentinel) File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 125, in _main prepare(preparation_data) File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 236, in prepare _fixup_main_from_path(data['init_main_from_path']) File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 287, in _fixup_main_from_path main_content = runpy.run_path(main_path, File "E:\ana\envs\diff-svc\lib unpy.py", line 288, in run_path return _run_module_code(code, init_globals, run_name, File "E:\ana\envs\diff-svc\lib unpy.py", line 97, in _run_module_code _run_code(code, mod_globals, init_globals, File "E:\ana\envs\diff-svc\lib unpy.py", line 87, in _run_code exec(code, run_globals) File "C:\amg\diff-svc-main un.py", line 3, in from utils.hparams import set_hparams, hparams File "C:\amg\diff-svc-main\utils\__init__.py", line 11, in import torch File "E:\ana\envs\diff-svc\lib\site-packages\torch\__init__.py", line 128, in raise err OSError: [WinError 1455] 이 작업을 완료하기 위한 페이징 파일이 너무 작습니다. Error loading "E:\ana\envs\diff-svc\lib\site-packages\torch\lib\shm.dll" or one of its dependencies. Traceback (most recent call last): File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 1120, in _try_get_data data = self._data_queue.get(timeout=timeout) File "E:\ana\envs\diff-svc\lib\multiprocessing\queues.py", line 114, in get raise Empty _queue.Empty The above exception was the direct cause of the following exception: Traceback (most recent call last): File "C:\amg\diff-svc-main un.py", line 15, in run_task() File "C:\amg\diff-svc-main un.py", line 11, in run_task task_cls.start() File "C:\amg\diff-svc-main\training\task\base_task.py", line 234, in start trainer.fit(task) File "C:\amg\diff-svc-main\utils\pl_utils.py", line 495, in fit self.run_pretrain_routine(model) File "C:\amg\diff-svc-main\utils\pl_utils.py", line 588, in run_pretrain_routine self.train() File "C:\amg\diff-svc-main\utils\pl_utils.py", line 1364, in train self.run_training_epoch() File "C:\amg\diff-svc-main\utils\pl_utils.py", line 1385, in run_training_epoch for batch_idx, batch in enumerate(self.get_train_dataloader()): File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 628, in __next__ data = self._next_data() File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 1316, in _next_data idx, data = self._get_data() File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 1282, in _get_data success, data = self._try_get_data() File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 1133, in _try_get_data raise RuntimeError('DataLoader worker (pid(s) {}) exited unexpectedly'.format(pids_str)) from e RuntimeError: DataLoader worker (pid(s) 9916, 10112) exited unexpectedly Epoch 1: : 0batch [00:07, ?batch/s]
ffmpeg 설치, 환경변수 세팅도 전부 완료했는데도 [mov,mp4,m4a,3gp,3g2,mj2 @ 000002b6bf18ba00] moov atom not found preprocess\video01.mp4: Invalid data found when processing input 이게 계속뜹니다 어떻게 하면되나요..?
혹시 max_sentences값은 모델이 한번에 학습할 양을 정한다 (CUDA out of memory에러가 나면 이 숫자를 줄이면 된다)라고 적혀있는데 제가 rtx4070ti인데 값이 클수록 좋은건가요? 70으로 하고 있는데 어떤부분이 안좋아진느건가 싶어서 여쭤봅니다!
@@최고다비챤 그러면 분활된 wav 학습파일 갯수에 맞춰서 적으면 될까요??아니면 더 높은 숫자로 적는게 좋을까요?? wav학습파일 갯수는 7개정도 인데 70으로 작성했는데 gpu사용량이 10%도 안쓰더라구요 어떻게 맞춰야할지를 모르겠어요 어떻게해야 음질이 좋아지고 어떻게해야 학습 양을 늘릴 수 있는지 모르겠습니다.
배치사이즈가 너무 작으면 모델이 수렴하지 않을수 있구요 반대로 배치사이즈가 너무크면 일반적인 특징만 학습하기때문에 모델이 원하는만큼의 성능을 못낼겁니다 러닝레이트도 너무작으면 가중치업데이트가 느려서 학습이 오래걸리거나 local minima에 빠질수 있구요 또 너무크면 마찬가지로 모델이 수렴하지않고 발산해버립니다 위 값들은 데이터와 모델에 따라 다르게 적용해야하기 때문에 실험적으로 찾으셔야됩니다
선생님 모든 학습을 완전히 끝낸 후의 상태에서, 나중에 오디오 파일을 더 추가해서 더 많은 학습을 시키는 방법도 있을까요? 그리고 모델들의 개수가 여러개가 생성이 되잖아요~ 추론 할때에는 이 모든 파일들이 다 제 역할을 하는걸까요? 아니면 그중에서 특정 하나의 모델만 의미가 있는 걸까요?
안녕하세요. Preprocess 단계에서 WAV 파일로 넣으나 MP4로 넣으나 둘다 해당 메세지와 함께 진행이 안되네요. Traceback (most recent call last): File "C:\Users\zdrgn\Downloads\diff-svc-main\diff-svc-main\sep_wav.py", line 285, in main( File "C:\Users\zdrgn\Downloads\diff-svc-main\diff-svc-main\sep_wav.py", line 216, in main sources = extract_voice( File "C:\Users\zdrgn\Downloads\diff-svc-main\diff-svc-main\sep_wav.py", line 61, in extract_voice out = model.forward(chunk) File "C:\Users\zdrgn\anaconda3\envs\diff-svc\lib\site-packages\torchaudio\models\_hdemucs.py", line 539, in forward raise ValueError( ValueError: The channel dimension of input Tensor must match `audio_channels` of HDemucs model. Found:1.
밑에 토치2.0 때문인거 같다는 분처럼 Torch not compiled with CUDA enabled이 뜨며 바이너라이즈, 학습이 진행이 안돼서 명령어를 조금 변경해 conda create -n diff-svc python=3.9 conda activate diff-svc conda install pytorch==1.13.1 torchvision torchaudio -c pytorch -c nvidia pip install -r requirements.txt < 토치라이트닝 pytorch_lightning==1.7.7 으로 변경해서 설치를 진행해봤습니다. 계속 동일한 문제가 발생하네요. 혹시 조언을 받을 수 있을까요?
Epoch 1: : 0batch [00:00, ?batch/s]Traceback (most recent call last): File "C:\Users\PC\Desktop\diff-svc\diff-svc-main un.py", line 15, in run_task() File "C:\Users\PC\Desktop\diff-svc\diff-svc-main un.py", line 11, in run_task task_cls.start() File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\training\task\base_task.py", line 236, in start trainer.fit(task) File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 500, in fit self.run_pretrain_routine(model) File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 593, in run_pretrain_routine self.train() File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 1369, in train self.run_training_epoch() File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 1403, in run_training_epoch output = self.run_training_batch(batch, batch_idx) File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 1529, in run_training_batch loss = optimizer_closure() File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 1510, in optimizer_closure self.scaler.scale(closure_loss).backward() File "C:\Users\PC\anaconda3\envs\diff-svc\lib\site-packages\torch\cuda\amp\grad_scaler.py", line 164, in scale assert outputs.is_cuda or outputs.device.type == 'xla' AssertionError Epoch 1: : 0batch [00:04, ?batch/s] 이 에러의 원인이 뭔지 알 수 있을까요!?..
혹시 학습 완료 후 model 파일이 지정된 경로에 생성되지 않은 경우 model생성은 어떻게 하나요..? 7:53 학습 완료 후 지정한 이름의 파일이 checkpoints파일에 생성되고 그 안에 config와 lighting_logs파일이 잘 생성되는데 model파일만 없습니다ㅠㅠ
아 위에 설명보니까 메모리가 부족하다네요ㅠㅠㅠ torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 480.00 MiB (GPU 0; 6.00 GiB total capacity; 3.56 GiB already allocated; 0 bytes free; 5.04 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 찾아보니 밧치를 줄이거나 메모리를 비워달라는데 방법이 있을까요?
제가 테스트해본결과 1060 3gb에서는 안되구요 1060 6gb에서는 아슬하게 돌아갔습니다. 그래픽 메모리 사용하는 프로그램을 끄고 배치 사이즈를 줄이고 돌리시면 됩니다. (잘때 돌려두는게 효과적입니다) github.com/wlsdml1114/diff-svc/blob/main/training/config.yaml#L11 이 값을 줄여가면서 돌려보세용
preprocess 폴더에 mp4파일이 아닌 wav파일이 들어가있는 경우에 에러가 발생합니다. ``` Traceback (most recent call last): File "C:\Users\leehy\Desktop\src\diff-svc\winter\sep_wav.py", line 278, in main( File "C:\Users\leehy\Desktop\src\diff-svc\winter\sep_wav.py", line 215, in main sources = extract_voice( File "C:\Users\leehy\Desktop\src\diff-svc\winter\sep_wav.py", line 61, in extract_voice out = model.forward(chunk) File "C:\Users\leehy\anaconda3\envs\diff-svc\lib\site-packages\torchaudio\models\_hdemucs.py", line 542, in forward raise ValueError( ValueError: The channel dimension of input Tensor must match `audio_channels` of HDemucs model. Found:1. ``` 에러 전문입니다. Wav파일 샘플레이트는 44.1k에 모노채널이었던 것으로 기억합니다. 원본 스테레오 -> Adobe Audition 2023 사용하여 모노로 전환하였었는데 모노가 맞는지 확인은 못하고 지웠네요
영상대로 하고있습니다. 근데 pip install -r requirements.txt 여기서부터 오류가 발생합니다. ERROR: Cannot install numpy==1.23.3 and numpy==1.23.4 because these package versions have conflicting dependencies. The conflict is caused by: The user requested numpy==1.23.4 The user requested numpy==1.23.3 To fix this you could try to: 1. loosen the range of package versions you've specified 2. remove package versions to allow pip attempt to solve the dependency conflict 이 오류 이후엔 이런 오류가 뜹니다. ERROR: Ignored the following versions that require a different python version: 0.2.1 Requires-Python >=2.7,!=3.0.*,!=3.1.*,=3.6,=3.6,
@@최고다비챤 안녕하세요 다름이 아니라 ddsp-svc 사용법 보고있는데 간소화되어있는거 같아서 (일반인이 보기에) diff-svc 설정 방법과 비슷하다고 이해하면 될까요? 'model_path' : 'exp/combsub-test/model_best.pt', # 추론에 사용하고자 하는 모델, 바로위에서 학습한 모델을 가져오면댐 'input' : 'data/train/audio/video-0000.wav', # 추론하고자 하는 노래파일의 위치 - 님들이 바꿔야댐 'output' : 'output.wav', # 결과물 파일의 위치 그리고 위 내용 중에 1. 모델 : 이부분은 제가 데이터셋으로 돌린 결과물 경로를 적으면 되는건가요? 2. 인풋 : 결과물을 어느 음원 보컬이랑 스왑할것인지 그 음원 파일 위치 경로인가요? 질문이 많은데 혹시 보시거나 시간되시면 꼭 답변 부탁드립니다..감사합니다!
Skip item (CUDA out of memory. Tried to allocate 1024.00 MiB (GPU 0; 3.00 GiB total capacity; 1.94 GiB already allocated; 0 bytes free; 2.47 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF). item_name: data\mechkane\kjh2-000.wav, wav_fn: data\mechkane\kjh2-000.wav 18%|██████████████▌ binarize 할 때 계속 CUDA 오류 뜨는 거 같아서 max_sentences를 1로 줄여봐도 오류가 사라지지 않는 거 같습니다 어떻게 해야 좋나요
max_sentences를 너무 작게하는건 추천드리지 않습니다. 공식 문서에서는 최소 6기가 비디오램이 필요하다고 하는데, 3기가밖에 없으시네여 아나콘다 prompt에 set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:100 입력해보시고 그래도 안되면 다시 답글달아주십쇼 왠만하면 max_sentences를 조금 늘려주세요 공식적으로 권장하는거는 낮게 잡았을 때 6 또는 8같네요
성공했다!!!!! 1트 어떻게 하는지 모르겠음 2트 설치 잘못함 3트 마지막 삑사리 4트 정보량 부족(2시간짜리 방송본이 칼질이 되지 않음) 5트 음원이 안잘린다 6트 IndexError: list index out of range 에러 7트 뭔 이유때문인지 에러가 존나뜸 8트 이유 모름 9트 학습중 자러간다 야팔 - 27시간 25만스텝 완료 성공
추가 라이브러리 2 pip install requi...어쩌고 했는데 ERROR: Ignored the following versions that require a different python version: 0.52.0 Requires-Python >=3.6,=3.6,
@@최고다비챤 정말 모르겠습니다.. 진짜 시키는 대로에다가 3.8, 3.9 둘 다 확인해보고 안 되서 diff-svc의 가상환경 삭제하고 다시해보고 반복하고, cuda 그래픽 카드 버전 맞는지도 확인했는데, 3070이라 가능한 거 같고 pip install -r requirements.txt해봤는데 다 안되네요..cuda도 내려야 하는건가요..?
혹시 | Binarizer: Traceback (most recent call last): File "/content/diff-svc/preprocessing/binarize.py", line 20, in binarize() File "/content/diff-svc/preprocessing/binarize.py", line 15, in binarize binarizer_cls().process() File "/content/diff-svc/preprocessing/SVCpre.py", line 29, in __init__ super().__init__(item_attributes) File "/content/diff-svc/preprocessing/base_binarizer.py", line 52, in __init__ assert all([attr in self.item_attributes for attr in list(self.items.values())[0].keys()]) IndexError: list index out of range 이 오류가 왜 나는지 알 수 있을까요
감사합니다 덕분에 처음으로 성공했습니다
diff 해보겠다고 몇날 며칠을 정보를 찾아봐도 제대로 정리된 곳은 여기밖에 없었습니다
후발주자들을 위해 보면서 이해 안가서 한참 헤맸던 부분을 말하자면
1.사전 프로그램 설치 링크는 전부 더보기란의 링크에 들어가면 모여있습니다. 특히 ffmpeg 설치할때 구글에서 검색해서 들어가면 영상의 저건 안나오고 요상한것들만 나옴
2.4번항목 프로젝트 다운 시 압축을 C드라이브가 아닌 다른 드라이브에 풀어버리면 프롬프트를 열고 d: 라고 입력후 진행하셔야 합니다. 안그러면 C드라이브에서 진행하려 듭니다
3.잘 보면 학습 환경 세팅시 영상의 과정과 더보기 링크의 과정이 좀 다름. 필자는 링크의 내용을 따라했을때 문제가 없었으나 어느것이 맞는지는 아직도 모름
4.8:10 갑자기 튀어나오는 raw폴더의 test.wav 파일은 원하는 목소리가 아니라 대본이 될 파일입니다. 학습 데이터처럼 따로 배경소리 제거,시간 조절등의 과정을 거쳐야 하기 때문에 전처리 과정에서 대본을 같이 넣어뒀다가 전처리 완료 후 대본파일들만 빼내서 여기 넣어도 괜찮을듯
좋은 후기감사합니다.
Github프로젝트의경우 주기적으로 업데이트되고있어서 3번의경우 프로젝트의 설명을 따라가는게 맞습니다
dofig대로 폴더들 새로 만들고 python run.py --config training/config_nsf.yaml --exp_name test --reset 실행하면 ImportError: cannot import name 'kaiser' from 'scipy.signal' (C:\Users\Administrator\anaconda3\envs\diffsvc\lib\site-packages\scipy\signal\__init__.py)같은 오류는 저만 나오나여?
안녕하세요 영상 잘 보고있는 팬치입니다. 혹시 영상에서 활용하신 audio demixing 기능에 관심이 생겨 공부하려고 해봤으나 저의 힘이 부족하여 끝내 해내지 못하였습니다. 혹시 해당 기술을 공부하셨을 때 사용하셨던 사이트나 코드가 있다면 알려주실 수 있으실까요..?
저 영상을 만들 당시보다 좋은 기술들이 많이나와서 UVR이나 facebook research의 demucs를 보시면 좋을거 같네요
@@최고다비챤 답변해주셔서 감사합니다.
@@최고다비챤 audio demixing 기술을 활용한 프로젝트로 반응 영상 모음집을 자동으로 만들어주는 프로그램을 제작하려고 합니다. 그런데, demucs를 사용해서 반응만을 분리하려고 했으나, 노래 부르는 목소리와 반응이 보컬로 같이 분리되었습니다. 혹시 최고다비챤님께서는 어떤 방식으로 반응만을 분리하셨나요?
프로그램 설치 및 코드 다운로드
0:00 1. 아나콘다 설치
0:33 2. ffmpeg 설치
1:31 3~4. CUDA 설치, 프로젝트 다운로드
1:58 5. Hubert checkpoint 다운로드
학습환경 세팅
3:11 1~2. anaconda prompt열고 프로젝트 폴더로 이동
3:24 3. anaconda 가상환경 생성 및 활성
3:46 4-1. pytorch-cuda=11.6 설치
4:17 4-2~3. 추가 라이브러리 설치
4:46 5. 환경변수 세팅
학습용 데이터 준비
5:01 1. preprocess 폴더 만들고 학습에 사용할 데이터 넣어주기
5:12 3. 데이터 전처리
5:28 4. 데이터 옮기기
6:00 5. 학습 configure 설정
6:26 6. 학습에 사용할 수 있게 binarize
모델 학습 및 결과물 뽑기
6:56 1. 학습 코드 실행
7:29 2. 학습 끝 결과물 뽑기
원클릭 방법으로 해봤는데 처음학습 누르면 MessageToJson() got an unexpected keyword argument 'including_default_value_fields' 이런식으로 에러가 나는데 어떻게 해결할수있나요?
당신은 신입니다.
최고다비챤님
만약에 이제 이렇게 영상따라서 1회차 끝나면
다음에 킬떄마다 activate해서 활성화해주고 전처리부터 다시 시작해야 하나요??
같은 걸로 노래만 바꿔서 결과도출 하려면 어디서 부터 다시 시작하면 되는건지 좀 알려주세요 ㅠㅠ
요즘은 Diff-svc랑 so-vits-svc 짬뽕시켜놓은 ddsp-svc가 gpu리소스도 덜 잡아먹고 속도도 3시간만 학습하면 좋은 퀄리티 음성 만들수 있으니까 참고하세요~
가장 좋은 점은 1660으로도 학습 가능합니다!!!!!
github.com/wlsdml1114/DDSP-SVC-KOR
DDSP-SVC도 더 쉽게학습할수 있게 만들어뒀습니다
@@최고다비챤 혹시 ddsp도 튜토리얼 찍어주실 수 있을까요? 봐도 어렵네요
계속 따라 하고 있었는데, 학습코드 실행 단계에서 뭔가 좀 되다가 바로 AttributeError: 'NsfHifiGAN' object has no attribute 'h'가 뜨는데 이유가 뭔가요..? 경로 관련 에러같은데 잘 모르겠어요...ㅠㅠ
진짜 너무 감사드립니다
binarize 단계에서 ValueError: zero-size array to reduction operation maximum which has no identity 라고 뜨네요 어떡해야 할까요 ㅠㅠ 😭
8개월 전이다. 하고 싶지만 디스코드가 봐뀌었다. 도와줘 주인장몽!
님의 아래댓글 링크를 보고 ddsp-svc를 해보고 있는데 notebook.ipynb 1.1 을 실행하면 mp4 폴더에 있는 파일이 wav 파일로 변경되어 original 폴더에 들어가야 할것 같은데 아무런 변화가 없네요. 뭐가 잘못된 것일까요?
저장용
1. 0:09 anaconda3 설치
2. 0:36 f f m p e g 설치
3. 1:34 cuda11.6 설치
4. 1:59 hubert 설치
그후 아직안함
@@MoonJunSeo 영상 설명에 깃헙 가보세요
AI 보컬 유튜브 검색하고 찾다가 여기까지 오게 됐어요 날 잡아서 시도해야 할 거 같아요 도스 창만 보여 어려워 보이지만 따라서 천천히 해보려고요 성공하겠죠^^? 2070 20시간 하셨으니 초행길 초보라 그래픽카드 1080 이니 2틀 걸릴까요 중간에 쉬었다가 나눠서할까봐 걱정도 돼내요 ㅎㅎ
최고다비챤님 혹시 Text to speech 모델중에 한국어 쓸만한 모델 아시나요? 나왔다는건 많은데 너무많아서 다 테스트 해보기가 힘드네요 ㅠㅠ
Tts쪽은 관심이 많지않아서 잘 모르겠네요..
@@최고다비챤 넵 답변 감사합니다 (__)
영상에서 설명이 없는데 비스얼 스튜디오 빌드툴 없으면 제대로 설치 안됩니다 기본적으로 설치하시고 진행해보세요
어떤 부분에서 설치가 안되나요?
@@최고다비챤 requirements텍스트 설치시에 오류가 발생합니다 저 한가지 질문이 있습니다. sep wav py로 목소리 변환시에 보이스부분에서 The channel dimension of input Tensor must match audio_channels of HDemucs model. 에러가 발생하는데 해결방법이 있을까요?
혹시 에러 전문을 깃헙 이슈에다가 올려주실수있나요
버그재현이안되서..
@@최고다비챤 이슈에 올렸습니다! 혹시 44.1khz 적용방법도 깃헙에 올려주실 수 있을까요? 디코에 들어가봤는데 최근 44khz 나온 것 같은데 설명이 자세히 없어서 궁금만 하는 중입니다~
현생이슈로 a/s만 하고 있는상태입니다
시간나면 해보겠습니다
왜 자꾸 아나콘다에서 가상환경 만들려고만 하면 unable to create process using 에러 뜨면서 안될까요 ㅜㅜ 애초에 전 아나콘다 prompt 열때 왼쪽에 base가 없어요
저장공간은 얼마를 소비하나요? 그리고, C드라이브 말고 다른 저장소(USB)에 저장할 수 있나요?
RuntimeError: mat1 and mat2 shapes cannot be multiplied
이러한 오류가 뜨는데 어떻게 해결하나요?
그래픽카드 3070기준 학습 얼마나 걸릴까요? 1시간 정도 분량의 음성이고, 9시간정도 돌렸는데 epoch 3500이네요
그냥 중단을 하면 되는거군요.....ㅠ
@@루라라-p1j config 파일 변경 어떻게 하셨는지 여쭤봐도 될까요 거기서 문제 생긴것같아서 ㅠ
@@FanToth config가 그 메모장에 있는 내용 변경 말씀하시는걸까요??
@@루라라-p1j 넵 맞습니다!
@@FanToth 영상에서 수정하라는 대로 똑같이 했었어요. 혹시 오류메세지 뜨시면 어떤건지 알려주실 수 있나요?
제가 AMD 라데온 그래픽카드를 사용중이라 엔비디아 CUDA 를 쓸 수 없는데 그 대신 OpenCL을 사용하면 프로그램 실행이 가능한가요?
가능하다면 어떻게 해야하는지 알려주시면 정말 감사하겠습니다 ㅠㅠㅠ
라데온 글카는 제가 써본경험이 없어서 모르겠습니다;;
기존에 StableDiffusion PC로컬 설치로 python 설치가 되어 있으면 아나콘다 설치 부분 패스 해도 되는가요? 환경설정 Path 부분만 진행 하거나 하면 될까요?
안녕하세요...
학습 시작하는 과정에서 여러 번 시도해봐도
zero-size array to reduction operation maximum which has no identity
가 나오는데 어떻게 해결할 수 있는지 여쭤볼 수 있을까요?
두 번째로 답변 가능하시다면 VMware Windows 11에서도 학습? 사용?이 가능한지 궁금합니다.
깃허브에 댓글을 못 남기는데 유튜브도 답변 남겨주시는 거 보고 혹시하는 마음에 댓글 남깁니다. 감사합니다.
저도 이거 나오는데 어케하는건지..
저도 이 오류에 막혔어요..
지금 여기서 멈췄는데 혹시 풀으셨나요 ?
torchcrepe 버전 문제더군요.
requierments에 torchcrepe==0.0.18 로 수정하고 라이브러리 다시 깔아보세요!
@@bnnhmm 사랑해요
학습에서 숫자가 0으로만 출력되면서 넘어가는데 어디를 고쳐야 할까요? worker값은 1로 변경했습니다.
Epoch 0 ended. Steps: 0. {'total_loss': 0}
==============
Epoch 2: : 0batch [00:05, ?batch/s]
==============
Epoch 1 ended. Steps: 0. {'total_loss': 0}
==============
Epoch 3: : 0batch [00:10, ?batch/s]
==============
Epoch 2 ended. Steps: 0. {'total_loss': 0}
학습데이터 경로를 잘못 지정해준게 아닌가 싶습니다
데이터 배치를 아예 잡지 못하는거 같네요
@@최고다비챤 네 답변 감사합니다! 혹시 쓰시는 컴퓨터 환경 좀 알려주실 수 있으세요?
죄송합니다. 오프라인으로 세팅을 해드려도 본 영상에서 보인내용이 전부라 특별히 해드릴게 없습니다.
명령어를 실행할때마다 모듈을 설치해야 하는 귀찮음이 있네요
그럼 뭔가가 잘못된겁니다
처음 한번만 설치하면 됩니다
@@최고다비챤 해결됐습니다 5:18쯤에 모노파일은 목소리 추출이 안되고 스테레오파일로 하니까 추출이 됩니다 왜 이런건가요?
저는 코랩으로 할려고 하는데 거기는 15초 단위로 짤라주는게 없어서 그것만 따로 할 수 있는데가 있나요?
다 해서 용량이 얼마정도 될까요?
감사합니다! 죄송하지만 준비파일은 wav로, 꼭 44100hz 15초정도로만 잘라야한다든가 하는 제약이 있을까요?
파일은 전처리과정에서 알아서 잘리고 샘플레이트나 채널같은것도 조절됩니다
@@최고다비챤 갑사함니다
m칩 맥북은 영상 튜토대로 못하나요..ㅠ 다른게 많아서 어렵네요
쿠다가 아니라 mps를 써야해서 쉽지는 않죠..
AssertionError: Torch not compiled with CUDA enabled 학습 전 단계에서 계속 이게 뜨네요 ㅠ
안녕하세여 코딩 하나도 모르는 일반인입니다.. 마지막 학습코드 실행 단계에서 이런 오류가 뜨네요..해결방법 없을까요?
Epoch 1: : 0batch [00:00, ?batch/s]Traceback (most recent call last):
File "", line 1, in
File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 116, in spawn_main
exitcode = _main(fd, parent_sentinel)
File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 125, in _main
prepare(preparation_data)
File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 236, in prepare
_fixup_main_from_path(data['init_main_from_path'])
File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 287, in _fixup_main_from_path
main_content = runpy.run_path(main_path,
File "E:\ana\envs\diff-svc\lib
unpy.py", line 288, in run_path
return _run_module_code(code, init_globals, run_name,
File "E:\ana\envs\diff-svc\lib
unpy.py", line 97, in _run_module_code
_run_code(code, mod_globals, init_globals,
File "E:\ana\envs\diff-svc\lib
unpy.py", line 87, in _run_code
exec(code, run_globals)
File "C:\amg\diff-svc-main
un.py", line 3, in
from utils.hparams import set_hparams, hparams
File "C:\amg\diff-svc-main\utils\__init__.py", line 11, in
import torch
File "E:\ana\envs\diff-svc\lib\site-packages\torch\__init__.py", line 128, in
raise err
OSError: [WinError 1455] 이 작업을 완료하기 위한 페이징 파일이 너무 작습니다. Error loading "E:\ana\envs\diff-svc\lib\site-packages\torch\lib\cudnn_cnn_infer64_8.dll" or one of its dependencies.
Traceback (most recent call last):
File "", line 1, in
File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 116, in spawn_main
exitcode = _main(fd, parent_sentinel)
File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 125, in _main
prepare(preparation_data)
File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 236, in prepare
_fixup_main_from_path(data['init_main_from_path'])
File "E:\ana\envs\diff-svc\lib\multiprocessing\spawn.py", line 287, in _fixup_main_from_path
main_content = runpy.run_path(main_path,
File "E:\ana\envs\diff-svc\lib
unpy.py", line 288, in run_path
return _run_module_code(code, init_globals, run_name,
File "E:\ana\envs\diff-svc\lib
unpy.py", line 97, in _run_module_code
_run_code(code, mod_globals, init_globals,
File "E:\ana\envs\diff-svc\lib
unpy.py", line 87, in _run_code
exec(code, run_globals)
File "C:\amg\diff-svc-main
un.py", line 3, in
from utils.hparams import set_hparams, hparams
File "C:\amg\diff-svc-main\utils\__init__.py", line 11, in
import torch
File "E:\ana\envs\diff-svc\lib\site-packages\torch\__init__.py", line 128, in
raise err
OSError: [WinError 1455] 이 작업을 완료하기 위한 페이징 파일이 너무 작습니다. Error loading "E:\ana\envs\diff-svc\lib\site-packages\torch\lib\shm.dll" or one of its dependencies.
Traceback (most recent call last):
File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 1120, in _try_get_data
data = self._data_queue.get(timeout=timeout)
File "E:\ana\envs\diff-svc\lib\multiprocessing\queues.py", line 114, in get
raise Empty
_queue.Empty
The above exception was the direct cause of the following exception:
Traceback (most recent call last):
File "C:\amg\diff-svc-main
un.py", line 15, in
run_task()
File "C:\amg\diff-svc-main
un.py", line 11, in run_task
task_cls.start()
File "C:\amg\diff-svc-main\training\task\base_task.py", line 234, in start
trainer.fit(task)
File "C:\amg\diff-svc-main\utils\pl_utils.py", line 495, in fit
self.run_pretrain_routine(model)
File "C:\amg\diff-svc-main\utils\pl_utils.py", line 588, in run_pretrain_routine
self.train()
File "C:\amg\diff-svc-main\utils\pl_utils.py", line 1364, in train
self.run_training_epoch()
File "C:\amg\diff-svc-main\utils\pl_utils.py", line 1385, in run_training_epoch
for batch_idx, batch in enumerate(self.get_train_dataloader()):
File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 628, in __next__
data = self._next_data()
File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 1316, in _next_data
idx, data = self._get_data()
File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 1282, in _get_data
success, data = self._try_get_data()
File "E:\ana\envs\diff-svc\lib\site-packages\torch\utils\data\dataloader.py", line 1133, in _try_get_data
raise RuntimeError('DataLoader worker (pid(s) {}) exited unexpectedly'.format(pids_str)) from e
RuntimeError: DataLoader worker (pid(s) 9916, 10112) exited unexpectedly
Epoch 1: : 0batch [00:07, ?batch/s]
찾아보니 램이 작아서 생기는 문제라고 하네요
worker 개수와 상관있는지는 모르겠는데 config파일의 ds worker숫자를 낮춰서 한번해보세요
그래도 안되시면 가상메모리를 늘려보시거나 램을 추가하셔야 할 것 같습니다
@@최고다비챤 오오 감사합니다 함 해보겠습니다!
ffmpeg 설치, 환경변수 세팅도 전부 완료했는데도
[mov,mp4,m4a,3gp,3g2,mj2 @ 000002b6bf18ba00] moov atom not found
preprocess\video01.mp4: Invalid data found when processing input
이게 계속뜹니다 어떻게 하면되나요..?
아 이런 세상에 ㅋㅋㅋㅋ 해결했습니다..
video 파일의 mp4내보내기로 저장할때 포멧방식을 잘못잡아줘서 애가 인식을 못했었네욬..
혹시 max_sentences값은 모델이 한번에 학습할 양을 정한다 (CUDA out of memory에러가 나면 이 숫자를 줄이면 된다)라고 적혀있는데 제가 rtx4070ti인데 값이 클수록 좋은건가요? 70으로 하고 있는데 어떤부분이 안좋아진느건가 싶어서 여쭤봅니다!
Batch size와 비슷하다고 보시면됩니다.
크다고 좋지는 않지만 적으면 안좋긴합니다.
데이터셋 조건에따라 달라지기때문여 휴리스틱하게 최적화해야합니다.
@@최고다비챤 그러면 분활된 wav 학습파일 갯수에 맞춰서 적으면 될까요??아니면 더 높은 숫자로 적는게 좋을까요?? wav학습파일 갯수는 7개정도 인데 70으로 작성했는데 gpu사용량이 10%도 안쓰더라구요 어떻게 맞춰야할지를 모르겠어요 어떻게해야 음질이 좋아지고 어떻게해야 학습 양을 늘릴 수 있는지 모르겠습니다.
@@hawol6048 학습 파일 개수가 너무 부족한 것 같습니다
IndexError 목록인덱스가 범위를 벗어남...후..진짜 모르겠어요
자세한 튜토리얼 감사합니다!!!
혹시 배치 사이즈나 lr같은 수치가 품질에 영향을 준다던데 어떻게 넣으면 되는지 아시나요?
배치사이즈가 너무 작으면 모델이 수렴하지 않을수 있구요
반대로 배치사이즈가 너무크면 일반적인 특징만 학습하기때문에 모델이 원하는만큼의 성능을 못낼겁니다
러닝레이트도 너무작으면 가중치업데이트가 느려서 학습이 오래걸리거나 local minima에 빠질수 있구요
또 너무크면 마찬가지로 모델이 수렴하지않고 발산해버립니다
위 값들은 데이터와 모델에 따라 다르게 적용해야하기 때문에 실험적으로 찾으셔야됩니다
학습 데이터는 보통 몇분짜리로 해야될까요?
선생님 모든 학습을 완전히 끝낸 후의 상태에서, 나중에 오디오 파일을 더 추가해서 더 많은 학습을 시키는 방법도 있을까요? 그리고 모델들의 개수가 여러개가 생성이 되잖아요~ 추론 할때에는 이 모든 파일들이 다 제 역할을 하는걸까요? 아니면 그중에서 특정 하나의 모델만 의미가 있는 걸까요?
추론할때는 모델파일 하나만 있으면 됩니다
데이터가 더 모이면 추가학습하는방법도 있죠 깃헙 이슈나 디코에 관련된 내용이 좀 있습니다
몇 에포크마다 모델을 저장하는지 알 수 있을까요? 10 에포크정도에서 checkpoint -> test 들어가니까 저장된 모델이 없더라고요
기본값은 2천입니다
보통 6만~10만은 가야 수렴합니다
와! 감사합니다!
안녕하세요. Preprocess 단계에서 WAV 파일로 넣으나 MP4로 넣으나 둘다 해당 메세지와 함께 진행이 안되네요.
Traceback (most recent call last):
File "C:\Users\zdrgn\Downloads\diff-svc-main\diff-svc-main\sep_wav.py", line 285, in
main(
File "C:\Users\zdrgn\Downloads\diff-svc-main\diff-svc-main\sep_wav.py", line 216, in main
sources = extract_voice(
File "C:\Users\zdrgn\Downloads\diff-svc-main\diff-svc-main\sep_wav.py", line 61, in extract_voice
out = model.forward(chunk)
File "C:\Users\zdrgn\anaconda3\envs\diff-svc\lib\site-packages\torchaudio\models\_hdemucs.py", line 539, in forward
raise ValueError(
ValueError: The channel dimension of input Tensor must match `audio_channels` of HDemucs model. Found:1.
3-2에서 막히는데 아나콘다 https 443에러뜨네요....난감...ㅠㅠ
밑에 토치2.0 때문인거 같다는 분처럼 Torch not compiled with CUDA enabled이 뜨며 바이너라이즈, 학습이 진행이 안돼서
명령어를 조금 변경해
conda create -n diff-svc python=3.9
conda activate diff-svc
conda install pytorch==1.13.1 torchvision torchaudio -c pytorch -c nvidia
pip install -r requirements.txt < 토치라이트닝 pytorch_lightning==1.7.7 으로 변경해서
설치를 진행해봤습니다.
계속 동일한 문제가 발생하네요.
혹시 조언을 받을 수 있을까요?
혹시 커맨드와 에러전문을 제가 올려드린 깃헙 이슈에 작성해주실수 있나요?
내일 확인해보고 업데이트해보겠습니다
@@최고다비챤 네 그렇게 하겠습니다 감사합니다
학습환경 준비
파일 변경
학습이란 소리죠?
전처리 부분에서 명령어 입력 후 실행하였는데 파이참이 열려서 파이참을 삭제하고 다시 실행했더니 오류가 뜨는데 어떻게 해야 하나요??
binarize 단계에서 no module named 'utils' 오류가 뜹니다. utils 폴더를 preprocessing 안에 집어넣으니 또 다른 모듈이 없다고 뜨네요. 어떻게 고쳐야 하나요?
좋은 강의 감사합니다!
환경변수세팅을 안해주신게 아닌가 싶습니다
set PYTHONPATH=.
세팅해보고 다시해보세용
Preprocess 폴더에 mp4 파일과 wav 파일을 모두 넣었는데도 no such file or directory 에러가 뜨는데 어떻게해야할까요😂
전처리된 final 작업물에는 목소리 분리가 안되어있고 voice 작업물에는 목소리 분리는 됬는데 무음이 많이 있는걸로보아 버그있듯해서 제보할려고 했는데
로그인도 했는데 Issues탭이 없습니다 버그랑 Issues탭없는거 고쳐주세요
이슈탭이 없는건 왠지 모르겠지만
댓글에서 다들 얘기하시니 괜찮을거같아서 냅두고 있었습니다.
버그라는건 어떤건지 제가 이해가 정확하게안되네요
제가할땐 문제가없었어서
verification 창에서 승인될려면 어떻게해야하나요?
죄송한데, 이거 방금설치했던것들 지울려면어떻게해야되나요? ㅠㅠ
혹시 uhd 그래픽카드로는 못하나요? 바이너라이즈에서 계속 에러가 뜨네요ㅠㅠ
Nvidia 그래픽카드의 쿠다기반이라 코드를 수정하지않는한 힘들겁니다
@@최고다비챤 제 그래픽카드가 mx250인데 쿠다 6.1에서 사용 가능한다는데 코드까지 수정해줘야하나요?ㅠ
binarize 단계에서 No module named 'torch' 라는 오류가 뜹니다. 저도 환경 변수 문제일까요?
python 모듈이 설치가 안되서 그렇습니다
가이드중에 conda install ~~ 어쩌구 하는거 다 설치해주셔야 되용
만약 설치하셨으면
conda activate 환경이름 을 안하셔서 그럴겁니다
diff-svc 이걸로 노래 말고, 그냥 나레이션이나 대화하는 목소리도 되나요?
기존음성의 높낮이를 따라하기때문에 가능합니다
근데 그냥대화소리는 tts가 더 성능이좋을수도 있어용
@@최고다비챤 TTS가 뭐에요?
@@warriorultimated 트위치에서 도네같은거 하면 대신 읽어주는 음성 같은게 있잖아요? 그게 tts라 생각하면 됩니다.
@@김승민-w8m 네 검색해서 해보았어요 감사합니다
Batch size 10이고 제 컴퓨터 그래픽카드도 3050인데 한번 학습할때 4.3초씩 걸리는건 따로 아유가 있을까요..?
데이터셋이 어느정도인지 모르겠습니다만
크면클수록 오래걸리는게 맞습니다
배치 1개를 4.3초 정도 걸려서 트레이닝 되는거면 GPU가 아닌 CPU로 트레이닝 중 인겁니다. 환경 세팅할 때 뭔가 누락하셨나보네요.
배치크기 어떻게 늘리나요??
코랩으로 하다가 오류나서 로컬로 하려는데, 학습 끝낸 model.ckpt 파일과 config.yaml 있으면 응용해서 가능한가요??
어떤거로 학습하셨는지는 모르겠는데 아마 같을겁니다
혹시 해결하셨나요.. 저도 코랩으로 학습 다 시켰는데 자꾸 버전에러나서(코랩에서 디폴트로 쓰는 파이썬 버전이 최근에 업뎃됐다고 하네요) 로컬로 돌리려는데 로컬에서는 파이토치가 최근에 업데이트해서 그런지 에러가 자꾸 납니다..
@@조상현-l4i 코랩 오류는 음성 AI 채널에 있는 글 참고해서 해결했습니다! 저는 모듈 버전 오류라서 따로 지정해서 깔아줬더니 오류가 나지 않았어요.
Epoch 1: : 0batch [00:00, ?batch/s]Traceback (most recent call last):
File "C:\Users\PC\Desktop\diff-svc\diff-svc-main
un.py", line 15, in
run_task()
File "C:\Users\PC\Desktop\diff-svc\diff-svc-main
un.py", line 11, in run_task
task_cls.start()
File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\training\task\base_task.py", line 236, in start
trainer.fit(task)
File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 500, in fit
self.run_pretrain_routine(model)
File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 593, in run_pretrain_routine
self.train()
File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 1369, in train
self.run_training_epoch()
File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 1403, in run_training_epoch
output = self.run_training_batch(batch, batch_idx)
File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 1529, in run_training_batch
loss = optimizer_closure()
File "C:\Users\PC\Desktop\diff-svc\diff-svc-main\utils\pl_utils.py", line 1510, in optimizer_closure
self.scaler.scale(closure_loss).backward()
File "C:\Users\PC\anaconda3\envs\diff-svc\lib\site-packages\torch\cuda\amp\grad_scaler.py", line 164, in scale
assert outputs.is_cuda or outputs.device.type == 'xla'
AssertionError
Epoch 1: : 0batch [00:04, ?batch/s]
이 에러의 원인이 뭔지 알 수 있을까요!?..
원인은 프로그램이 gpu를 못잡아서 발생합니다.
Set cudavisible....세팅해주셔야합니다
3080기준 학습 30시간, 토탈 로스가 0.001 언더 진행중인데
자동으로 완료되기를 기다리기보단
이 정도 로스 수치면 컨c 로 직접 끝내도 되는정도 인가요?
강의 올려주셔서 정말 감사합니다.
덕분에 새로운 소스로 여러가지를 만들 수 있게되었네요.
일정시간동안 로스가 수렴한것처럼보이면 그냥 학습을 끝내도 좋습니다
이게 어떤대상의 목소리를 노래로 만들어주는거잖아요.근데 어떤대상의 목소리는 voice에서 추출한다고 하면 그 부르게되는 노래는 어디다 넣어야 하나요?
결과물 뽑는단계에서 raw 폴더안에 넣어주면 됩니다
@@최고다비챤 혹시 그게 몇초 부분인지 알려주실수 있나요?ㅠㅠ
이용 가이드 알려주셔서 감사합니다! 질문이 하나있습니당
혹시 중간에 다른 일을 해야해서 8000batch에 결과물이 저장되는걸 확인하고 종료했는데 그 학습 결과물에 이어서 학습을 진행하는 방법이 있을까요?
체크포인트 불러와서 학습 진행하는 코드는 추가안했습니당
@@최고다비챤 넵 감사합니당!
체크포인트 불러와서 진행하는방법을 다른분이 공유해주셨습니다.
github.com/wlsdml1114/diff-svc/issues/5
FileNotFoundError: [Errno 2] No such file or directory: 'data/binary/mech/train_lengths.npy'
보니까 해당 폴더에 저 파일만 없던데 어떻게 된 상황인가요
흠... 바이러니화 다시해보셔요
@@just_hyowon 여러 번 다시 했는데도 저 파일만 안 생깁니다
밑에 적어놓은 쿠다 오류랑 관련이 있을까요
@@OneDayHeMightMakeYouSad 네 정황상 바이너리화할 때 저 파일이 생성되는 것 같은데, 바이러니화 과정에서 오류가 생겼다면 저 파일 생성이 안되었을 수도 있을것 같네요
혹시 학습 완료 후 model 파일이 지정된 경로에 생성되지 않은 경우 model생성은 어떻게 하나요..? 7:53 학습 완료 후 지정한 이름의 파일이 checkpoints파일에 생성되고 그 안에 config와 lighting_logs파일이 잘 생성되는데 model파일만 없습니다ㅠㅠ
저도 그러네요.. 뭐 때문인지 모르겠네요.. 그리고 github에 남겨주라고 했는데 남길곳이 없네요
제가 찾아봤을 때 training 파일의 config에서 [ K_step ] 변수 값 만큼 학습 횟수가 채워져야 모델 파일이 생성되는 걸로 알고 있습니다.
@@FedEx_Man 맞습니다
윗분들은 경로설정을 잘못하셨거나
너무일찍 종료하셨을수도 있습니다
바이너리를 위해 python preprocessing/binarize.py --config training/config.yaml를 입력하면
계속 ModuleNotFoundError: No module named 'dateutil'가 뜨는데 어떻게 해결해야 할까요?
환경변수 등록을 안하셔서 그렇습니다
창을 새로띄우면 환경변수를 다시등록해주셔야되영
한번 학습하면 Epoch 1: : 13batch [00:12, 1.07batch/s, batch_size=10, lr=0.0004, mel=0.982, step=12]까지 나오고 끝나버리는데 데이터셋 양이 부족한건가요? 데이터셋을 늘리는거 말고는 방법이 없을까요? Github 질문창을 못찾아서 댓글에 남깁니다ㅠㅠㅠㅠㅠ
아 위에 설명보니까 메모리가 부족하다네요ㅠㅠㅠ torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 480.00 MiB (GPU 0; 6.00 GiB total capacity; 3.56 GiB already allocated; 0 bytes free; 5.04 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF 찾아보니 밧치를 줄이거나 메모리를 비워달라는데 방법이 있을까요?
제가 테스트해본결과 1060 3gb에서는 안되구요
1060 6gb에서는 아슬하게 돌아갔습니다.
그래픽 메모리 사용하는 프로그램을 끄고 배치 사이즈를 줄이고 돌리시면 됩니다. (잘때 돌려두는게 효과적입니다)
github.com/wlsdml1114/diff-svc/blob/main/training/config.yaml#L11
이 값을 줄여가면서 돌려보세용
@@최고다비챤 ㅠㅠ2060쓰는데 오래돼서 그런가 싶네요. 알려주신대로 해보겠습니다 빠른 답변 감사합니다!
@@최고다비챤 RuntimeError: DataLoader worker (pid(s) 1148, 8292) exited unexpectedly
Epoch 49: : 2001batch [11:16, 2.96batch/s, batch_size=5, lr=0.0004, mel=0.0982, step=2000] 5까지 줄이니까 뜨는 창이 달라지긴 했는데 그래도 역시 끝까지 못가네요ㅠㅠ 체감상 컴퓨터 어딘가의 문제인것 같습니다.....
Worker 문제는 cpu 관련 에러인데
에러만 봤을때는 cpu문제인거 같네요
Num worker값을 조정하면 될거같습니다
혹시 raw에 파일이 많으면 배치사이즈도 줄여야 하나요? 전에는 잘 되던게 갑자기 CUDA OUT OF MEMORY가 떠서요
아뇨
전체데이터셋크기는 oom에러랑은 상관없습니당
Gpu메모리를 잡아먹는 프로그램이 기존 실행하실때보다 더 많아서 생긴 에러 같네요
@@최고다비챤 전에 쓰던 데이터로 돌리니까 이번에는 또 잘되더라구요....
왜이럴까요 ㅠㅠ
@@최고다비챤 혹시 음원파일이 IEEE로 해야하나요 ExtPCM으로 돌리면 안되는걸까요
어떻게 음성 데이터를 15초 단위로 끊나요?
sep_wav.py를 이용해서 끊어줍니다
Cuda 다운 받을때 zip파일로 어떻게 받나요? Exe파일로 밖에 안받아져서요
preprocess 폴더에 mp4파일이 아닌 wav파일이 들어가있는 경우에 에러가 발생합니다.
```
Traceback (most recent call last):
File "C:\Users\leehy\Desktop\src\diff-svc\winter\sep_wav.py", line 278, in
main(
File "C:\Users\leehy\Desktop\src\diff-svc\winter\sep_wav.py", line 215, in main
sources = extract_voice(
File "C:\Users\leehy\Desktop\src\diff-svc\winter\sep_wav.py", line 61, in extract_voice
out = model.forward(chunk)
File "C:\Users\leehy\anaconda3\envs\diff-svc\lib\site-packages\torchaudio\models\_hdemucs.py", line 542, in forward
raise ValueError(
ValueError: The channel dimension of input Tensor must match `audio_channels` of HDemucs model. Found:1.
```
에러 전문입니다. Wav파일 샘플레이트는 44.1k에 모노채널이었던 것으로 기억합니다.
원본 스테레오 -> Adobe Audition 2023 사용하여 모노로 전환하였었는데 모노가 맞는지 확인은 못하고 지웠네요
버그리포팅 감사합니다
현생이바빠 업데이트할 시간이없네요.. ㅠ
저는 스테리오 모노로 바꿨다가 에러나서 다시 모노화된 파일을 스테리오화로 채널 2개로 해줬더니 오류가 안나고 작업하더라구요..
@@김승민-w8m 하지만 귀찮죠.
그렇기에 걍 스테레오 썼읍니다
음악을 집어넣는 결과물단계에 raw 폴더가 나오는부분이 몇초인지 알려주실수 있나유?
8:11 코드에도 파일이름을 넣어줘야됩니당
영상대로 하고있습니다. 근데 pip install -r requirements.txt 여기서부터 오류가 발생합니다.
ERROR: Cannot install numpy==1.23.3 and numpy==1.23.4 because these package versions have conflicting dependencies.
The conflict is caused by:
The user requested numpy==1.23.4
The user requested numpy==1.23.3
To fix this you could try to:
1. loosen the range of package versions you've specified
2. remove package versions to allow pip attempt to solve the dependency conflict
이 오류 이후엔 이런 오류가 뜹니다.
ERROR: Ignored the following versions that require a different python version: 0.2.1 Requires-Python >=2.7,!=3.0.*,!=3.1.*,=3.6,=3.6,
디코 초대장이 만료됬다는데... 재발급 안하나요...?
관리자분께 얘기하고 업데이트하겠습니다.
제가 관리하는게 아니라서요..;;
디코 안들어가고 그냥 메가 주소 따라 치셔서 들어가도 됩니다
이런거 하나도모르는 사람도 따라할수있을까요..?
키보드만칠줄알면 따라할수는 있습니다
@@최고다비챤 안녕하세요 다름이 아니라 ddsp-svc 사용법 보고있는데 간소화되어있는거 같아서 (일반인이 보기에) diff-svc 설정 방법과 비슷하다고 이해하면 될까요?
'model_path' : 'exp/combsub-test/model_best.pt', # 추론에 사용하고자 하는 모델, 바로위에서 학습한 모델을 가져오면댐
'input' : 'data/train/audio/video-0000.wav', # 추론하고자 하는 노래파일의 위치 - 님들이 바꿔야댐
'output' : 'output.wav', # 결과물 파일의 위치
그리고 위 내용 중에
1. 모델 : 이부분은 제가 데이터셋으로 돌린 결과물 경로를 적으면 되는건가요?
2. 인풋 : 결과물을 어느 음원 보컬이랑 스왑할것인지 그 음원 파일 위치 경로인가요?
질문이 많은데 혹시 보시거나 시간되시면 꼭 답변 부탁드립니다..감사합니다!
이거 유명인들 목소리 복제해서 유튜브에서 나래이션으로 쓰면 저작권 문제가 있을까요?
허락되지않은 사람의 목소리를 이용해 제작한다면 저작권문제가 있습니다.
사용전 목소리 주인의 허락을 받으시길 바랍니다.
디코를 들어갔는데 verification 탭이 안보이네요 어떻게 해야하나요?
디코는 제가 운영하는게 아니라서 그쪽은 잘 모르겠습니다;;
@@최고다비챤 혹시 디코쪽에 있는 파일 뭐라고 검색하면 나오는 건가요?
@@너클즈디에키드나 아마 개인디코로 봇이 문자 하나 보냇을거에요 거기 링크에서 봇 아닙니다 채크 해주면 대요
@@이슨제-r9v 감사합니다! 다시 도전하겠습니다
혹시 맥os에서도 사용이 가능한가요?
M1 프로에서 했을땐 됐었던것으로 기억합니다
님 그동안 어디 가셨었나요..
거의 반응 영상의 원조격이셨는데 ㅠㅠ
이직때문에 바빴고.. 반응영상 따로 유툽에 올리지 말래서 쉬고 있었습니다..
@@최고다비챤 앗 그렇군요.. 제일 영상 퀄리티가 좋았던 분이라 아쉽네요 흑
노래만 잘듣다 갑니다 ㅋㅋㅋ
공식 가이드상 config.yaml if you are using the 24kHz vocoder, or config_nsf.yaml if you are using the 44.1kHz vocoder, 라고 하네요
넵 감사합니다
중간에 에러가 떠서 못하고 있네여 ㅠㅠㅠ
분명이 한국어인데 내가 대가리가 딸리나??왜 못알아보겠지??ㅋㅋㅋ
결과물 키 조절은 어떻게 하면 되나요?
github.com/wlsdml1114/diff-svc/blob/main/infer.py#L82
키조절이 pitch조절과 같은걸로 알고 있습니다.
해당 값 조절하면 됩니다.
아.. 해보고싶은데 디스코드채널에서 막히네요.. ㅠㅠ
제 그래픽카드는 인텔인데 바이너리화가 계속 안 돼요.
쿠다를 지원안해줘서 그런거 같습니다
이전에 학습한거로 추가학습으로 하려면 어떻게 해야 하나요?
모델 선언하고 Checkpoint load하시면 됩니당
코드로는 따로구현안해놨던거 같아요
@@최고다비챤 잘 몰라서 그런데 자세히좀 알려 주실 수 있을까요?
체크포인트 불러와서 진행하는방법을 다른분이 공유해주셨습니다.
github.com/wlsdml1114/diff-svc/issues/5
@@최고다비챤 몇스텝까지 학습하는게 좋은가요? 많이 할수록 좋은거겠죠?
Skip item (CUDA out of memory. Tried to allocate 1024.00 MiB (GPU 0; 3.00 GiB total capacity; 1.94 GiB already allocated; 0 bytes free; 2.47 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF). item_name: data\mechkane\kjh2-000.wav, wav_fn: data\mechkane\kjh2-000.wav
18%|██████████████▌
binarize 할 때 계속 CUDA 오류 뜨는 거 같아서 max_sentences를 1로 줄여봐도 오류가 사라지지 않는 거 같습니다
어떻게 해야 좋나요
max_sentences를 너무 작게하는건 추천드리지 않습니다.
공식 문서에서는 최소 6기가 비디오램이 필요하다고 하는데, 3기가밖에 없으시네여
아나콘다 prompt에
set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:100
입력해보시고 그래도 안되면 다시 답글달아주십쇼
왠만하면 max_sentences를 조금 늘려주세요
공식적으로 권장하는거는 낮게 잡았을 때 6 또는 8같네요
@@just_hyowon 해당 코드 입력해서 실행해도 똑같이 CUDA 오류 뱉어냅니다
1060으로는 가망도 없는가 보네요
@@OneDayHeMightMakeYouSad 코랩으로 돌리시면 되기는 합니다만, 자세히 듣고싶으시면 디코 아이디 남겨두셔요
연락드릴께
@@just_hyowon 원래 코랩으로 돌리다가 드라이브 폴더 인식을 계속 못하고 GPU 사용량도 걸려서 로컬로 돌리는 거긴 합니다
@@OneDayHeMightMakeYouSad 코랩 무료여도 GPU 메모리를 12기간가 주지 않나요?
융터르 제바아아아아알 아아아아알아아아아아아아아아알
파일이 m4a여서 파일 안되는거 같앙쇼
Mp4로 변환해서 넣어보세용
Hubert 까지 했다 나 자신아
지금은 막혔나요??
아뇹 해보니까 잘되네용
혹시 M1MAX에서 굴러가나요?
M1 pro에서는 테스트해봤는데
Cuda를 mps로 바꾸고 해보시면될거에용
아...잘가다가 데이터 전처리 과정에서
노멀라이징 작업 중...: 0%| | 0/106 [00:00
저는 ffmpeg path 설정하고 재부팅하니까 해결되더라고요
성공했다!!!!!
1트 어떻게 하는지 모르겠음
2트 설치 잘못함
3트 마지막 삑사리
4트 정보량 부족(2시간짜리 방송본이 칼질이 되지 않음)
5트 음원이 안잘린다
6트 IndexError: list index out of range 에러
7트 뭔 이유때문인지 에러가 존나뜸
8트 이유 모름
9트 학습중 자러간다 야팔
- 27시간 25만스텝 완료
성공
인덱스 에러 어캐 해결하셨나요
@@XD-tp2ed 그냥 다 삭제하고 다시했어요 영상 말고 diff-svc커뮤니티 내에서 하라는 대로 했더니 됐어요
구체적으로 알 수 있을까요??? 저도 똑같이 막혀서
융터르네ㅋㅋㅋㅋ
추가 라이브러리 2 pip install requi...어쩌고 했는데
ERROR: Ignored the following versions that require a different python version: 0.52.0 Requires-Python >=3.6,=3.6,
파이썬 3.8로 내려주세요
3.9이상에선 안돌아가용
@@최고다비챤 아 제가그냥 파이썬을 내리면 되나 보군요. 빠른 답변 감사합니다. 얼른 하고싶네요..ㅎㅎ
근데 여기에서는 3.9로 넣으라 했는데 3.8로 낮춰도 문제없는 건가요? 제 로컬 환경이 이상한건가..?
@@최고다비챤 정말 모르겠습니다.. 진짜 시키는 대로에다가 3.8, 3.9 둘 다 확인해보고 안 되서 diff-svc의 가상환경 삭제하고 다시해보고 반복하고, cuda 그래픽 카드 버전 맞는지도 확인했는데, 3070이라 가능한 거 같고 pip install -r requirements.txt해봤는데 다 안되네요..cuda도 내려야 하는건가요..?
엥 처음 댓글은 에러만보고 말씀드린거라 신경쓰지마세요 제가 잘못말함
어떤커맨드 써서 나신오류인가요
커맨드랑 오류전문을 같이 써주세요
torch1.12.1+cu113을 설치할 이유가없는데 왜뜨지..?
혹시
| Binarizer:
Traceback (most recent call last):
File "/content/diff-svc/preprocessing/binarize.py", line 20, in
binarize()
File "/content/diff-svc/preprocessing/binarize.py", line 15, in binarize
binarizer_cls().process()
File "/content/diff-svc/preprocessing/SVCpre.py", line 29, in __init__
super().__init__(item_attributes)
File "/content/diff-svc/preprocessing/base_binarizer.py", line 52, in __init__
assert all([attr in self.item_attributes for attr in list(self.items.values())[0].keys()])
IndexError: list index out of range
이 오류가 왜 나는지 알 수 있을까요
노래를 폴더안에 잘 넣으셨는지 확인해주세용
전처리 단계를 안해서 그럴수도 있구용
저도 같은 현상이 있었고 다시 보면서 빠트린게 있나 점검해보니 야믈파일에 경로를 안 고쳐서 그런거였어요
@@이도연-f8k9u 야물파일이 뭔가요 저도 여기서 막혀서..
@@shadow-3021 영상 중간에 yaml 파일 수정하는 부분이 있었는데 그걸 안 하고 건너뛰어서 그런거였습니다
@@이도연-f8k9u 영상과 똑같이 했는데 안되네요..
아나콘다 설치시 디폴트로 파이썬 3.11설치 들어가느데 이거 옵션 끄고 하셨나요? 나중에 의존성문제 없는지 궁금합니다