Пару недель назад я пробовал просчитать голос девочки (пела на русском языке) и мне нужно было из неё сделать поющую на украинском. В целом на 97% вышло хорошо! Там правда есть момент в голосе, который потом подавать. Ну и от качества исходника тоже многое зависит! Лучше конечно использовать студийные записи голоса, сухой, без обработки
Давно нет новых видео. Кажется, baiyya, наконец-то, получил Tesla и занялся обучением моделей на DeepFaceLab :) Кстати, можно было бы попутно запилить гайд по установке и настройке Tesla...
Если ты сделаешь русскую базу для создания голосовых моделей - это будет фантастика, мне это сейчас прям ну очень нужно для озвучки одной старой игры ♥
Здравствуйте, столкнулся с проблемой, при запуске кагла время доходит до 270 секунд и останавливается, пишет вот это ошибку - Canceled by backend. Exit code: 137
Тут скорее важно качество дата сета и донора впоследствии, если что то из этого с шакальным качеством, артефактами, не чётким произношением, в последствии и появляются косяки. У меня датасеты прописанные на студии и там же записанные доноры дают почти идеальное произношение без акцента артефактов и др.багов,не подготовленный человек вообще не поймёт, что это нейросеть.
у меня тоже доноры студийные. что не мешает одним датасетам в итоге звучить идеально а другим с ужасным английским акцентом. видимо реально дело в произношении самого донора
Вообще, я хотел сделать мув 9000IQ и натаскать сеть на свой конденсаторный микрофон, чтобы получать высокое качество из беспроводных наушников на рабочих созвонах, без необходимости перекрывать половину мониторов пантографом. Но вляпался в те самые косяки со звонкими, ударными и рычащими звуками, которых нет в базовой модели. Интересно, есть ли вариант обучения "только для себя" базовой модели с последующим слиянием с некой общей моделью? Если так - думаю, люди будут только рады вложиться в этот процесс - надиктовать нужные слова, заполнить меты, натренить своими мощностями и опционально отправить на слияние.
А вот мне не понятно. А откуда,например, взялись каверы AI Цой? Ведь там всё чётко. Это что у кого-то уже есть база? Просто для широкой публики она закрыта?
Кто мешает самому себе базу сделать и лично пользоваться?) я так же могу сделать и не выкладывать ее на публику) может кто-то дотренеровал для себя, что навряд ли. Просто удачные песни берут, куда голос артиста норм ляжет, то и выкладывают. Вот это скорее всего
Точно лайк и подписка, нигде не нашел, для тренировки моделей какая куча маленьких семплов нужна? И ещё там должны быть тональности (буквы) или подольше (слова) или вообще куски текста по 10 секунд и более?
Добрый день! Подскажите, пожалуйста. Вот обучил модель, но сам голос получился каким-то с грузинским акцентом или как будто американец говорит по-русски :D Оригинал аудио треки там все ОК звучит без акцентов, а вот через модель прогнать речь то всю малину портит акцент. Как-то можно хотя бы чутка убрать акцент?
А я думаю,, Почему у меня получается голос как у японца и дагестанцев вперемешку Ну и отчасти русского. И в тайне винил изготовителя моей модели Хотя местами бывает неплохо. Я верю в русских программистов в русских кулибиных! И конечно же вам удачи и завершения ваших мечт и наших кстати тоже!
Привет! Вижу, что видео уже больше полугода. Не знаю, на каком в данный момент ты этапе на пути к созданию русскоязычной модели, если можно поучаствовать в создании датасета -- наговорить фразы и прислать тебе записи -- пиши.
Увлекательно и сильно упрощает мою работу, спасибо! Есть такой вопрос, если модель обучиться на множестве треков в которых примерно один и тот же текст но в разных интонациях и настроениях, после чего приложению понадобится наложить речь на голос с примерно тем же текстом. Озвученых ошибок в русском не будет меньше, или это не сыграет роли? И почему нельзя использовать для обучения русские голосовые библиотеки проекта на GitHub: Multi-Tacotron-Voice-Cloning?
К слову об артефактах... как сделать русскую модель из английских дата сетов ? Обученная модель говорит с "акцентом". Тут недавно трейлер озвучивали и достаточно хорошо, но уверяют что образцы брали из оригинальных голосов трейлера. Попробовал - получил акцент. Мб обученную модель надо как то клеить со сторонней русской ? Но не получится ли уже 3й голос...
та же самая проблема. русский датасет > русский без акцента, английский с русским акцентом; инглиш датасет > инглиш без акцента, русский с английским акцентом. + на русском у меня на звуках "с", "ш", "щ" выскакивают артефакты. как-то смог решить эту проблему с акцентом?
Я делаю дикторские голоса. Почему то некоторые голоса копируются отлично и потом работают без какого либо акцента и проблем, а некоторые прям с ооочень сильным английским акцентом. Непонимаю почему так происходит. При том что датасеты все плюс минус одинаковые , одинаковые настройки, только сам собственно тембр голоса отличается на входе.
Своя база это конечно хорошо, но сейчас заметил проблемы с той, что уже есть. А если точнее не с датасетом, а с самим коллабом. Причём не только у меня (думал лимиты превысил на всех аккаунтах и гугл ругается), но и у других челов которые только запустили. Он останавливается, причём по разным таймингам. Может через 5 минут после запуска, или через 2 часа когда эпохи почти закончились. Я уже 4 дня пытаюсь создать модель голоса одной девки, но всё время коллаб останавливается без предупреждения. И не важно открыт коллаб поверх всех окон или просто на фоне. Проблема эта появилась недавно, пару недель назад всё работало. Щас после остановки он пишет "Подключиться повторно", и понятное дело после этого продолжить загрузку не получится. Бекапы кстати тоже не сохраняются, error пишет
Пробовали в консоли чёт прописывать (то что на форуме нашёл), пробовали с впн. Нифига( Щас уж думаю на ресурсах своего среднего пк поискать прогу чтоб создавать, хз. Пока не нашёл такой, слепой. Попадались некоторые, но там вроде другая модель создаётся, не такая как тут, с индексом. Там модели больших размеров
Здравствуйте, ролик безумно интересный, сам пользуюсь вашими гайдами и rvc в колабе. Но вот у меня возникло много вопросов, да я понимаю что обучение на славянских языках это по сути проект отложенный на долгий ящик через лет 5, но вы думаете об этой идее и это круто. Возник вопрос по видеокарте, есть ли смысл использовать p40 когда есть k80 на 24 gb, Они в целом похожи, обе нормальные, но k80 ест питания чуть побольше, но сама стоит дешевле, причем нормально так, 24 тысячи р40 и 15 k80, А также вопрос по связи данных карточек, просто если брать масштаб обучения такого датасета, то и карты должны работать на максимум как это обеспечить? Nvlink По данным из сети не поддерживает данные карты это уже -прирост, SLI не даст полноценно раскрыться видеокартам, а что тогда остаётся? чем соединять даже вторую карту, когда 3 конечно было бы лучше. В любом случае спасибо за контент и данную информацию
В к80 нет смысла, частота gpu в 2 раза ниже. Это уже будет узким горлышком. В 2 раза меньше cuda ядер. Не говоря уже о производительности 4 терафлопса, в то время как у p40 12. Так что грубо говоря 2 k80 только смогут заменить p40 одну) p40 по всем фронтам опережает k80, кроме цены и то та не на много и отличается) Ну райзеров несколько поставить да запустить, с запуском проблем не будет, работал уже на таких машинах с несколькими видеокартами, опыт есть
разве 5 тысяч cuda мало? насчёт терафлопсов могу согласится лишь частично, ведь у нас идёт такое сравнение, у нас получается так, fp16: p40-130гигафлопсов, против 1,3 в к80, да в 32 р40 выдает 12 терафлопс, против 9 в к80, но новый чип, скорость и куда не могут противостоять?
А възможно ли е да обуча глас със свой dataset, само с моя акцент? Т. е. база от един човек, използвана след това само от мен. Така RVC може би ще разбира правилно моя акцент, букви.
в какой то момент, еще перед тем как выдать ссылку, с кодом происходит дичь: [?25h Installing build dependencies ... [?25l- \ | / - \ после этого вылетает
@@-kuler882 нашел ru притрейн от "снежка" но он, что то не .очень. Интересно, а как другие делают без акцента.. Видимо у кого то есть уже такие натренированные базы
@@ba1yya ну если в этом понимать) на ютубе есть ролики как это сделать, но проще по вашим урокам и ссылкам заменить лицо на видео, поменяв при этом голос, чем отредактировать 1 фото по урокам других людей)
@@F-rr7ku Не знаю, скорее нет, чем да. Можно попробовать плагины обработки звука, особенно те, которые позволяют работать со спектрограммой, но, не думаю, что это даст хороший результат. Можно поискать акапеллы без бэков, можно спеть самому без бэков, можно попросить спеть кого-то без бэков...
Ребята, а как можно исправить треск? Заменил голос на нужный, и в принципе всё получилось нормально, за исключением того как будто слышен какой то треск позади слов. А ещё может кто нибудь подсказать как получить наиболее хороший результат вокал/инструментал в uvr5? Автору успехов!
@@RamzikTM реаерберация? Или еле слышный инструментал в вокале? Что то из этого? Я просто не разобрался до конца как правильно и чем вытаскивать вокал. Кстати, не знаешь как можно разделить вокал и бэк вокал чтобы оно правильно без дефектов ложилась?
@@vadddd_1 Это может быть и как хреново вытащенный вокал со слышимой музыкой, так и какие то посторонние шумы (лай собак, звук дороги) если работаешь с аудиозаписями не из песен
@@vadddd_1 разделяю музыку и вокал сам через эти сайты нейросетей. Да, хреново, но я не любитель каверов. Делаю голоса для других целей, не для музыки. Только щас гугл коллаб сломан, кагл херню творит, а свои мощности ПК не особо если делать локально
Здравствуйте, у меня возникла небольшая проблема, делал на своем пк через RVC, я хочу до обучить свою модель но в консоли идет сохранение и чекпоит на 190 эпохе, но в Inferencing voice отображается только 150 эпоха, что я делаю не правильно, заранее спасибо за ответ)
встретил тут на просторах интернета канал Mautoz Tech, может и этот парень заинтересуется темой, тем более про tesla p40 знает не по наслышке, ох как не по наслышке.
@@nikolaydd6219 высокий бач дает скорость, но не качество. Про это можешь в интернете почитать. Чем медленнее обучается модель тем лучше качество. Если в кратце. Сам можешь сравнить сделать тесты)
@@10E_Ai_Production бачь сайз очень сложная штука. О ней вечно спорить можно. Нужно под свою карту индивидуально подбирать параметры. На той же 3060 12 гигов и у меня на 3080ti 12. Мы в теории можем выставить одинаковый сайз, только сам чип gpu у 3060 запутается. Представь что бачсайз это напор воды, память видеокарты это воронка, а сам чип ГПУ это диаметр отверстия в этой воронке. Так вот воронка у нас одинаковая, напор тоже, но диаметр отверстия разный. У 3060 он маленький, и скоро воронка наполнится до краев, при таком напоре воды, вода до верха воронки дойдёт и выливаться будет. В то время как на 3080ti все норм будет. Так как отверстие соразмерно этому напору, и вода успевает выливаться из воронке и никакого перелива нет)
Судя по всему, в новой версии обратная ситуация)) У меня почему то русский суперски говорит, а английский с акцентом, околорусскиим. Интересно, почему так происходит
С одной стороны, отсутствие волонтёров - это печально. Столько идей и так мало ресурсов. Но с другой.... Да слава яйцам! Миллиардные корпорации с уничтожением мира и без нашей помощи прекрасно справляются. Вот скриньте: будет катастрофа. Чтоб я провалился, доиграемся. Мне очень интересна вся эта тема, я бы и сам много чего сделал, будь у меня побольше знаний, но мы просто открываем врата в "ад" развитием этой шляпы.
Спасибо тебе за информативный канал. Благодаря тебе я сумел сделать замену своего голоса на эталонный женский и... разочаровался. Надо пояснить, что я озвучиваю аудиокниги. И очень хотел в своих озвучках разложить голоса по персонажам с помощью нейросети. Но ни как не мог понять механику процесса пока мне не указали на тебя. Но результат разочаровал. Все как ты и говоришь в этом ролике - невнятное "Р" проглатывает"Ч" и "Щ" - Вроде реплики звучат отлично. Голос женский на 100% но артефакты все портят. Такое низкое качество я не могу допустить. Перфекционизм не позволит. В нерокаверах песен это практически не заметно. Но в прямой речи без фонового шума (музыки) четко слышно. Видимо придется ждать когда ты совершишь свой "подвиг Геракла" и дотренируешь англосаксонскую базу. Удачи тебе. И денег на бусти тоже подкину. (Но если есть какой нибудь альтернативный метод "менять гендер" фонограммы - может подскажешь?)
Привет! Спасибо за всё что делаешь. Цель реально очень крутая! Я музыкант и часто провожу время на студии. Если что, я и 3 моих коллеги готовы записать семплы на проф оборудование в идеальных условиях. @Rykin52 tg
Создание своей базы - звучит грандиозно! Желаю удачи
вопрос как ее сделать вообще?
Супер, будет!!!
@@MrNanonitТакой же вопрос... 😊😊😊😊😊😊😊😊😊😊😊😊😊😊😊
Ага!!!:))).
Готов принять участие)))
Автор, надо создавать собственную русскую базу, если реализуешь это будет просто шикарно
Ооо, затея классная, планы грандиозные! Мы все будем с нетерпением ждать выполнения твоей затеи!
Намёк не понял?
@@LALKOM нет
@@kodowii Финансовая помощь от нас, ибо реал дорого стоит оборудование
Крутые планы, но нужны ОЧЕНЬ большие ресурсы, надеюсь насобираем, спасибо за труд, видно, что глаза горят)
Пару недель назад я пробовал просчитать голос девочки (пела на русском языке) и мне нужно было из неё сделать поющую на украинском. В целом на 97% вышло хорошо! Там правда есть момент в голосе, который потом подавать. Ну и от качества исходника тоже многое зависит! Лучше конечно использовать студийные записи голоса, сухой, без обработки
Давно нет новых видео. Кажется, baiyya, наконец-то, получил Tesla и занялся обучением моделей на DeepFaceLab :) Кстати, можно было бы попутно запилить гайд по установке и настройке Tesla...
Вот это мы смотрим🎉
Если ты сделаешь русскую базу для создания голосовых моделей - это будет фантастика, мне это сейчас прям ну очень нужно для озвучки одной старой игры ♥
Да, будет супер, можно будет озвучивать дубляж разных фильмов, со старыми голосами актёров. Русскоязычных...
Да. + +...
Ага!!!:)))...
Очень полезная информация, спасибо огромное за ваш труд, продолжайте в том же духе ))))
Здравствуйте, столкнулся с проблемой, при запуске кагла время доходит до 270 секунд и останавливается, пишет вот это ошибку - Canceled by backend. Exit code: 137
Каггл сейчас не пашет, не знаю сколько это продлится, но сейчас все тренируют локально, через свое железо.
Проблема в том, что файлы не копируются в папку dataset.
Раздели команду и будет тебе все.
Тут скорее важно качество дата сета и донора впоследствии, если что то из этого с шакальным качеством, артефактами, не чётким произношением, в последствии и появляются косяки. У меня датасеты прописанные на студии и там же записанные доноры дают почти идеальное произношение без акцента артефактов и др.багов,не подготовленный человек вообще не поймёт, что это нейросеть.
у меня тоже доноры студийные. что не мешает одним датасетам в итоге звучить идеально а другим с ужасным английским акцентом. видимо реально дело в произношении самого донора
Вообще, я хотел сделать мув 9000IQ и натаскать сеть на свой конденсаторный микрофон, чтобы получать высокое качество из беспроводных наушников на рабочих созвонах, без необходимости перекрывать половину мониторов пантографом. Но вляпался в те самые косяки со звонкими, ударными и рычащими звуками, которых нет в базовой модели.
Интересно, есть ли вариант обучения "только для себя" базовой модели с последующим слиянием с некой общей моделью?
Если так - думаю, люди будут только рады вложиться в этот процесс - надиктовать нужные слова, заполнить меты, натренить своими мощностями и опционально отправить на слияние.
Спасибо за видосы
Крутяк!!! 😮😮😮😮😮😮😮😮😮😮😊😊😊😊😊😊😊😊😊😀😀😀😀😀😀😀😀👍👍👍👍👍👍👍👍😊😊😊😊😊😊😊😊😊😊😊😊😊😊😊😊😊😊😊😊
Ждать как говорится
Вопрос по подготовке Dataset-ов. 1) Моно или стерео? 2) Нужно ли избавляться от всевозможных а-а-а-а, э-э-э-э-э, м-м-м-м-м-м, вздохи?
А вот мне не понятно. А откуда,например, взялись каверы AI Цой? Ведь там всё чётко. Это что у кого-то уже есть база? Просто для широкой публики она закрыта?
Кто мешает самому себе базу сделать и лично пользоваться?) я так же могу сделать и не выкладывать ее на публику) может кто-то дотренеровал для себя, что навряд ли. Просто удачные песни берут, куда голос артиста норм ляжет, то и выкладывают. Вот это скорее всего
Когда будешь создавать базу то я готов поговорить на микрофон готовые фразы для создания базы)) Микро у меня хороший, шумы чистить умею
Точно лайк и подписка, нигде не нашел, для тренировки моделей какая куча маленьких семплов нужна? И ещё там должны быть тональности (буквы) или подольше (слова) или вообще куски текста по 10 секунд и более?
Добрый день! Подскажите, пожалуйста. Вот обучил модель, но сам голос получился каким-то с грузинским акцентом или как будто американец говорит по-русски :D Оригинал аудио треки там все ОК звучит без акцентов, а вот через модель прогнать речь то всю малину портит акцент. Как-то можно хотя бы чутка убрать акцент?
А я думаю,, Почему у меня получается голос как у японца и дагестанцев вперемешку Ну и отчасти русского. И в тайне винил изготовителя моей модели Хотя местами бывает неплохо. Я верю в русских программистов в русских кулибиных! И конечно же вам удачи и завершения ваших мечт и наших кстати тоже!
Привет! Вижу, что видео уже больше полугода. Не знаю, на каком в данный момент ты этапе на пути к созданию русскоязычной модели, если можно поучаствовать в создании датасета -- наговорить фразы и прислать тебе записи -- пиши.
Увлекательно и сильно упрощает мою работу, спасибо! Есть такой вопрос, если модель обучиться на множестве треков в которых примерно один и тот же текст но в разных интонациях и настроениях, после чего приложению понадобится наложить речь на голос с примерно тем же текстом. Озвученых ошибок в русском не будет меньше, или это не сыграет роли? И почему нельзя использовать для обучения русские голосовые библиотеки проекта на GitHub: Multi-Tacotron-Voice-Cloning?
К слову об артефактах... как сделать русскую модель из английских дата сетов ? Обученная модель говорит с "акцентом". Тут недавно трейлер озвучивали и достаточно хорошо, но уверяют что образцы брали из оригинальных голосов трейлера. Попробовал - получил акцент. Мб обученную модель надо как то клеить со сторонней русской ? Но не получится ли уже 3й голос...
та же самая проблема. русский датасет > русский без акцента, английский с русским акцентом; инглиш датасет > инглиш без акцента, русский с английским акцентом. + на русском у меня на звуках "с", "ш", "щ" выскакивают артефакты. как-то смог решить эту проблему с акцентом?
*Как обучить модель в Kaggle? (не дообучить, а именно обучить с нуля на новом коде), поскольку другие твои видео к новому коду никак не подходят*
Сейчас Titan V подешевел на алике до 50к, а это практически одно и тоже, что Tesla V ))
Топ ...
Я делаю дикторские голоса. Почему то некоторые голоса копируются отлично и потом работают без какого либо акцента и проблем, а некоторые прям с ооочень сильным английским акцентом. Непонимаю почему так происходит. При том что датасеты все плюс минус одинаковые , одинаковые настройки, только сам собственно тембр голоса отличается на входе.
Своя база это конечно хорошо, но сейчас заметил проблемы с той, что уже есть. А если точнее не с датасетом, а с самим коллабом. Причём не только у меня (думал лимиты превысил на всех аккаунтах и гугл ругается), но и у других челов которые только запустили. Он останавливается, причём по разным таймингам. Может через 5 минут после запуска, или через 2 часа когда эпохи почти закончились.
Я уже 4 дня пытаюсь создать модель голоса одной девки, но всё время коллаб останавливается без предупреждения. И не важно открыт коллаб поверх всех окон или просто на фоне. Проблема эта появилась недавно, пару недель назад всё работало.
Щас после остановки он пишет "Подключиться повторно", и понятное дело после этого продолжить загрузку не получится.
Бекапы кстати тоже не сохраняются, error пишет
Пробовали в консоли чёт прописывать (то что на форуме нашёл), пробовали с впн. Нифига(
Щас уж думаю на ресурсах своего среднего пк поискать прогу чтоб создавать, хз. Пока не нашёл такой, слепой. Попадались некоторые, но там вроде другая модель создаётся, не такая как тут, с индексом. Там модели больших размеров
Гугл запретил использовать бесплатные мощности. Менял 2 раза код, 5 часов поработало и все, заблокировали. Так что колаб RIP
Здравствуйте, ролик безумно интересный, сам пользуюсь вашими гайдами и rvc в колабе. Но вот у меня возникло много вопросов, да я понимаю что обучение на славянских языках это по сути проект отложенный на долгий ящик через лет 5, но вы думаете об этой идее и это круто. Возник вопрос по видеокарте, есть ли смысл использовать p40 когда есть k80 на 24 gb, Они в целом похожи, обе нормальные, но k80 ест питания чуть побольше, но сама стоит дешевле, причем нормально так, 24 тысячи р40 и 15 k80, А также вопрос по связи данных карточек, просто если брать масштаб обучения такого датасета, то и карты должны работать на максимум как это обеспечить? Nvlink По данным из сети не поддерживает данные карты это уже -прирост, SLI не даст полноценно раскрыться видеокартам, а что тогда остаётся? чем соединять даже вторую карту, когда 3 конечно было бы лучше. В любом случае спасибо за контент и данную информацию
В к80 нет смысла, частота gpu в 2 раза ниже. Это уже будет узким горлышком. В 2 раза меньше cuda ядер. Не говоря уже о производительности 4 терафлопса, в то время как у p40 12. Так что грубо говоря 2 k80 только смогут заменить p40 одну) p40 по всем фронтам опережает k80, кроме цены и то та не на много и отличается)
Ну райзеров несколько поставить да запустить, с запуском проблем не будет, работал уже на таких машинах с несколькими видеокартами, опыт есть
разве 5 тысяч cuda мало? насчёт терафлопсов могу согласится лишь частично, ведь у нас идёт такое сравнение, у нас получается так, fp16: p40-130гигафлопсов, против 1,3 в к80, да в 32 р40 выдает 12 терафлопс, против 9 в к80, но новый чип, скорость и куда не могут противостоять?
А възможно ли е да обуча глас със свой dataset, само с моя акцент? Т. е. база от един човек, използвана след това само от мен. Така RVC може би ще разбира правилно моя акцент, букви.
в какой то момент, еще перед тем как выдать ссылку, с кодом происходит дичь:
[?25h Installing build dependencies ... [?25l- \ | / - \
после этого вылетает
👍
Я готов записать голос для такой великой цели, на телеграм подписался, жду анонсов. Так же готов вдонатить немного. Думаю я не один такой
Для Создания Словянской Базы нужно много людей привлеч, ну кто шарит за это, кто-то сможет помочь
когда колаб почините?
Он работает. Зачем его чинить то
Сегодня утром его обновлял
чувак, буть у меня такие деньги я бы с удовольствием поддержал этот проект по Славянской базе, есть ли варианты арендовать видеокарты?
Уже 1.8 просмотров, почти две недели нет видео(
Даже на новом скрипте 14.09 вылезает ошибка Exit code: 137
Прошло шесть месяцев нет новостей по базе?
Нет, в ближайшее время вообще не стоит ждать русский хуберт
@@-kuler882 нашел ru притрейн от "снежка" но он, что то не .очень. Интересно, а как другие делают без акцента.. Видимо у кого то есть уже такие натренированные базы
Что-то перестало работать. Когда уже готовую модель гружу (
TensorFlow installation not found - running with reduced feature set.
Короче решил проблему. Надо было юзать более ранюю версию блокнота, без тензорных этих ядер ))
Где ссылка на статью, про которую говорит автор?
Ролики как всегда хороши. Но почему картинка с твоей веб-камеры так виснет? Словно там не 60 кадров
Там их и не 60) а 25 вроде
Подскажите как продолжить обучение с момента где остановился? 200e_59600s_best_epoch.pth
Привет! Я так пронял что Kaggle и Colab RIP... Есть какая-то замена? Т.к на пк в разы дольше делать.
Отличная идея дообучить на русском. Я готов помочь даже если нужна помощь
А где обещанная ссылка на статью?
Где пропал ??
Когда будет возможность дотренировки своей модели на кагле?
Когда нибудь. Не могу сроков сказать
Куда пропал админ канала?(
Ссылку на статью не прикрепил
+1
Я заметил, что чем больше эпох при обучении, тем больше акцент, у меня на 300 эпохах акцент сильно выражен, а на 200 уже почти нету о.о
интересно, надо будет проверить
Замена голоса есть, замена лица на видео есть, а замена лица на фото будет в такой же понятной и простой форме?)
Возможно будет. На фото это слишком просто сделать)
@@ba1yya ну если в этом понимать) на ютубе есть ролики как это сделать, но проще по вашим урокам и ссылкам заменить лицо на видео, поменяв при этом голос, чем отредактировать 1 фото по урокам других людей)
почему не видно модель? нажимаю на кнопку и там пусто
Под, кажите, если песня с бэквокалом, то как избежать артефактов при обработке голоса?
Никак. Убирать бэк-вокал из исходника
Это возможно? Есть способ?@@EugeneStarky
@@F-rr7ku Не знаю, скорее нет, чем да. Можно попробовать плагины обработки звука, особенно те, которые позволяют работать со спектрограммой, но, не думаю, что это даст хороший результат. Можно поискать акапеллы без бэков, можно спеть самому без бэков, можно попросить спеть кого-то без бэков...
А где ссылка о которой говорил автор на статтю где можно почитать за то как делали обученик моделей и тд
paperswithcode.com/dataset/vctk
У меня есть мощные видяхи. Скажи как базу дообучить? Может я сделаю часть работы.
@@Юти-г5к RTX 3090 24Gb, при обучении бач 40 работает на ура. В принцепе любые карты купить не проблема если для дела)
привет, почем делаешь голоса ?) С меня нарезка.
@@nikolaydd6219привет, как обучать hubert модель, ты разобрался?
Какое примерно временное ограничение по датасету?
Никакого
А как у некоторых получается шикарно заменять голоса ?
Ты не знаешь значит, что такое шикарно) если такое говоришь)
Можно тебе привести пример ?@@ba1yya
@@ba1yyaну так а как?(
Ребята, а как можно исправить треск?
Заменил голос на нужный, и в принципе всё получилось нормально, за исключением того как будто слышен какой то треск позади слов.
А ещё может кто нибудь подсказать как получить наиболее хороший результат вокал/инструментал в uvr5?
Автору успехов!
Треск возможно из-за посторонних звуков в первоначальном аудио
@@RamzikTM реаерберация?
Или еле слышный инструментал в вокале?
Что то из этого?
Я просто не разобрался до конца как правильно и чем вытаскивать вокал.
Кстати, не знаешь как можно разделить вокал и бэк вокал чтобы оно правильно без дефектов ложилась?
@@vadddd_1 Это может быть и как хреново вытащенный вокал со слышимой музыкой, так и какие то посторонние шумы (лай собак, звук дороги) если работаешь с аудиозаписями не из песен
@@vadddd_1 разделяю музыку и вокал сам через эти сайты нейросетей. Да, хреново, но я не любитель каверов. Делаю голоса для других целей, не для музыки. Только щас гугл коллаб сломан, кагл херню творит, а свои мощности ПК не особо если делать локально
Если пользуешься UVR на ПК, можешь поискать другие модели. Если пользуешься через сайт, то есть пару коллабов для разделения вокала
Здравствуйте, у меня возникла небольшая проблема, делал на своем пк через RVC, я хочу до обучить свою модель но в консоли идет сохранение и чекпоит на 190 эпохе, но в Inferencing voice отображается только 150 эпоха, что я делаю не правильно, заранее спасибо за ответ)
В вейдингс папке смотри. У тебя значит там нет 190 эпохи
@@ba1yya а как сделать чтобы она там появилась?
Простите, а что такое «спич»?
встретил тут на просторах интернета канал Mautoz Tech, может и этот парень заинтересуется темой, тем более про tesla p40 знает не по наслышке, ох как не по наслышке.
Пиши чем помочь - поможем чем сможем.
Может кстати в качестве некомерческой просьбы отписать в гугл коллаб или кагл, может помогут с мощностями?
А смысл им нам помогать? В этом нет никакой выгоды
Tesla P40 на много слабей RTX 3090? RTX 3070?
Ну тут не мощность нужна. А видеопамять сама) 3090 80-90тр, с 24 гигами. А p40 с теми же 24 20-25тр есть разница)
@@ba1yya Я замерял 3090 быстрей работает чем 3070 в 3,5 раза. Бач у 3070 был 5, у 3090 24 (иногда 32).
@@nikolaydd6219 высокий бач дает скорость, но не качество. Про это можешь в интернете почитать. Чем медленнее обучается модель тем лучше качество. Если в кратце. Сам можешь сравнить сделать тесты)
@@ba1yya Круто, получается моя 3070ti с 8 гигами очень даже ничего и нет смысла гнаться за обучение моделей с памятью в 24, как у 3090?
@@10E_Ai_Production бачь сайз очень сложная штука. О ней вечно спорить можно. Нужно под свою карту индивидуально подбирать параметры. На той же 3060 12 гигов и у меня на 3080ti 12. Мы в теории можем выставить одинаковый сайз, только сам чип gpu у 3060 запутается.
Представь что бачсайз это напор воды, память видеокарты это воронка, а сам чип ГПУ это диаметр отверстия в этой воронке. Так вот воронка у нас одинаковая, напор тоже, но диаметр отверстия разный. У 3060 он маленький, и скоро воронка наполнится до краев, при таком напоре воды, вода до верха воронки дойдёт и выливаться будет. В то время как на 3080ti все норм будет. Так как отверстие соразмерно этому напору, и вода успевает выливаться из воронке и никакого перелива нет)
Судя по всему, в новой версии обратная ситуация)) У меня почему то русский суперски говорит, а английский с акцентом, околорусскиим. Интересно, почему так происходит
Можно поподробнее, из какого репозитория это?
@@leftybot7846 Можно по руззки?))
@@NeonGun ну откуда качал, с какого github репозитория/приложения/и т.д.? Просто из того что я видел, RVC всегда с акцентом генерирует
@@leftybot7846 хз. Я качал из видео этого же автора. Поголовно все что перевожу на английский, с буквой Р например НЕ картавой, а русской РРРРР
Привет, не забросил идею?
Грех не подписаться.
С одной стороны, отсутствие волонтёров - это печально. Столько идей и так мало ресурсов. Но с другой.... Да слава яйцам! Миллиардные корпорации с уничтожением мира и без нашей помощи прекрасно справляются. Вот скриньте: будет катастрофа. Чтоб я провалился, доиграемся. Мне очень интересна вся эта тема, я бы и сам много чего сделал, будь у меня побольше знаний, но мы просто открываем врата в "ад" развитием этой шляпы.
пофиг на же и ше. основной косяк в том, что она делает голос непохоже!
Автор этих роликов, baiyya(Андрей), покинул этот мир.
Откуда такая информация?
@@Сергей-н3ш4жэто фейк, он в телегу буквально сегодня заходил
головастых сейчас сманивают. мало таких осталось
напиши христу
Спасибо тебе за информативный канал. Благодаря тебе я сумел сделать замену своего голоса на эталонный женский и... разочаровался. Надо пояснить, что я озвучиваю аудиокниги. И очень хотел в своих озвучках разложить голоса по персонажам с помощью нейросети. Но ни как не мог понять механику процесса пока мне не указали на тебя. Но результат разочаровал. Все как ты и говоришь в этом ролике - невнятное "Р" проглатывает"Ч" и "Щ" - Вроде реплики звучат отлично. Голос женский на 100% но артефакты все портят. Такое низкое качество я не могу допустить. Перфекционизм не позволит.
В нерокаверах песен это практически не заметно. Но в прямой речи без фонового шума (музыки) четко слышно.
Видимо придется ждать когда ты совершишь свой "подвиг Геракла" и дотренируешь англосаксонскую базу. Удачи тебе. И денег на бусти тоже подкину.
(Но если есть какой нибудь альтернативный метод "менять гендер" фонограммы - может подскажешь?)
Без сетей на старом компе. Пишеш с ударениями ттсом, меняешь питчем и формантой. Монтажиш паузы.
Привет! Спасибо за всё что делаешь. Цель реально очень крутая!
Я музыкант и часто провожу время на студии. Если что, я и 3 моих коллеги готовы записать семплы на проф оборудование в идеальных условиях.
@Rykin52 tg