Было бы круто ещё кейс про ценообразование какой-нибудь посмотреть (например, прайсинг фин инструментов или предсказание цены в зависимости от постов в Твиттере и т.д.)!
@@Babylon010 Не жалейте, спасибо ) Обойдусь уж как-нибудь без жалости. Вместо того, чтобы жалеть, лучше бы дали "пригодный" кейс. Помогли бы начинающим.
Огромное спасибо Анастасии за ее работу. Сразу же извиняюсь на берегу и прошу не счесть за грубость. Единственный момент, - хотел бы указать на небольшую фонетическую ошибку [время 12:35]. Не "фьюче" engineering , а "фиче" engineering. Признаться сам грешу подобным - долгое время называл одну из моих любимых серий видео игр не "сайлент" hill (silent hill), а "сайленс" hill.
Интересно, можно ли так поставить гипотезы, чтобы выявить перспективные направления бизнеса конкретно в нашем случае. Скорее всего нужно огромное количество данных перелопатить.🧐 Вообще, честно говоря, это всё так интересно, находить закономерности в тонких делах.🤗
Все linear models включительно logistic regression нуждаются в нормализации данныx (например MinMaxScaler или стандартизации StandardScaler), чтобы избежать проблемы исчезающего градиента на этапе обучения.
такие вещи решаются программно так как параметров там от силы 200 например На таких данных врятли получится построить анализ алгоритм принятия решения рисует бизнес в скоринге популярны bpmn фреймворки
Анастасия, вы очень красивая девушка, которая умеет просто и понятно донести материал) Пожелание - я бы с радостью посмотрел более подробное видео с бОльшим количеством метрик, даже если бы оно растянулось на час-полтора.
Спасибо, за интересное видео. ) Не бросайте плиз канал)) Только начинаю входить в эту тему. Ваш канал очень интересен и вы доходчиво излагаете материал простым языком. Вижу, аж "Диванные Эксперты" в комментариях на галёрках приоживились и подтянулись ).. аля не концептуально сказали или разъяснили, пытаясь повысить свою диванную значимость без конкретной аргументации. Ждемс.. новых видео :) Еще раз спасибо за ваш канал )
Анастасия, на видео вы говорите, что в данном случае мы ориентируемся на метрику реколл, но например решение, выдавать клиенту кредит или нет, ситуация невозврата более неприятна, чем невыдача, как я понял вы гоорили именно об этом, то и согласно формуле надо пользоваться метрикой Пресижн
@@miracl6 немного не так написал и вы меня тоже не верно поняли, давайте тогда рассмотрим 1ый случай который вы объявили в видео "Если наша ошибка при выдаче кредита будет чень дорого стоить, например выдали кредит плахому заемщику который не возвратит" ( я так понимаю это False ), А вы говорите в данном случае лучше использовать метрику Recall. Вот, вопрос заключался в этом =)
Спасибо за урок. Но не покидало ощущение, что с метриками precision и recall есть некоторое недопонимание у ведущей. Если мы даём кредит под низкий процент, то для нас важнее метрика precision, т. е. когда мы можем доверять модели, что выдай ему кредит и он нам его вернёт. Если же мы микрофинансовая организация и выдаем кредиты под высокий процент, то для нас важнее recall, т. е. обнаружить максимальное кол-во клиентов, кому мы в принципе можем выдать кредит, пусть и не с такой высокой точностью, невозврат кредитов в таком случае мы компенсируем высокими процентными ставками.
В разделе про описательные статистики говорится про проверку гипотез. На деле она осуществляется на глазок, без использования строгих процедур, вроде, например, критерия Вилкоксона и ему подобным. Вопрос - в таких задачах строгие критерии просто не нужны или так сделано исключительно в рамках этого ролика?
Вы забыли про биннинг переменных, psi, woe. Если не смотреть эти штуки, модель может развалится на продакте через 3 месяца. А так прикольно, спасибо! Где было это видео, когда я писал диплом?))
@@miracl6 откуда уверенность что длинные видео смотреть не будет? Порог клипового мышления минут 10, если кто-то смог смотреть пол часа, значит тема ему интересна и 1.5 часа он тоже высидит
@@user-bot-asds вы как маленький. вот что лучше - сто тысяч просмотров за полуторачасовое видео, или по сто тысяч просмотров за пять двадцатиминутных видосов? чем больше контента, тем лучше автору канала - и в материальном плане тоже
@@miracl6 Предлагаю в качестве темы для следующего видео собрать статистику из Ютьюба и построить регрессионную модель для расчета оптимальной длины видео для показа на вашем канале ) (шутка:)
Бинниг переменных и woe - с этого нужно было начинать в кредитном скоринге. Но автор на эти замечания только огрызается. Пойдете ли вы учиться в такую онлайн-школу. Риторический вопрос.
На df.corr(method='pearson') имеет смысл смотреть после удаления выбросов иначе можем получить завышенную/заниженную корреляцию. Я вообще для себя понял, так как корреляции не свойственно отображать причин но-следственные связи (эффект множественных сравнений - - > повышение ошибки 1 рода), то использовать её в качестве некоторой меры взаимосвязи и тд нерационально. Это я ещё про ложную корреляцию не сказал. Так что пользоваться можно для выявления мультиколлинеарности, я строю лишь для этого.
@@miracl6 Тоже верно. Но, вообще говоря, если строго, то для этого существует стат. значимость, отдельную попарную корреляцию нужно проверять так, и не факт что она имеет практическую значимость при удовлетворении статистической :)
Здраствуйте, можете подсказать где можна праектый для анализа данных найдти чтоб практикаватса анализу. И ищо можете подсказать где можнаа набратса опытом с работой с данными?
Хочу увидеть реализацию простого примера на питон/нумпай по распознаванию fashion mnist 60k Реализация на керас посредством простой модели с одним промежуточным слоем даёт прекрасный показатель А вот ручками онли нумпай не могу реализовать градиентный спуск. Сигмоиду пробовал, гипертангенс не хотить обучаться. Думаю это может многим быть интересно.
@miracl6, спасибо за видео! но у меня вопрос: а не нужно ли проверить модель на overfitting, например? а то ми посчитали скоры, но может сама по себе модель не очень хорошая?
@@miracl6 , спасибо за быстрий ответ! но я счас стараюсь с етим разобраться и не до конца понимаю. Мы сделали GridSearchCV, где cv=3 с метрикой roc_auc. Ето значит, что для всех комбинаций гиперпараметров мы train model на 2/3 данных и validate на 1/3 данных и наша метрика для оценивания была roc_auc, усредненная по 3-ем фолдам, я правильно понимаю?? лучшая модель - ето модель с самим високим усредненным roc_auc score, да? но где мы проверяли, что на на validation set модель справляется не особо хуже, чем на train set, что и есть overfitting? сорри за длинный вопрос :)
Оффтоп: Безумно приятно, что у канала с достаточно нишевой темой (хотя сейчас хайп вокруг DS космический) такая большая аудитория. Отсюда вопрос: где твой канал в телеге? :) И раз уж на то пошло, то вот тебе идея: проанализируй аудиторию своего канала и расскажи (читай "покажи") зрителям, что данные - всюду, и если уметь ими оперировать, то можно найти интересные закономерности и логику :)
У вас классный контент, вот я уже учусь на программирование на пайтоне, но одно меня очень волнует так как я очень сильно заикаюсь и смотрю что на дата сайинтиста нужно разговаривать с клиентами по телефону, а в каком направлении в пайтоне меньше надо разговаривать с клиентами?
Почти все кто занимается данными не контактируют с клиентами. Только некоторые члены команды будут показывать результаты и обсуждать что то с другими департаментами / отделами в вашей фирме.
Во время беглого просмотра сделал мысленный перенос в Google sheets или MS Excel. Не вижу смысла ставить дополнительные надстройки Jupyter, благо, что бесплатный. Хотя у Jupyter есть плюсы, можно менять картинку в зависимости от положения ползунков. Но вот вопрос. Сможет ли обычный пользователь добавить свои параметры, о которых не было сказано в видео (истрия прошлых кредитов, криминальное прошлое, кол-во членов семьи, район проживания, сфера образования (не просто школьное, высшее, а в какой сфере - аэрокосмичечкий инженер и экономист стоят на разных ступенях). Или опять придётся импортировать библиотеки и код? Вы сами это напишите или придётся обращаться в отдел IT к разрабам? Просто по мне проще ковырять таблицы в том же Гугл, т.к. можно добавлять и добавлять ряды и столбцы. Плюс, Google Apps Script в помощь. По нему помощи будет гораздо больше, чем по тому же Jupyter.
Кто может дать ссылку на датасет из kaggle? не получается скачать так как выдает "Это соревнование с ограниченным участием. Участвовать могут только приглашенные пользователи.
А под "это" вы что имеете в виду? :) "Технологии" data science или кредитный скоринг? Если верить Википедии, социоло́гия ― наука о совместной жизни групп и сообществ людей. По-моему, и сейчас она жива ещё. Статистические модели в ней наверняка использовались и ранее, как и прочие количественные методы исследований.
@@miracl6 precision же отвевает за долю истинных положительных классов в общем количестве от TP + FP. Соответственно в кейсе из видео она соответствует принципу «редко, но метко». Recall, или как Вы знаете полнота, показывает долю найденных истинных объектов положительного класса (в знаменателе учитывается ошибка модели неотнесения объектов положительного класса к таковому), а в формуле false positives не присутствует (ненадежных заемщиков, определяемых моделью как надёжных). Соответственно, стоит рассуждать как у Вас в видео про precision на 17:30
А можно видео где вы используете биннинг переменных, и как строить этот биннинг используя дерево решений Допустим для чего нужен биннинг? Берём возраст, и делаем биннинг, и может обнаружить что люди в возрасте от 23-26 самые опасные заёмщики, и тд, с каждой переменной
Как на питон выявить оценку кредитоспособности клиента. Например вводим данные клиента: Возраст Пол Местожительство Семейное обстоятельства И т.д Затем в предикте должен выводить что клиент с точностью 78% вернет кредит, 22% не вернет. Как выявить вот это? 👆
Представленное решение имеет очень мало общего с задачей кредитного скоринга (говорю как тренер, который читал специализированный тренинг на эту тему в российских банках). Достаточно просто открыть любой западный классический учебник на эту тему. А учитывая послужной список автора, Росбанк, это непростительно. Автору хочется пожелать, не стараться быть специалистом во всем и везде, потому что вот такие вот результаты и будут - по верхам, но на всеобщем хайпе DS до поры до времени "прокатит".
Можно просто посоветовать доп литературу, либо указать на ошибки. Не надо переходить на личности, считая нужным что мне простительно, а что нет, а также безосновательно давать оценки (цель видео не поняли). Это не профессионально
Я в сортах кредитных скорингов не разбираюсь, но изложенный в видео подход, по-моему, неплохо демонстрирует суть оценки кредитоспособности. Как минимум, как дополнительный источник для принятия решений его можно было бы использовать, так сказать, в дополнение к имеющейся в учреждении скоринговой системе, сделанной по тёплому ламповому учебнику :)
@@miracl6 Я не увидел, где я перешел на личности. В моем сообщении нет ни одной оценки личности автора (а-ля: некрасивая прическа и т.д.) Советовать доплитературу эксперту и основателю онлайн-школы и сотруднику банка, где культура кредитного скоринга на очень высоком уровне? Ээээ. Вот именно это и непростительно как специалисту, а не личности. Цель видео - пример задачи кредитного скоринга, его тема не раскрыта.
@@amalrik1 , вы как эксперт в этом деле могли бы пояснить, что не так в этом примере. Расплывчатые оценки типа "не так , как в учебниках" - это ни о чём. Цель скоринга какая? Оценить кредитоспособность пациента на основании предоставленных им данных. В видео это есть? Есть! Можно ли это использовать в реальном фин.учреждении? Вряд ли. Но цель видео ведь не в этом - это ж типа "обучающий пример" применения т.н. "data science".
@@miracl6 не думаю. что это деревенский акцент. скорее всего худшая версия столичного( но дело не в этом. тут и материал сильно хромает. ну блин. в 20м году рассказывать про prediction modelи для timeseries через lstm и gru(( вот в моей книге специализированные предикативные архитектуры рассматриваются. а тут такое... нельзя людям такое давать)
@@miracl6 , ну так мне же потом после таких "экспертов" ребят переучивать нужно)) приходят, говорят хрень какую-то, спрашиваю "тебе в голову вообще как такое пришло???" - на ютьубе увидел... (facepalm). hello world примеров наберете и к месту и не к месту их показывать начинаете))
@@miracl6 , Не, что-то я наверное грубовато. Прошу прощения) Мне бы было интересно посмотреть видео не тему Reinforcement Learning, еще недостаточно раскрытая тема и содержит много красивых визуализаций подходящих для видео формата. Могу предложить несколько 100% оригинальных идей, я как раз над публикацией связанной с RL сейчас работаю))
@@miracl6 так и не смотрю. заголовок попался в ленте. поймите, я не в претензии к вам, а судя по отзывам, вы хорошо излагаете... просто нередко не стоит плодить пустые сущности, согласно бритве оккама. А так, с наступающим вас))
@@labracap вам самим не смешно на серьёзных щщах говорить что громоздкое и понятное только вам модель оценивания кредитных баллов лучше чем простое но ёмкое и всем понятное скоринг? Язык это инструмент по передаче информации и если для передачи информации надо громоздить кучи труднопроизносимых слов чтоб выразить представление о какой-то сущности то этот язык можно выкидывать на помойку, что с русским и происходит, английский его скоро сожрет и туда ему дорога.
@@labracap новый термин вводится так, как людям будет удобно, это нормальный процесс развития языка; так было и будет всегда, нравится вам это или нет. Слово 'компьютер' тоже было когда-то новым и непривычным, но оно прижилось, а 'счетная машина' никто не говорит. Такие вещи происходят естественно, это решает сам народ, а не кучка безграмотных охранителей, которые не знают, что такое бритва Оккама.
тебе б канал переименовать. а то негоже тематическому контенту о математике тусоваться в каком-то "чуде" без логического объяснения, что чудесного в математике
@@miracl6 да, безусловно) просто , когда смотрю ваше видео среди остальных - ярко выделяется отсутствие главного названия. чего-то типа "DSschool" , "DaSi", "DataGirl".. ну вы поняли извиняюсь за грубый тон в предыдущем комментарии)
В видео грубая ошибка: score_bki - скоринговый балл по данным из БКИ. И чем выше этот балл (максимум 900), тем выше вероятность одобрения кредита. То есть высокий бки скор говорит об отличной (или хорошей) кредитной истории клиента.
Если вы про американский рейтинг типа FICO, то его возможные значения, если верить Википедии, лежат в диапазоне от ~0 до 850 (там будто бы несколько вариантов этого рейтинга, так что, наверное, значения могут достигать и 900). В данных же из видео колонка score_bki содержит отрицательные значения с плавающей точкой, т.е. это какая-то другая шкала.
Спасибо, Анастасия!
Побольше бы таких вот прикладных "реальных" кейсов годных.
"кейсов"
Было бы круто ещё кейс про ценообразование какой-нибудь посмотреть (например, прайсинг фин инструментов или предсказание цены в зависимости от постов в Твиттере и т.д.)!
@@Babylon010 како пример был бы топ?
@@Babylon010 Не жалейте, спасибо ) Обойдусь уж как-нибудь без жалости.
Вместо того, чтобы жалеть, лучше бы дали "пригодный" кейс. Помогли бы начинающим.
Спасибо за видео! Круто, что так подробно рассказано про важность EDA, да и вообще за ясность изложения материала. За ноутбук отдельное спасибо!
большое спасибо за детальный разбор, один из лучших что я видела
Огромное спасибо Анастасии за ее работу. Сразу же извиняюсь на берегу и прошу не счесть за грубость. Единственный момент, - хотел бы указать на небольшую фонетическую ошибку [время 12:35]. Не "фьюче" engineering , а "фиче" engineering. Признаться сам грешу подобным - долгое время называл одну из моих любимых серий видео игр не "сайлент" hill (silent hill), а "сайленс" hill.
Класс, побольше таких видео👍
Спасибо большое, после паузы в обучении, быстро актуализировался )
Крутое полезное видео! Хотим еще видосов о построении моделей с подготовкой данных! Спасибо!
просто супер разбор и супер канал! давай еще)))) нужно больше разобранных прикладных задач)
Интересно, можно ли так поставить гипотезы, чтобы выявить перспективные направления бизнеса конкретно в нашем случае. Скорее всего нужно огромное количество данных перелопатить.🧐 Вообще, честно говоря, это всё так интересно, находить закономерности в тонких делах.🤗
Богиня да еще и умная! Женюсь!
Все linear models включительно logistic regression нуждаются в нормализации данныx (например MinMaxScaler или стандартизации StandardScaler), чтобы избежать проблемы исчезающего градиента на этапе обучения.
Разве исчезающий градиент бывает не только в нейросетях? С чего бы ему затухать в логистической регрессии?
SCH - школа, GRD - магистратура || аспирантура, UGR - бакалавриат, PGR - выпускни(к/ца) аспирантуры(аля начинающий препод), ACD - солидный препод-академик
спасибо за разбор и код, было очень познавательно и интересно послушать
такие вещи решаются программно так как параметров там от силы 200 например На таких данных врятли получится построить анализ
алгоритм принятия решения рисует бизнес
в скоринге популярны bpmn фреймворки
Ах! Какая красота! )
Лайк, единственное: не смог скачать датасет с Каггла - ругается, что могут только приглашенные участники это сделать :(
Спасибо, очень интересно!
Анастасия, вы очень красивая девушка, которая умеет просто и понятно донести материал)
Пожелание - я бы с радостью посмотрел более подробное видео с бОльшим количеством метрик, даже если бы оно растянулось на час-полтора.
Спасибо, за интересное видео. ) Не бросайте плиз канал))
Только начинаю входить в эту тему.
Ваш канал очень интересен и вы доходчиво излагаете материал простым языком.
Вижу, аж "Диванные Эксперты" в комментариях на галёрках приоживились и подтянулись ).. аля не концептуально сказали или разъяснили, пытаясь повысить свою диванную значимость без конкретной аргументации.
Ждемс.. новых видео :)
Еще раз спасибо за ваш канал )
Диванный эксперт, это вы.
Раскладушки, вижу уже подтянулись))😉
Очень полезное видео, спасибо
Я так понимаю математика у вас на хорошем уровне.
Спасибо за видео, отличное видео, хоть я не датасайнтист.
Супер) сегодня посмотрел и полностью проделал данную работу! получил новые хорошие инструменты
большое спасибо, Анастасия!
Здравствуйте! А как можно получить доступ к датасету на кегле?
Анастасия, на видео вы говорите, что в данном случае мы ориентируемся на метрику реколл, но например решение, выдавать клиенту кредит или нет, ситуация невозврата более неприятна, чем невыдача, как я понял вы гоорили именно об этом, то и согласно формуле надо пользоваться метрикой Пресижн
@@miracl6 немного не так написал и вы меня тоже не верно поняли, давайте тогда рассмотрим 1ый случай который вы объявили в видео "Если наша ошибка при выдаче кредита будет чень дорого стоить, например выдали кредит плахому заемщику который не возвратит" ( я так понимаю это False ), А вы говорите в данном случае лучше использовать метрику Recall. Вот, вопрос заключался в этом =)
Дайте пожалуйста приглашение на конкурс Кагла.... Проверить силы
Спасибо за урок. Но не покидало ощущение, что с метриками precision и recall есть некоторое недопонимание у ведущей. Если мы даём кредит под низкий процент, то для нас важнее метрика precision, т. е. когда мы можем доверять модели, что выдай ему кредит и он нам его вернёт. Если же мы микрофинансовая организация и выдаем кредиты под высокий процент, то для нас важнее recall, т. е. обнаружить максимальное кол-во клиентов, кому мы в принципе можем выдать кредит, пусть и не с такой высокой точностью, невозврат кредитов в таком случае мы компенсируем высокими процентными ставками.
Классический кредитный скоринг не оперирует метриками Precision и Recall. Там индекс Джини, KS и различные кривые.
спасибо большое, принцесса. I learn thanks to your classes, take care of yourself💕
Супер прикладное видео, спасибо😌
Спасибо, Анастасия! Как получить приглашение на участие в этом кагл-соревновании?
А можете скинуть гитхаб, пожалуйста
В разделе про описательные статистики говорится про проверку гипотез. На деле она осуществляется на глазок, без использования строгих процедур, вроде, например, критерия Вилкоксона и ему подобным. Вопрос - в таких задачах строгие критерии просто не нужны или так сделано исключительно в рамках этого ролика?
Настя, какой рейтинг имеешь на kaggle?
Сначала воспринял честно говоря не очень серьёзно, потом пересмотрел ролик пару раз :)
Настя ты такая классная!1!!
Ничево сибе эта 😀 а💪
Вы забыли про биннинг переменных, psi, woe. Если не смотреть эти штуки, модель может развалится на продакте через 3 месяца.
А так прикольно, спасибо!
Где было это видео, когда я писал диплом?))
@@miracl6 готовы смотреть длинные видео ) или несколько частей)
@@miracl6 откуда уверенность что длинные видео смотреть не будет? Порог клипового мышления минут 10, если кто-то смог смотреть пол часа, значит тема ему интересна и 1.5 часа он тоже высидит
@@user-bot-asds вы как маленький. вот что лучше - сто тысяч просмотров за полуторачасовое видео, или по сто тысяч просмотров за пять двадцатиминутных видосов? чем больше контента, тем лучше автору канала - и в материальном плане тоже
@@miracl6 Предлагаю в качестве темы для следующего видео собрать статистику из Ютьюба и построить регрессионную модель для расчета оптимальной длины видео для показа на вашем канале ) (шутка:)
Бинниг переменных и woe - с этого нужно было начинать в кредитном скоринге. Но автор на эти замечания только огрызается. Пойдете ли вы учиться в такую онлайн-школу. Риторический вопрос.
Отличное видео, спасибо. А можно по юрлицам все то же самое? )
На df.corr(method='pearson') имеет смысл смотреть после удаления выбросов иначе можем получить завышенную/заниженную корреляцию.
Я вообще для себя понял, так как корреляции не свойственно отображать причин но-следственные связи (эффект множественных сравнений - - > повышение ошибки 1 рода), то использовать её в качестве некоторой меры взаимосвязи и тд нерационально. Это я ещё про ложную корреляцию не сказал. Так что пользоваться можно для выявления мультиколлинеарности, я строю лишь для этого.
@@miracl6 Тоже верно. Но, вообще говоря, если строго, то для этого существует стат. значимость, отдельную попарную корреляцию нужно проверять так, и не факт что она имеет практическую значимость при удовлетворении статистической :)
Здраствуйте, можете подсказать где можна праектый для анализа данных найдти чтоб практикаватса анализу. И ищо можете подсказать где можнаа набратса опытом с работой с данными?
@@Babylon010 иди к чорту а.
Хочу увидеть реализацию простого примера на питон/нумпай по распознаванию fashion mnist 60k
Реализация на керас посредством простой модели с одним промежуточным слоем даёт прекрасный показатель
А вот ручками онли нумпай не могу реализовать градиентный спуск. Сигмоиду пробовал, гипертангенс не хотить обучаться. Думаю это может многим быть интересно.
чем умнее человек тем выше вероятность что не отдаст
@miracl6, спасибо за видео! но у меня вопрос: а не нужно ли проверить модель на overfitting, например? а то ми посчитали скоры, но может сама по себе модель не очень хорошая?
@@miracl6 , спасибо за быстрий ответ! но я счас стараюсь с етим разобраться и не до конца понимаю. Мы сделали GridSearchCV, где cv=3 с метрикой roc_auc. Ето значит, что для всех комбинаций гиперпараметров мы train model на 2/3 данных и validate на 1/3 данных и наша метрика для оценивания была roc_auc, усредненная по 3-ем фолдам, я правильно понимаю?? лучшая модель - ето модель с самим високим усредненным roc_auc score, да? но где мы проверяли, что на на validation set модель справляется не особо хуже, чем на train set, что и есть overfitting? сорри за длинный вопрос :)
Оффтоп:
Безумно приятно, что у канала с достаточно нишевой темой (хотя сейчас хайп вокруг DS космический) такая большая аудитория. Отсюда вопрос: где твой канал в телеге? :)
И раз уж на то пошло, то вот тебе идея: проанализируй аудиторию своего канала и расскажи (читай "покажи") зрителям, что данные - всюду, и если уметь ими оперировать, то можно найти интересные закономерности и логику :)
хотел скачать test.csv но там его нет. прошу помочь
@@miracl6 на гитхабском архиве как написан файл test.csv? я новичок
Начал курс от Яндекса и первый проект это про кредит скоринг.
Добрый вечер, Анастасия, как Вам идея сделать серию разборов задач по основным задачам МО ?
'This is a limited-participation competition. Only invited users may participate.'
а такие проекты можно использовать в резюме?)
@@miracl6 поняла, просто пока тренируюсь подобных проектиков уже накопилось немало) спасибо)
@@miracl6 здравствуйте 🙋🏼♀️
А какие решении задач стоит включать в резюме ?
Тяжело ли было вникать в банкиг имея технический бэкграунд?
Можете разместить ноутбук
У вас классный контент, вот я уже учусь на программирование на пайтоне, но одно меня очень волнует так как я очень сильно заикаюсь и смотрю что на дата сайинтиста нужно разговаривать с клиентами по телефону, а в каком направлении в пайтоне меньше надо разговаривать с клиентами?
Почти все кто занимается данными не контактируют с клиентами. Только некоторые члены команды будут показывать результаты и обсуждать что то с другими департаментами / отделами в вашей фирме.
@@arturd6988 Это дата сайнтист или машинное обучение? Я просто особо так ещё не различаю их😂
Во время беглого просмотра сделал мысленный перенос в Google sheets или MS Excel. Не вижу смысла ставить дополнительные надстройки Jupyter, благо, что бесплатный. Хотя у Jupyter есть плюсы, можно менять картинку в зависимости от положения ползунков.
Но вот вопрос. Сможет ли обычный пользователь добавить свои параметры, о которых не было сказано в видео (истрия прошлых кредитов, криминальное прошлое, кол-во членов семьи, район проживания, сфера образования (не просто школьное, высшее, а в какой сфере - аэрокосмичечкий инженер и экономист стоят на разных ступенях). Или опять придётся импортировать библиотеки и код? Вы сами это напишите или придётся обращаться в отдел IT к разрабам? Просто по мне проще ковырять таблицы в том же Гугл, т.к. можно добавлять и добавлять ряды и столбцы. Плюс, Google Apps Script в помощь. По нему помощи будет гораздо больше, чем по тому же Jupyter.
@@miracl6 Поражаюсь с каким терпением вы отвечаете на подобные вопросы))
Кто может дать ссылку на датасет из kaggle? не получается скачать так как выдает "Это соревнование с ограниченным участием. Участвовать могут только приглашенные пользователи.
@@miracl6 спасибо большое, Анастасия
@@miracl6 а можно ссылку на репозиторий ? Спасибо!
А есть возможность скачать ноутбук?
@@miracl6 спасибо)
Чтобы скачать ноутбук нужно гитхабу ссылку сказать с кодом?
Посмотрел и понял что я не дата саинтист :)
я правильно понимаю, что раньше это называлось социологией?
А под "это" вы что имеете в виду? :) "Технологии" data science или кредитный скоринг?
Если верить Википедии, социоло́гия ― наука о совместной жизни групп и сообществ людей. По-моему, и сейчас она жива ещё. Статистические модели в ней наверняка использовались и ранее, как и прочие количественные методы исследований.
В сша дата сайнс программисты получают 125000 в год
Несите кольцо!!1 Я знал что девушки могут быть умными, но это какой-то космический уровень.
Боже, серьезно? Это просто скоринг
@@Юлия-о2у2ь несите ещё одно кольцо)
@@ХорунжийАлександр 😄😀
А можно этот ноутбук скучать где-то?
Миракл сменил пол и деятельность?
ACD - Associate College Degree
Мне кажется, что с метриками объяснения перепутаны
@@miracl6 precision же отвевает за долю истинных положительных классов в общем количестве от TP + FP. Соответственно в кейсе из видео она соответствует принципу «редко, но метко».
Recall, или как Вы знаете полнота, показывает долю найденных истинных объектов положительного класса (в знаменателе учитывается ошибка модели неотнесения объектов положительного класса к таковому), а в формуле false positives не присутствует (ненадежных заемщиков, определяемых моделью как надёжных). Соответственно, стоит рассуждать как у Вас в видео про precision на 17:30
А можно видео где вы используете биннинг переменных, и как строить этот биннинг используя дерево решений
Допустим для чего нужен биннинг?
Берём возраст, и делаем биннинг, и может обнаружить что люди в возрасте от 23-26 самые опасные заёмщики, и тд, с каждой переменной
Биннинг как основа кредитного скоринга, как и построение балльной скоркарты, здесь не раскрыто совсем.
Как на питон выявить оценку кредитоспособности клиента.
Например вводим данные клиента:
Возраст
Пол
Местожительство
Семейное обстоятельства
И т.д
Затем в предикте должен выводить что клиент с точностью 78% вернет кредит, 22% не вернет.
Как выявить вот это? 👆
👏🏼👏🏼👏🏼 спасибо
Есть статистика, что с высшим образованием меньше процент процент невозврата?
Я так понимаю, модель это Настя, но почему кредитного скоринга? ;-)
Ваш уровень развития не соответствует этому видео =(
@@Servodroid1995 ожидал тут увидеть задротов без чувства юмора, но не думал что увижу во втором комменте
@@Sdfsoepvmsywocmzyw уровень юмора, конечно, на высоте... Прошу, продолжай в том же духе!
@@Babylon010 научись писать по-русски, пожалуйста.
❤kz
А вы этому в универе научились или сами?
Good luck discriminating clients based on age
Entendi tudo mó kkkkkkkkkkk
Представленное решение имеет очень мало общего с задачей кредитного скоринга (говорю как тренер, который читал специализированный тренинг на эту тему в российских банках). Достаточно просто открыть любой западный классический учебник на эту тему. А учитывая послужной список автора, Росбанк, это непростительно. Автору хочется пожелать, не стараться быть специалистом во всем и везде, потому что вот такие вот результаты и будут - по верхам, но на всеобщем хайпе DS до поры до времени "прокатит".
Можно просто посоветовать доп литературу, либо указать на ошибки. Не надо переходить на личности, считая нужным что мне простительно, а что нет, а также безосновательно давать оценки (цель видео не поняли). Это не профессионально
Я в сортах кредитных скорингов не разбираюсь, но изложенный в видео подход, по-моему, неплохо демонстрирует суть оценки кредитоспособности. Как минимум, как дополнительный источник для принятия решений его можно было бы использовать, так сказать, в дополнение к имеющейся в учреждении скоринговой системе, сделанной по тёплому ламповому учебнику :)
@@miracl6 Я не увидел, где я перешел на личности. В моем сообщении нет ни одной оценки личности автора (а-ля: некрасивая прическа и т.д.) Советовать доплитературу эксперту и основателю онлайн-школы и сотруднику банка, где культура кредитного скоринга на очень высоком уровне? Ээээ. Вот именно это и непростительно как специалисту, а не личности. Цель видео - пример задачи кредитного скоринга, его тема не раскрыта.
@@AHToHK Вы же сами пишете, что не разбираетесь, а даете оценку.
@@amalrik1 , вы как эксперт в этом деле могли бы пояснить, что не так в этом примере. Расплывчатые оценки типа "не так , как в учебниках" - это ни о чём.
Цель скоринга какая? Оценить кредитоспособность пациента на основании предоставленных им данных. В видео это есть? Есть! Можно ли это использовать в реальном фин.учреждении? Вряд ли. Но цель видео ведь не в этом - это ж типа "обучающий пример" применения т.н. "data science".
Как мужчина не смог спокойно смотреть и, к сожалению, ничего не понял.
не( ну это вообще слушать невозможно(
Неужели интересно такой мутью заниматься?
Херня какая-то ничего не понятно, от чего отталкиваться? Для чего это все?
Видео обо всём и не о чем.
@@miracl6 ну да конечно) только я веду курс глубокого обучения в ШАД.
@@МаликКадиев-о5ф обо всем и не о чем это коллизия называется?
ㅗㅜㅑ
какой отвратный говор(( полезнее просто код посмотреть
@@miracl6 не думаю. что это деревенский акцент. скорее всего худшая версия столичного( но дело не в этом. тут и материал сильно хромает. ну блин. в 20м году рассказывать про prediction modelи для timeseries через lstm и gru(( вот в моей книге специализированные предикативные архитектуры рассматриваются. а тут такое... нельзя людям такое давать)
@@miracl6 , ну так мне же потом после таких "экспертов" ребят переучивать нужно)) приходят, говорят хрень какую-то, спрашиваю "тебе в голову вообще как такое пришло???" - на ютьубе увидел... (facepalm). hello world примеров наберете и к месту и не к месту их показывать начинаете))
@@miracl6 , Не, что-то я наверное грубовато. Прошу прощения) Мне бы было интересно посмотреть видео не тему Reinforcement Learning, еще недостаточно раскрытая тема и содержит много красивых визуализаций подходящих для видео формата. Могу предложить несколько 100% оригинальных идей, я как раз над публикацией связанной с RL сейчас работаю))
поберегите наши уши. нельзя разве сказать по-русски - модель оценивания кредитных баллов. "скоринг" язык спотыкается произносить...
@@miracl6 так и не смотрю. заголовок попался в ленте. поймите, я не в претензии к вам, а судя по отзывам, вы хорошо излагаете... просто нередко не стоит плодить пустые сущности, согласно бритве оккама. А так, с наступающим вас))
Слова "модель", "балл", "кредит" имеют не славянские корни. И если бы все слушали таких "лингвистов" как вы, их бы так и не было в русском языке.
@@MrTSkV Повторяю, новый термин вводят, когда его нет в языке. Здесь же он излишен. Пустая сущеость ваш ск.инг))
@@labracap вам самим не смешно на серьёзных щщах говорить что громоздкое и понятное только вам модель оценивания кредитных баллов лучше чем простое но ёмкое и всем понятное скоринг? Язык это инструмент по передаче информации и если для передачи информации надо громоздить кучи труднопроизносимых слов чтоб выразить представление о какой-то сущности то этот язык можно выкидывать на помойку, что с русским и происходит, английский его скоро сожрет и туда ему дорога.
@@labracap новый термин вводится так, как людям будет удобно, это нормальный процесс развития языка; так было и будет всегда, нравится вам это или нет. Слово 'компьютер' тоже было когда-то новым и непривычным, но оно прижилось, а 'счетная машина' никто не говорит. Такие вещи происходят естественно, это решает сам народ, а не кучка безграмотных охранителей, которые не знают, что такое бритва Оккама.
тебе б канал переименовать. а то негоже тематическому контенту о математике тусоваться в каком-то "чуде" без логического объяснения, что чудесного в математике
@@miracl6 да, безусловно)
просто , когда смотрю ваше видео среди остальных - ярко выделяется отсутствие главного названия. чего-то типа "DSschool" , "DaSi", "DataGirl".. ну вы поняли
извиняюсь за грубый тон в предыдущем комментарии)
Use English language explain for foreign
@@miracl6 thnx
В видео грубая ошибка: score_bki - скоринговый балл по данным из БКИ. И чем выше этот балл (максимум 900), тем выше вероятность одобрения кредита. То есть высокий бки скор говорит об отличной (или хорошей) кредитной истории клиента.
Если вы про американский рейтинг типа FICO, то его возможные значения, если верить Википедии, лежат в диапазоне от ~0 до 850 (там будто бы несколько вариантов этого рейтинга, так что, наверное, значения могут достигать и 900).
В данных же из видео колонка score_bki содержит отрицательные значения с плавающей точкой, т.е. это какая-то другая шкала.