Этой ночью мне приснился первый за долгое время кошмарный сон. В нем я проходил такое же интервью с Валерием Бабушкиным и дико лажал. После часа мучений и позора Валерий дал мне перерыв, в который я использовал, чтобы яростно гуглить и опоздал на вторую часть на 5 минут. В результате Валерий не стал меня дожидаться, решив, что я слился, и сказал по этому поводу что-то пассивно-агрессивное. Потом я проснулся в холодном поту.
@@ValeriiBabushkin бесспорно, но я не имел в виду конкретно этот выпуск, т.к. его еще не посмотрел. Вчера посмотрел только предыдущий выпуск из серии. После него почему-то такой сон приснился, хоть в том выпуске ничего страшного и не было.
Моя любимая рубрика. Спасибо Руслану, Стасу, Валере и Игорю за уникальный контент. Каждый выпуск узнаю что-то новое. Прекрасная реклама курсов и огромный вклад для русской аудитории в сфере мл Вопрос оргам. Планируются ли собесы на дата инженера?
несколько мыслей: 1) в качестве офлайн метрики в первом приближении подошел бы подход максимизировать recall при заданном precision (99% например) 2) можно как-то попытаться перевести эту метрику в деньги, принимая во внимание тот факт, что у карточки моделей больше конверсия + происходит дедупликация на поисковой выдаче 3) все равно нужна нормальная разметка, теми же толокерами размечать пары модель-оффер выше какого-то порога (иначе будет оооочень много нулей) 4) те же энкодеры картинок-текста можно валидировать на разметке из п.3 5) все же для более нормальной модели нужно что-то серьезней кнн, например бустинг 6) можно было заметить, что для парсинга цен конкурентов действующая модель может быть неоптимальной, так как на других площадках могут быть другие требования к загрузке офферов от поставщиков
"Обсудим возможность существования неограниченного множества оферов на послеобеденной тренировке по борьбе" )) Если честно, я до ~45й минуты не понимал, чему собираются обучаться. Потом понял, что это вроде бы бинарная классификация, относится ли офер к заданному sku или нет. Я как-то изначально думал о модели, являются ли 2 оффера одним и тем же sku.И последующем итеративном применении ее к кластеризованным оферам. Еще из своего скромного опыта, интересной фичОй может быть не только картинка продукта, но и OCR картинки продукта, ибо продавцы часто туда зашивают текстовую инфу, которой может не быть в текстовом описании и наименовании.
@@ValeriiBabushkin Да, хорошо фильтровать ближайшими соседями, наверное, как предложил Руслан. Опять же, есть смутные сомнения, что можно так просто сконкатить вектора от данных разной природы (текстов, цен и картинок) в вектор бОльшей размерности... Хотя наверняка есть какая-то строго доказанная теорема, что можно )
у вас какое то творчество больше - очень творческая работа получается... у нас проще работа заключается в том чтобы успеть разгрузить фуру пока не подьедет новая фура, вся суть автоматизации тестирования. У вас реально какое то творчество.
как это можно было бы сделать относительно просто и на коленке. берём в начале делаем эмбэдинги с картинок куском сети резнета или VGG или там что-нибудь такое, потом вот эти вот отдельные параметры допустим название товара там, характеристики, просто вычисляем расстояние Левенштейна между там парами товаров. Итоге мы получаем два вектора: один это картинки вот а второй вектор расстояний Левенштейна, ранжируем и получаем паровоз товаров, который расположен в порядке там убывания похожести на наш. Если сделать порог, то часть товаров будет попадать в категорию с нашим- матчится, часть будет отсекаться.
Походу это профдеформация, условие поставлено плохо и куча времени (считай все) потрачена напрасно, более того, еще и идет обсуждение, мол, что-то там не спросил или не предположил...
Этой ночью мне приснился первый за долгое время кошмарный сон. В нем я проходил такое же интервью с Валерием Бабушкиным и дико лажал. После часа мучений и позора Валерий дал мне перерыв, в который я использовал, чтобы яростно гуглить и опоздал на вторую часть на 5 минут. В результате Валерий не стал меня дожидаться, решив, что я слился, и сказал по этому поводу что-то пассивно-агрессивное. Потом я проснулся в холодном поту.
Придти на такое интервью дорого стоит, нужно много мужества
@@ValeriiBabushkin бесспорно, но я не имел в виду конкретно этот выпуск, т.к. его еще не посмотрел. Вчера посмотрел только предыдущий выпуск из серии. После него почему-то такой сон приснился, хоть в том выпуске ничего страшного и не было.
@@ValeriiBabushkin прийти!)
Моя любимая рубрика. Спасибо Руслану, Стасу, Валере и Игорю за уникальный контент. Каждый выпуск узнаю что-то новое. Прекрасная реклама курсов и огромный вклад для русской аудитории в сфере мл
Вопрос оргам. Планируются ли собесы на дата инженера?
Планируем)!
несколько мыслей:
1) в качестве офлайн метрики в первом приближении подошел бы подход максимизировать recall при заданном precision (99% например)
2) можно как-то попытаться перевести эту метрику в деньги, принимая во внимание тот факт, что у карточки моделей больше конверсия + происходит дедупликация на поисковой выдаче
3) все равно нужна нормальная разметка, теми же толокерами размечать пары модель-оффер выше какого-то порога (иначе будет оооочень много нулей)
4) те же энкодеры картинок-текста можно валидировать на разметке из п.3
5) все же для более нормальной модели нужно что-то серьезней кнн, например бустинг
6) можно было заметить, что для парсинга цен конкурентов действующая модель может быть неоптимальной, так как на других площадках могут быть другие требования к загрузке офферов от поставщиков
отличная рубрика. желаю удачи и побольше таких выпусков!
Ну лучше уж приглашать людей которые понимают тему собеседование. Но и таким видео рады. Спасибо.
У Руслана была задача поучиться - он поучился. Кандидаты были разные и собеседования получились разные
@@ValeriiBabushkin понял спасибо. Вы отличный интервьюер.
@@VakaramGolang Спасибо!
Эээ, так, чё, короче, это, ну окей, как-бы типа посмотрел это интервью. Понравилось. Пойду следующее посмотрю.
Валера очень крут! Элементы гениальности присутствуют.
Было бы интересно глянуть, как сам Валера Бабушкин проходит подобное интервью
Согласен, но свои интервью такого рода и на английском я уже прошел, когда собеседовался в фейсбук
хорошее видео, хоть я и новичок, но немножко понял
@@ValeriiBabushkin выкладывай видео на свой канал, на 1000000% я уверен, что он взлетит
Руслан молодец! Желаю тебе успехов!
Когда на первом интервью понял все, на втором почти все, а на третьем что пора сделать чаек))
Решение задачи закончилось на переписывании "дано".
"Обсудим возможность существования неограниченного множества оферов на послеобеденной тренировке по борьбе" )) Если честно, я до ~45й минуты не понимал, чему собираются обучаться. Потом понял, что это вроде бы бинарная классификация, относится ли офер к заданному sku или нет. Я как-то изначально думал о модели, являются ли 2 оффера одним и тем же sku.И последующем итеративном применении ее к кластеризованным оферам. Еще из своего скромного опыта, интересной фичОй может быть не только картинка продукта, но и OCR картинки продукта, ибо продавцы часто туда зашивают текстовую инфу, которой может не быть в текстовом описании и наименовании.
Да, такие фичи взлетают. В матчинге нужно делать каскад моделей - фильтровать кандидатов, так как изначально их десятки милионов
@@ValeriiBabushkin Да, хорошо фильтровать ближайшими соседями, наверное, как предложил Руслан. Опять же, есть смутные сомнения, что можно так просто сконкатить вектора от данных разной природы (текстов, цен и картинок) в вектор бОльшей размерности... Хотя наверняка есть какая-то строго доказанная теорема, что можно )
Игорь просто машина машинного убечения, как бы это плохо ни звучало.
у вас какое то творчество больше - очень творческая работа получается... у нас проще работа заключается в том чтобы успеть разгрузить фуру пока не подьедет новая фура, вся суть автоматизации тестирования. У вас реально какое то творчество.
До сих пор не знаю что такое симпл димпл
Это такая модель ML.
А где колаб с мастерклассом? Хотя бы примерно поглядеть бы как эту задачу решили вы сами. :)
Я запутался: что он имеет в виду под моделью?
как это можно было бы сделать относительно просто и на коленке. берём в начале делаем эмбэдинги с картинок куском сети резнета или VGG или там что-нибудь такое, потом вот эти вот отдельные параметры допустим название товара там, характеристики, просто вычисляем расстояние Левенштейна между там парами товаров. Итоге мы получаем два вектора: один это картинки вот а второй вектор расстояний Левенштейна, ранжируем и получаем паровоз товаров, который расположен в порядке там убывания похожести на наш. Если сделать порог, то часть товаров будет попадать в категорию с нашим- матчится, часть будет отсекаться.
А он в Снап попал на какой левел?
Просто слабая структуризация проблемы в голове ( так-то там года 2 опыта было всего у него?)
Хороший дуэт, мне кажется Валере нужно хантить
Активно этим занимался работая в Х5
Походу это профдеформация, условие поставлено плохо и куча времени (считай все) потрачена напрасно, более того, еще и идет обсуждение, мол, что-то там не спросил или не предположил...
А парень то не прошел...
как в 24 выглядеть на 43..