10 вопросов про A/B-тесты | Часть 1 | Валерий Бабушкин | karpov.courses
ฝัง
- เผยแพร่เมื่อ 31 มี.ค. 2023
- Симулятор A/B-тестов: bit.ly/3nCdbvB
Сколько A/B-тестов за свою карьеру провёл Валерий Бабушкин? Что обязательно должно быть в каждом A/B-тесте? Можно ли практиковаться в проведении экспериментов дома, а не на работе?
Мы задали эти (и не только) вопросы Валерию Бабушкину, одному из создателей Симулятора A/B-тестов!
Учитесь Data Science с нами: karpov.courses/
00:07 Эффектное появление
00:22 Сколько АВ тестов ты провел?
01:05 Сколько АВ тестов ты провел хорошо?
01:56 Какие ошибки допускал?
03:13 Как объяснить профану?
04:38 Как понять, что аналитик тебя обманывает?
06:09 Что обязательно должно быть в АВ тесте?
08:14 Как научиться оценивать результаты теста непредвзято?
08:58 Чего не понимают большинство кандидатов?
10:19 Где и как научиться делать АВ тесты??!
11:08 А дома можно практиковаться?
11:46 Посоветуй литературу.
Как убедиться, что перед вами крутой аналитик?
На неконкретные вопросы он просит уточнить термин или дать систему оценку.
спасибо за выпуск, господа!
Одна просьба: зачитывайте вопросы тоже, пожалуйста.
Хотел послушать в машине, в итоге не понимал о чем речь))
больше профессионалов в аналитике) спасибо за ответы!)
Очень интересно, я понимаю о чем говорит этот молодой специалист)
Бабушкин красавчик!
Результатом абтеста может быть конкретная величина типа в результате внедрения новой фичи продажи поднимутся на 2-4% или 10-11 миллионнов. Можно ли с этой точки зрения оценивать успешность теста - насколько внедрение принесло предсказанный результат с течением времени?
Деньги - пожалуй лучшая метрика
Спасибо Валерий, уверен курс крутой, может позже куплю! Ты говорил про калькуляторы АВ, но в них всех надо вводить % конверсии, а если мы хотим смотреть revenue или arpu, как тогда посчитать размер выборки ?
через симуляцию
@@ValeriiBabushkin Спасибо, дай бог здоровья! Хотел уточнить, если мы посчитаем для А и В теста avg(revenue) и se, то мы ведь сможем сравнить т-тестом две выборки?
С учётом того что это метрика отношения
@@ValeriiBabushkin под отношением, имеете ввиду, считать статистику для каждой его составляющей по отдельности ?) Надеюсь не исчерпал лимит вопросов 🙏
@@BoQbL1k имеется ввиду специальная обработка в случае наличия метрики отношения
Комментарий для продвижения больше 5 предложений думаю хватит всем спасибо
Дима Лунин топ, если ты про его статьи. Спасибо за видео!
валерон просто везде
Светлая голова
Сможет ли Chat GPT запускать A/B тесты, когда будут плагины с интеграцией?
проделать интеграцию - гигантская работа, но пока проверяли - чат гпт обманывает в аб, причем заметить это синьор не смог, а обман был
@@ValeriiBabushkinчто за обман такой и в чём он заключался? Интересно, если есть ещё и видео на эту тему. Спасибо
Машина
жиза
Валера уже получил почетное звание иногента или нет пока?
Ютуб не позволяет нафигачить большой комментарий, а мне есть что сказать, поэтому буду бить его почастям.
Я конечно не такой крутой математик как господин Бабушкин. Скажу как практик из Х5, который сидел с ребятами Валерия по другую сторону стола/монитора. В моем проекте проводились десятки а/б тестов для валидации результата и оправдания инвестиций с его командой и на их платформе. В оффлайн ритейле (но думается, что также везде) есть несогласие с методами А/В тестов в практической области. Причина довольно простая, это сферические исследования в вакууме, которые ставят высокую обоснованность результатов во главе угла. С первого взгляда это даже неплохо, но давайте рассуждать дальше.
В его примерах фигурировало, что "если мы проводим исследование с 40 летними мужчинами то... " продолжим мысль. Успешным считается аб тест в котором на все 100% мужчин участвовавших в исследовании результат дал отклонение в положительную область с разной степенью успеха и результат имеет низкую ошибку. Если 10% мужчин не отреагировали или по другим причинам отреагировали негативно, то этот эксперимент получает от команды Валерия негативное заключение. С точки зрения практики этот результат надо интерпретировать как 90% успех, но бинарная логика платформ аб-тестирования отвечает одной из граней монетки - да или нет. И тут ответ будет - нет. Бизнес не может решать комплексные (сложные) задачи всегда с успехом на 100%. Это вам не кирпичный цвет кнопки, это система органических стимулов влияющая на мотивацию десятков умов, которые должны принять однозначное (с точки зрения платформы) решение.
Давайте приведу пример. Вы автопроизводитель и запускаете новый вариант автомобиля на замену существующему (ну допустим новая версия ауди а4). Краш-тесты старого автомобиля это контрольная группа, краш-тесты нового это тестовая. И вот вы получаете результат, звучит он следующим образом в 90% случаев в краш тесте нового автомобиля повреждения водителя были меньше чем в старом (остаются конечности, выживаемость). Но в одном типе тестов результаты хуже, водитель изуродован больше чем в старой версии авто, потому что балка безопасности спасающая теперь 90% водителей, расположена под таким углом, что в аварии с 32% перекрытием, под углом 65 градусов при скорости 93-96 км в час по законам физики не успевает уйти влево и входит водителю в грудь и это подтвердилось много раз при аналогичных условиях. В то время как в старом автомобиле именно этот кейс обеспечивает более высокую выживаемость. Несмотря на то, что эти пропорции безопасности сильно лучше чем в предыдущей модели заключение Валерия на этот тест будет - нет, продолжайте улучшать новый авто, так как не 100% случаев лучше чем старые авто. Задайте себе вопрос как потребитель - что в этой ситуации правильнее? Вы могли бы получить завтра более совершенный автомобиль, но вынуждены довольствоваться старым более опасным в целом, потому что не найдено решение для этих 10% случаев, когда стало хуже. Абсурд, верно? Нет, конечно во имя добра, надо и этот кейс решать, (даешь 100% безопасность автотранспорта!!!), но система АБ-тестов так не работает, она дает заключение только когда найдено "абсолютное" решение (как у ситхов).
Теперь применительно к ритейлу. Проводим мы тест, когда меняется выкладка товара на полку, ну например хороший кофе ставили на верхнюю полку, теперь начали ставить на среднюю. В 70% случаев покупатели отреагировали положительно и продажи кофе улучшились, в 20% нет никаких изменений, а в 10% случаев ухудшились по разным причинам, вплоть до непредсказуемых. Влияние на покупателя это комплексная задача. Этот эксперимент оценивает платформа Бабушкина и дает заключение - нет подтвержденного эффекта. Идите думайте дальше бизнес эксперты. Хороший кофе возвращают на верхнюю полку, эксперты от бизнеса идут думать как сделать так, чтобы повлиять на 30% оставшихся потребителей. Не придумали? - значит опцию видеть хороший кофе на средней полке бизнес потерял навсегда.
Когда такого рода претензии высказываются коллегам Валерия их ответ прост. Мы просто написали заключение и поставили оценку (и даже показали распределение результатов те самые 70-20-10), решение принял топ-менеджмент. Если у вас есть идеи как это оценивать лучше чем наша платформа, сделайте и защитите у руководства, мы свою платформу у топов защитили. Но руководство, также как и я, не математики, а практики, и текущая религия - "биг дата это новый колосс" по сути не оставляет им выбор на принятие гибких решений. Им проще заставить не-математиков попрыгать вокруг математиков чтобы математики снизошли до индивидуальных настроек оценки или не тратить деньги на эксперименты.
К чему это все пришло. Спустя 2-3 года с тех пор как появилась эта платформа (по моей СУБЪЕКТИВНОЙ оценке) количество экспериментов упало в десятки раз. Где то дело текущей скорости - надо делать 10 итераций теста, а где то бизнесу проще заниматься повседневной операционной работой по поддержанию "как есть", чем заниматься десятками и сотнями разных экспериментов. Сейчас инициатива имеет инициатора через выплясывание вокруг математиков в смешных шляпах, чтобы тем было весело гонять туда сюда свои датасеты. Если ты недостаточно забавен в глазах согласовантов, то твои результаты будут иметь отрицательное заключение. Такой новый вариант вахтерства. Я знаю что говорю (стыдливо отводит глаза).
Ну и нечестным по отношению к Валерию было бы на бинарное заявление выдавать бинарную критику. Конечно плюсы от ввода аб тестов есть. Есть ситуации когда заключение отсеивает однозначно негативные результаты или пограничные результаты в стиле 50 на 50. Таких шарлатанов выдающих себя за экспертов от бизнеса тоже хватает, а может даже и большинство. Но сейчас этот шлагбаум слишком жесткий и рано или поздно колосс падет. Топ менеджмент конечно будет смотреть в рекомендации платформы тестирования, но оно будет лишь подсказкой, а не ЗАКЛЮЧЕНИЕМ как сейчас. Надо просто подождать, когда за год пройдет всего 2-3 успешных теста и количество внедренных инноваций упадет раз в 5 - 10, тогда вопросы появятся ко всем, включая математиков.
Я бы от всех практиков рекомендовал начать с простого - система должна выдавать пограничные заключения, не светофор да, нет, непонятно (что трактуется топами как нет). А все таки руководствоваться некоей нечеткой логикой интерпретации. В стиле "не идеально, но точно лучше чем раньше". Я понимаю, что в результате так и будет, но сегодня бигдата для бизнеса, скорее зло через призму моего 20 летнего практического опыта. Многие минорные улучшения отправляются в помойку, а весь взрослый бизнес выживает не за счет революций ,а именно эволюционными изменениями.
Ну и спасибо за интересный рассказ, смотреть как профессионал рассказывает о своем опыте и знаниях это всегда впечатляет.
@@1566696 аб тесты оценивают общий эффект (будь то средний, медианный, перцинтильный и тп). Я не знаю откуда взялось утверждение что требуется 100% случаев для принятия решения, но этого конечно же не так. Думаю вам нужно выдать то, что здесь написано, команде Саши Сахнова, завязать дискуссию - чтобы они выяснили почему и откуда у вас неправильное понимание и объяснили как же это работает, чтобы в дальнейшем не возникало ложного понимания
@@1566696 Все верно. Если в 70% случаев стало лучше на 1%, в 20% не изменилось, а в 10% стало хуже на 7%, общий эффект будет:
0.7 * 0.01 + 0.2 * 0 - 0.1 * 0.07 = 0
В этом случае, изменение не имеет смысла, поскольку оно не приносит выгоды, а наоборот, может привести к потерям, учитывая затраты на его реализацию. Платформа предоставила вам распределение результатов. Теперь ваша задача - найти способы либо уменьшить потери в 10%, либо увеличить прибыль в 70%.
Что касается уменьшения количества экспериментов, возможно, это даже хорошо. Ведь каждый эксперимент требует значительных ресурсов, особенно в офлайн-ритейле. Возможно, раньше, когда большинство экспериментов считались успешными, не все было в порядке. В развитом бизнесе процент успешных экспериментов не может быть высоким, иначе зачем экспериментировать - сразу внедряйте на всех. Мне помнится, процент успешных экспериментов был на уровне 90+%, что вызывает сомнения в их достоверности. Более того, платформа - инструмент - решения принимает топ менеджмент, хочет рисковать - пусть рискует, измерительный прибор лишь говорит что видит
Почему Валерий моргает не до конца?
Так это же только первая часть. Во второй он уже доморгает все остальное
Проводит А/В тест морганий1
Экономит время) достаточно не до конца могюргать
Чтобы ничего не упустить 😮
Аудио оформление на уровне 1 апреля. Пожалуйста, не делайте так! Ощущение квн с отбивками
Так видео и вышло первого апреля :)
Очень громко музыка, мешает слушать
Какого это торговать лицом и продавать модельки с реколом в 0.01 ?
Это какие модели с реколом в 0.1?
Если даже Валерий так слабо отвечает про АБ тестирование, то очевидно что АБ тесты это по большому счету скам.