10 вопросов про A/B-тесты | Часть 1 | Валерий Бабушкин | karpov.courses

แชร์
ฝัง
  • เผยแพร่เมื่อ 31 มี.ค. 2023
  • Симулятор A/B-тестов: bit.ly/3nCdbvB
    Сколько A/B-тестов за свою карьеру провёл Валерий Бабушкин? Что обязательно должно быть в каждом A/B-тесте? Можно ли практиковаться в проведении экспериментов дома, а не на работе?
    Мы задали эти (и не только) вопросы Валерию Бабушкину, одному из создателей Симулятора A/B-тестов!
    Учитесь Data Science с нами: karpov.courses/

ความคิดเห็น • 41

  • @MrTSkV
    @MrTSkV ปีที่แล้ว +6

    00:07 Эффектное появление
    00:22 Сколько АВ тестов ты провел?
    01:05 Сколько АВ тестов ты провел хорошо?
    01:56 Какие ошибки допускал?
    03:13 Как объяснить профану?
    04:38 Как понять, что аналитик тебя обманывает?
    06:09 Что обязательно должно быть в АВ тесте?
    08:14 Как научиться оценивать результаты теста непредвзято?
    08:58 Чего не понимают большинство кандидатов?
    10:19 Где и как научиться делать АВ тесты??!
    11:08 А дома можно практиковаться?
    11:46 Посоветуй литературу.

  • @cozyfootball
    @cozyfootball 3 หลายเดือนก่อน +3

    Как убедиться, что перед вами крутой аналитик?
    На неконкретные вопросы он просит уточнить термин или дать систему оценку.

  • @vladimirartus1992
    @vladimirartus1992 5 หลายเดือนก่อน +1

    спасибо за выпуск, господа!
    Одна просьба: зачитывайте вопросы тоже, пожалуйста.
    Хотел послушать в машине, в итоге не понимал о чем речь))

  • @yuripryadko3111
    @yuripryadko3111 11 หลายเดือนก่อน +1

    больше профессионалов в аналитике) спасибо за ответы!)

  • @maikl_spec152
    @maikl_spec152 6 หลายเดือนก่อน

    Очень интересно, я понимаю о чем говорит этот молодой специалист)

  • @dazzling_R136a1
    @dazzling_R136a1 ปีที่แล้ว

    Бабушкин красавчик!

  • @waitwhat9669
    @waitwhat9669 ปีที่แล้ว +2

    Результатом абтеста может быть конкретная величина типа в результате внедрения новой фичи продажи поднимутся на 2-4% или 10-11 миллионнов. Можно ли с этой точки зрения оценивать успешность теста - насколько внедрение принесло предсказанный результат с течением времени?

    • @ValeriiBabushkin
      @ValeriiBabushkin ปีที่แล้ว +4

      Деньги - пожалуй лучшая метрика

  • @BoQbL1k
    @BoQbL1k ปีที่แล้ว +3

    Спасибо Валерий, уверен курс крутой, может позже куплю! Ты говорил про калькуляторы АВ, но в них всех надо вводить % конверсии, а если мы хотим смотреть revenue или arpu, как тогда посчитать размер выборки ?

    • @ValeriiBabushkin
      @ValeriiBabushkin ปีที่แล้ว +2

      через симуляцию

    • @BoQbL1k
      @BoQbL1k ปีที่แล้ว +1

      @@ValeriiBabushkin Спасибо, дай бог здоровья! Хотел уточнить, если мы посчитаем для А и В теста avg(revenue) и se, то мы ведь сможем сравнить т-тестом две выборки?

    • @ValeriiBabushkin
      @ValeriiBabushkin ปีที่แล้ว +2

      С учётом того что это метрика отношения

    • @BoQbL1k
      @BoQbL1k ปีที่แล้ว +1

      @@ValeriiBabushkin под отношением, имеете ввиду, считать статистику для каждой его составляющей по отдельности ?) Надеюсь не исчерпал лимит вопросов 🙏

    • @ValeriiBabushkin
      @ValeriiBabushkin ปีที่แล้ว +2

      @@BoQbL1k имеется ввиду специальная обработка в случае наличия метрики отношения

  • @user-zl2ot6bk1b
    @user-zl2ot6bk1b ปีที่แล้ว +3

    Комментарий для продвижения больше 5 предложений думаю хватит всем спасибо

  • @user-jk6be7cn1q
    @user-jk6be7cn1q ปีที่แล้ว +1

    Дима Лунин топ, если ты про его статьи. Спасибо за видео!

  • @user-th6oi8pg4n
    @user-th6oi8pg4n ปีที่แล้ว

    валерон просто везде

  • @vbaryshev
    @vbaryshev 16 วันที่ผ่านมา

    Светлая голова

  • @dimka11ggg
    @dimka11ggg ปีที่แล้ว +5

    Сможет ли Chat GPT запускать A/B тесты, когда будут плагины с интеграцией?

    • @ValeriiBabushkin
      @ValeriiBabushkin ปีที่แล้ว +4

      проделать интеграцию - гигантская работа, но пока проверяли - чат гпт обманывает в аб, причем заметить это синьор не смог, а обман был

    • @NoxEternal7
      @NoxEternal7 10 หลายเดือนก่อน

      ​@@ValeriiBabushkinчто за обман такой и в чём он заключался? Интересно, если есть ещё и видео на эту тему. Спасибо

  • @aurelio431
    @aurelio431 ปีที่แล้ว +4

    Машина

  • @MikhailYakupovakaMikl
    @MikhailYakupovakaMikl ปีที่แล้ว

    жиза

  • @Free-pp8mr
    @Free-pp8mr 9 หลายเดือนก่อน

    Валера уже получил почетное звание иногента или нет пока?

  • @1566696
    @1566696 5 หลายเดือนก่อน +2

    Ютуб не позволяет нафигачить большой комментарий, а мне есть что сказать, поэтому буду бить его почастям.
    Я конечно не такой крутой математик как господин Бабушкин. Скажу как практик из Х5, который сидел с ребятами Валерия по другую сторону стола/монитора. В моем проекте проводились десятки а/б тестов для валидации результата и оправдания инвестиций с его командой и на их платформе. В оффлайн ритейле (но думается, что также везде) есть несогласие с методами А/В тестов в практической области. Причина довольно простая, это сферические исследования в вакууме, которые ставят высокую обоснованность результатов во главе угла. С первого взгляда это даже неплохо, но давайте рассуждать дальше.

    • @1566696
      @1566696 5 หลายเดือนก่อน

      В его примерах фигурировало, что "если мы проводим исследование с 40 летними мужчинами то... " продолжим мысль. Успешным считается аб тест в котором на все 100% мужчин участвовавших в исследовании результат дал отклонение в положительную область с разной степенью успеха и результат имеет низкую ошибку. Если 10% мужчин не отреагировали или по другим причинам отреагировали негативно, то этот эксперимент получает от команды Валерия негативное заключение. С точки зрения практики этот результат надо интерпретировать как 90% успех, но бинарная логика платформ аб-тестирования отвечает одной из граней монетки - да или нет. И тут ответ будет - нет. Бизнес не может решать комплексные (сложные) задачи всегда с успехом на 100%. Это вам не кирпичный цвет кнопки, это система органических стимулов влияющая на мотивацию десятков умов, которые должны принять однозначное (с точки зрения платформы) решение.
      Давайте приведу пример. Вы автопроизводитель и запускаете новый вариант автомобиля на замену существующему (ну допустим новая версия ауди а4). Краш-тесты старого автомобиля это контрольная группа, краш-тесты нового это тестовая. И вот вы получаете результат, звучит он следующим образом в 90% случаев в краш тесте нового автомобиля повреждения водителя были меньше чем в старом (остаются конечности, выживаемость). Но в одном типе тестов результаты хуже, водитель изуродован больше чем в старой версии авто, потому что балка безопасности спасающая теперь 90% водителей, расположена под таким углом, что в аварии с 32% перекрытием, под углом 65 градусов при скорости 93-96 км в час по законам физики не успевает уйти влево и входит водителю в грудь и это подтвердилось много раз при аналогичных условиях. В то время как в старом автомобиле именно этот кейс обеспечивает более высокую выживаемость. Несмотря на то, что эти пропорции безопасности сильно лучше чем в предыдущей модели заключение Валерия на этот тест будет - нет, продолжайте улучшать новый авто, так как не 100% случаев лучше чем старые авто. Задайте себе вопрос как потребитель - что в этой ситуации правильнее? Вы могли бы получить завтра более совершенный автомобиль, но вынуждены довольствоваться старым более опасным в целом, потому что не найдено решение для этих 10% случаев, когда стало хуже. Абсурд, верно? Нет, конечно во имя добра, надо и этот кейс решать, (даешь 100% безопасность автотранспорта!!!), но система АБ-тестов так не работает, она дает заключение только когда найдено "абсолютное" решение (как у ситхов).

    • @1566696
      @1566696 5 หลายเดือนก่อน

      Теперь применительно к ритейлу. Проводим мы тест, когда меняется выкладка товара на полку, ну например хороший кофе ставили на верхнюю полку, теперь начали ставить на среднюю. В 70% случаев покупатели отреагировали положительно и продажи кофе улучшились, в 20% нет никаких изменений, а в 10% случаев ухудшились по разным причинам, вплоть до непредсказуемых. Влияние на покупателя это комплексная задача. Этот эксперимент оценивает платформа Бабушкина и дает заключение - нет подтвержденного эффекта. Идите думайте дальше бизнес эксперты. Хороший кофе возвращают на верхнюю полку, эксперты от бизнеса идут думать как сделать так, чтобы повлиять на 30% оставшихся потребителей. Не придумали? - значит опцию видеть хороший кофе на средней полке бизнес потерял навсегда.
      Когда такого рода претензии высказываются коллегам Валерия их ответ прост. Мы просто написали заключение и поставили оценку (и даже показали распределение результатов те самые 70-20-10), решение принял топ-менеджмент. Если у вас есть идеи как это оценивать лучше чем наша платформа, сделайте и защитите у руководства, мы свою платформу у топов защитили. Но руководство, также как и я, не математики, а практики, и текущая религия - "биг дата это новый колосс" по сути не оставляет им выбор на принятие гибких решений. Им проще заставить не-математиков попрыгать вокруг математиков чтобы математики снизошли до индивидуальных настроек оценки или не тратить деньги на эксперименты.
      К чему это все пришло. Спустя 2-3 года с тех пор как появилась эта платформа (по моей СУБЪЕКТИВНОЙ оценке) количество экспериментов упало в десятки раз. Где то дело текущей скорости - надо делать 10 итераций теста, а где то бизнесу проще заниматься повседневной операционной работой по поддержанию "как есть", чем заниматься десятками и сотнями разных экспериментов. Сейчас инициатива имеет инициатора через выплясывание вокруг математиков в смешных шляпах, чтобы тем было весело гонять туда сюда свои датасеты. Если ты недостаточно забавен в глазах согласовантов, то твои результаты будут иметь отрицательное заключение. Такой новый вариант вахтерства. Я знаю что говорю (стыдливо отводит глаза).

    • @1566696
      @1566696 5 หลายเดือนก่อน +1

      Ну и нечестным по отношению к Валерию было бы на бинарное заявление выдавать бинарную критику. Конечно плюсы от ввода аб тестов есть. Есть ситуации когда заключение отсеивает однозначно негативные результаты или пограничные результаты в стиле 50 на 50. Таких шарлатанов выдающих себя за экспертов от бизнеса тоже хватает, а может даже и большинство. Но сейчас этот шлагбаум слишком жесткий и рано или поздно колосс падет. Топ менеджмент конечно будет смотреть в рекомендации платформы тестирования, но оно будет лишь подсказкой, а не ЗАКЛЮЧЕНИЕМ как сейчас. Надо просто подождать, когда за год пройдет всего 2-3 успешных теста и количество внедренных инноваций упадет раз в 5 - 10, тогда вопросы появятся ко всем, включая математиков.
      Я бы от всех практиков рекомендовал начать с простого - система должна выдавать пограничные заключения, не светофор да, нет, непонятно (что трактуется топами как нет). А все таки руководствоваться некоей нечеткой логикой интерпретации. В стиле "не идеально, но точно лучше чем раньше". Я понимаю, что в результате так и будет, но сегодня бигдата для бизнеса, скорее зло через призму моего 20 летнего практического опыта. Многие минорные улучшения отправляются в помойку, а весь взрослый бизнес выживает не за счет революций ,а именно эволюционными изменениями.
      Ну и спасибо за интересный рассказ, смотреть как профессионал рассказывает о своем опыте и знаниях это всегда впечатляет.

    • @ValeriiBabushkin
      @ValeriiBabushkin 6 วันที่ผ่านมา

      ​@@1566696 аб тесты оценивают общий эффект (будь то средний, медианный, перцинтильный и тп). Я не знаю откуда взялось утверждение что требуется 100% случаев для принятия решения, но этого конечно же не так. Думаю вам нужно выдать то, что здесь написано, команде Саши Сахнова, завязать дискуссию - чтобы они выяснили почему и откуда у вас неправильное понимание и объяснили как же это работает, чтобы в дальнейшем не возникало ложного понимания

    • @ValeriiBabushkin
      @ValeriiBabushkin 6 วันที่ผ่านมา

      @@1566696 Все верно. Если в 70% случаев стало лучше на 1%, в 20% не изменилось, а в 10% стало хуже на 7%, общий эффект будет:
      0.7 * 0.01 + 0.2 * 0 - 0.1 * 0.07 = 0
      В этом случае, изменение не имеет смысла, поскольку оно не приносит выгоды, а наоборот, может привести к потерям, учитывая затраты на его реализацию. Платформа предоставила вам распределение результатов. Теперь ваша задача - найти способы либо уменьшить потери в 10%, либо увеличить прибыль в 70%.
      Что касается уменьшения количества экспериментов, возможно, это даже хорошо. Ведь каждый эксперимент требует значительных ресурсов, особенно в офлайн-ритейле. Возможно, раньше, когда большинство экспериментов считались успешными, не все было в порядке. В развитом бизнесе процент успешных экспериментов не может быть высоким, иначе зачем экспериментировать - сразу внедряйте на всех. Мне помнится, процент успешных экспериментов был на уровне 90+%, что вызывает сомнения в их достоверности. Более того, платформа - инструмент - решения принимает топ менеджмент, хочет рисковать - пусть рискует, измерительный прибор лишь говорит что видит

  • @wizardoflightnings6841
    @wizardoflightnings6841 ปีที่แล้ว +7

    Почему Валерий моргает не до конца?

    • @user-vo9qz7ty2l
      @user-vo9qz7ty2l ปีที่แล้ว +12

      Так это же только первая часть. Во второй он уже доморгает все остальное

    • @BoQbL1k
      @BoQbL1k ปีที่แล้ว +3

      Проводит А/В тест морганий1

    • @wsg6233
      @wsg6233 6 หลายเดือนก่อน

      Экономит время) достаточно не до конца могюргать

    • @dihok9669
      @dihok9669 5 หลายเดือนก่อน

      Чтобы ничего не упустить 😮

  • @slavikdoter
    @slavikdoter ปีที่แล้ว +1

    Аудио оформление на уровне 1 апреля. Пожалуйста, не делайте так! Ощущение квн с отбивками

    • @karpovcourses
      @karpovcourses  ปีที่แล้ว +5

      Так видео и вышло первого апреля :)

  • @nykmyn
    @nykmyn ปีที่แล้ว

    Очень громко музыка, мешает слушать

  • @igoriakubovskii1958
    @igoriakubovskii1958 ปีที่แล้ว +1

    Какого это торговать лицом и продавать модельки с реколом в 0.01 ?

    • @ValeriiBabushkin
      @ValeriiBabushkin ปีที่แล้ว

      Это какие модели с реколом в 0.1?

  • @2korzhik
    @2korzhik ปีที่แล้ว +1

    Если даже Валерий так слабо отвечает про АБ тестирование, то очевидно что АБ тесты это по большому счету скам.