Курс проложит аналитик: проверьте, какими SQL-скилами вы экипированы / Comments / Habr

Островок! corporate blog August 23 2023

Курс проложит аналитик: проверьте, какими SQL-скилами вы экипированы

Если вы не первый год в аналитике, то знаете, каково это — прокладывать дорогу сквозь неопределённость. Рассматривать гипотезы и принимать ту, по которой работать, — это как выбирать дорогу, по которой идти всей команде. Волнительно и непросто отправляться на неосвоенные земли.

Вот вы — хороший штурман? Готовы встретиться с вызовами? Перетряхнём же рюкзак, посмотрим, чем он набит, и есть ли там самое важное, без чего не выжить в пути.

Пройти тест

+22

Comments 26

uuger Aug 23 2023 at 11:21

какая лажа, начиная с самого первого вопроса

Hidden text

Как можно взять и определить приемлемый уровень значимости "гипотез по перемещению льдов" (что бы эта ересь ни значила), не видя данные и не зная методик, как они собирались? Или на курсе "аналитика данных за три дня по промокоду жопа скидка 99%" научили, что в любой непонятной ситуации надо выбирать a = 0.05?

shevchenko6436 Aug 23 2023 at 12:29

Да, разница в значениях альфа не дает оснований для принятия или отклонения гипотезы.
В зависимости от значения она может увеличить вероятность ошибок первого или второго рода.

Меньший уровень альфа даст большую уверенность в значимости одной гипотезы, поэтому без дополнительных уточнений можно выбрать a = 0.5%.

dgoncharov Aug 24 2023 at 09:44

Я согласен, что, не имея никакой дополнительной информации, разумно будет выбрать стандартные 5% - но это неправильный ответ по мнению авторов теста. Спасибо всем, кто пишет тут комменты, а то я уж думал, что это со мной что-то не так. ИМХО, тест действительно странный, в стиле "угадай, какой ответ мы задумали".

shevchenko6436 Aug 24 2023 at 10:45

чем меньше альфа - тем больше уверенности в значимости одной гипотезы)

dgoncharov Aug 24 2023 at 11:08

Ну да, кто ж спорит. Но если так рассуждать, почему бы не выбрать а=10^-6 ? )

kekalo Aug 28 2023 at 08:38

Просто нет такого варианта ответа :-) Поэтому соглашусь вот с этим https://habr.com/ru/specials/756246/#comment_25892728

Lainhard Aug 23 2023 at 15:04

Неправильно ответил на 3 первых вопроса, расстроился и закрыл тест 🥲

unfilled Aug 23 2023 at 16:18

Нужна пояснительная бригада

В какой СУБД ответ, который считается правильным, вернётся приведённым запросом?

Pythonpy Aug 28 2023 at 09:57

MS SQL?

unfilled Aug 28 2023 at 10:51

345? RLY?

wrc-pet Aug 28 2023 at 16:06

Нет, там 5-4-5 будет

alecx Aug 23 2023 at 18:18

Поиграем в найди отличие?

unfilled Aug 23 2023 at 20:27

Я сейчас ещё и на скриншоте пытался разницу найти (в тесте тоже не угадал), и понял, что оба синтаксически некорректные - в таблицах и cte remains_id, в условиях соединения - remainsid

wrc-pet Aug 24 2023 at 10:03

Вот сейчас вообще не понял

MS SQL 2022

TheLastParagon Aug 28 2023 at 08:41

Вы забыли добавить distinct при расчете значений count. Посмотрите повнимательнее на запрос из теста - count(distinct ...).

Данный запрос исключает повторяющиеся значения конкретного атрибута, указанного внутри функции count, не затрагивая основной набор данных.

unfilled Aug 28 2023 at 10:54

На скрине в моём комментарии видно, что distinct там не было

kekalo Aug 28 2023 at 21:37

Поправили

Akina Aug 24 2023 at 21:48

3/10 (вроде бы). Напишите запрос, который на основе Table1 построит Table2

Правильного ответа - НЕТ. Ни один из вариантов вообще не содержит финального ORDER BY и, значит, не может гарантировать показанного порядка записей результата.

6/10. Какие ошибки он допустил в функции расчёта среднего значения?

Не въехал... вроде заявлялся тест на скиллы SQL. А приведённый код с точки зрения любого диалекта SQL - бред голимый...

К слову, если это питон, то функция "ляжет", получив входные данные нулевой длины. Так что правильного ответа опять - НЕТ.

7/10. Как вы будете обрабатывать пропущенные значения в данных?

Это с какого перепугу-то - брать вместо отсутствующих данных усреднённые? привыкли подгонять результат под нужный ответ, что ли? Недостоверные данные отбрасываются и ничем не заменяются - ведь измерения-то независимы! Впрочем, может, этот особенность аналитика - нет данных, так придумаем...

8/10. При помощи какой метрики вы будете оценивать финансовую производительность посетителей сайта

Опять - в SQL вообще нет таких терминов!

Короче, туфта. Второй тест даже смотреть не буду, там небось такая же бредятина.

vickiy Sep 4 2023 at 08:05

видимо тест рассчитан на аналитиков после курсов и без какого-либо продуктового опыта, потому что у меня тоже знатно пригорело с "правильных" вариантов ответов, особенно про заполнение пропущенных данных. Не понимаю, почему у большинства всегда чешутся руки заполнить чем-то пропущенные данные.

vadimr Aug 27 2023 at 21:44

Функция, которая входит в бесконечную рекурсию при отрицательных или нецелых значениях аргумента – верно написана??? Я своим студентам по нескольку раз повторяю, чтобы точно запомнили, что рекурсивную функцию следует начинать писать с достижимого условия выхода.

Авторы, похоже, не понимают разницы между рекуррентным определением и рекурсивной функцией.

Не касаясь того, что вообще рекурсия в системе программирования без tco не должна применяться для простого циклического алгоритма.

aldmitry Aug 30 2023 at 08:37

На русский язык переведите: Какая группа лучше перформит, при условии, что уровень стат. значимости = 5%, а мощность — 80%?

RedWolf Sep 13 2023 at 01:18

Адское количество опечаток, смесь ", ' и ' '. В "правильном" ответе на 7-ой вопрос в Антарктиде группировка не под дате, а по типу, а в пивоте для бедных почему-то идёт фильтрация по дате, а не типу. Ну и 600+400=100 :) Правильного ответа там вообще нет.

poxvuibr Sep 14 2023 at 01:29

В "правильном" ответе на 7-ой вопрос в Антарктиде группировка не под дате, а по типу

Там есть вариант, где в селекте первым стоит date и два варианта, где первым стоит type. Понятно, что варианты с первым type не могут быть верными вообще никак, потому что в результате в первой колонке дата. И, конечно, по тесту результат с date в селекте неверный ))

Analytique Sep 13 2023 at 09:11

У меня 9/10 и 8/10, но там, где я не совпала с ответом, указанным как правильный, я могу обосновать свой выбор 🤷‍♀️

poxvuibr Sep 14 2023 at 01:39

А я вот не могу. В седьмом вопросе правильного ответа на самом деле нет, в восьмом первые три ответа одинаковые, просто ткнул наугад

fortunam Sep 16 2023 at 09:27

Спасибо за тест. По поводу задания с A/B тестом возникли размышления, так как я ответил, что обе хороши, а правильный ответ другой. После расчетов p-value мы видим, что на каждом этапе воронки есть статистически значимые различия между контрольной и тестовой группами.

Оказалось, тестовая группа показывает лучшие результаты на этапе "MainPage -> BookingForm", в то время как контрольная группа показывает лучшие результаты на других этапах воронки. Возможно, новый шаблон главной страницы может улучшить конверсию на этапе перехода от главной страницы к форме бронирования, но может снизить конверсию на других этапах.

Ответ на вопрос зависит от того, какой этап воронки считается наиболее критичным для общей производительности сайта.

На первом и третьем этапах воронки (SERP -> MainPage и BookingForm -> Voucher) контрольная группа показывает лучшие результаты по z-значениям и p-значениям.
На втором этапе (MainPage -> BookingForm) тестовая группа показывает лучшие результаты, что также подтверждается z-значением и p-значением.

Делаю вывод, что нет однозначного ответа на вопрос, какая группа показывает лучший общий результат, поскольку это зависит от того, какой этап воронки считается наиболее важным.

Если важнее увеличить конверсию от главной страницы к форме бронирования, тогда "Test" группа показывает лучшие результаты. Но, если важнее увеличить общую конверсию через всю воронку, тогда "Control" группа может показывать лучшие результаты, учитывая более высокую конверсию на других этапах.

Вывод: в зависимости от бизнес-модели и целей правильным будет и "Control", и "Test".