Pull to refresh

Comments 6

Привет. Ну очень скромно описал Базовый знания.

Очень сильно сомневаюсь, что только это достаточно работать на Джуне. Прошу описать, что входит в задачи, что используешь на практике.

Привет, конечно, данная статья содержит лишь частичку информации, которую необходимо знать джуну)

Разделила весь текст на несколько частей, скоро выложу еще)

Очень жду. я еще на этапе "мечтаю стать стажером", хотя уже пару кейсов в текущей своей компании сделал, но вакансий аналитиков в фирме просто не существует.

Спасибо за статью.

Как истинный зануда, не могу не дополнить своими соображениями.

Pandas

Стоит знать, что pandas очень мощный инструмент, который имеет возможности по работе с данными, аналогичные SQL: эта страница документации раскрывает подробнее. (Особенно интересная работа с группировками).

Ещё интересны могут быть базовые функции по визуализации (pandas включает в себя интерфейсы к matplotlib), что позволяет "лениво" рассматривать данные (порой это очень полезно). А если ещё и seaborn использовать, вообще красота получается. Документация.

Кстати, pandas имеет отдельный тип данных categorical, в который стоит переводит столбцы с категориальными переменными для использования соответствующей функциональности.

Categorical Feature Encoding

Касательно работы с категориальными данными, мне кажется, также не лишним будет знать и другие методы (также это поможет дополнить ответ на великий вопрос о разнице трёх библиотек градиентного бустинга):

  • Binary Encoder и Hash Encoder -- по сути тот же OneHot, но вектор итоговый получается меньше, хотя пишут, что часть информации может потеряться;

  • Target Encoder (по-моему, едва ли не лучший вариант, если есть целевые значения) -- кодирует значения категориального признака с учётом их встречаемости с конкретными метками классов;

  • Frequency Encoder -- кодирует на основе частоты встречаемости значения категориального признака в выборке;

  • CatBoost Encoder (shout out to the mighty Yandex) -- как target encoder, но, кажется, учитывает только значения, которые были встречены перед текущим примером из выборки.

    Кстати, если работать на python, есть целая библиотека с интерфейсами, как у sklearn: category_encoders. При взгляде в ReadMe можно увидеть огромный простор для изучения методов кодирования категориальных данных.

Разделение датасета

Мне кажется, немало практиков валидационное множество берут всё же, отрезая от тренировочного. Это, на мой взгляд, более осмысленно, так как тест после отрезания вообще не стоит трогать (а на соревнованиях он, например, вообще недоступен).

Также новичкам стоит знать про методы кросс-валидации, зачем она вообще нужна и когда её использовать не стоит.

А ещё отдельно про валидацию последовательностей (time series), мне кажется, это довольно популярный формат данных.

Надеюсь, это будет полезной информацией.

Спасибо большое, очень полезная информация!

Sign up to leave a comment.

Articles