Pull to refresh
30
-3
Александр Ледовский @aledovskiy

Analytics/DS Team Lead, Avito

Send message

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

Reading time 7 min
Views 14K

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

Читать далее
Total votes 10: ↑9 and ↓1 +8
Comments 0

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

Reading time 9 min
Views 9.6K

Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.

Читать далее
Total votes 5: ↑5 and ↓0 +5
Comments 15

PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать

Reading time 9 min
Views 13K

Александр Ледовский, тимлид команды аналитики и DS в Авито, рассказал про опыт работы с Apache Spark и о том, как правильно задавать параметры Spark-сессии, чтобы получить ресурсы.

Читать далее
Total votes 17: ↑17 and ↓0 +17
Comments 19

Мои принципы в менеджменте ИТ-команд

Reading time 6 min
Views 9.9K

Уже более 5 лет я занимаю руководящие позиции в области анализа данных. От синьора DS с двумя подчиненными до лида трех команд аналитиков и инженеров в Малом бизнесе Сбера. За это время я сформировал приципы, которые помогают мне в управлении творческими специалистами.

Не претендую на истину, да и не всему всегда получается следовать. Принципы не отражают всех задач менеджера, а относятся к конкретным вопросам. Делюсь с вами своим опытом, буду рад услышать ваше мнение.

Читать далее
Total votes 26: ↑25 and ↓1 +24
Comments 9

Несколько применений Sublime Text 3, которыми Вы могли бы пользоваться

Reading time 1 min
Views 67K
Sublime Text относится к тем текстовым редактором, которые могут все. Гибкость позволяет настроить его на любой вкус, а большое комьюнити штампует плагины днями и ночами. Многие программисты используют его как среду разработки, однако до неосновных применений доходят не все. В этой небольшой статье я расскажу о некоторых из них.
Читать дальше →
Total votes 97: ↑82 and ↓15 +67
Comments 61

Статистические тесты в R. Часть 3: Тесты количественных данных

Reading time 3 min
Views 23K
Это третья статья в серии о применении R для статистического анализа данных, в которой будут разбираться представление и тестирование количественных данных. Вы узнаете как быстро и наглядно представить данные, а также как использовать t-тест в R.

Часть 1: Бинарная классифиация
Часть 2: Анализ качественных данных

Поехали!
Читать дальше →
Total votes 22: ↑21 and ↓1 +20
Comments 0

Статистические тесты в R. Часть 2: Тесты качественных данных

Reading time 4 min
Views 21K
Эта статья — продолжение первой части. В этой серии статей я рассматриваю применение набирающего популярность языка программирования R для решения распространенных статистических задач.

В данной и следующей статье я показываю как выбрать для обработки качественных и количественных данных правильные тесты и реализовать их в R. Данные методы позволяют получить реальное представление об объекте, процессе или явлении по какому-либо параметру, т.е. позволяют сказать «хорошо» или «плохо». Они не потребуют глубоких знаний программирования и статистики, и пригодятся людям различного рода деятельности.

Заинтересовались? Добро пожаловать под кат!
Читать дальше →
Total votes 7: ↑6 and ↓1 +5
Comments 0

Статистические тесты в R. Часть 1: Бинарная классификация

Reading time 5 min
Views 24K
Доброго времени суток. Хочу поделиться своими знаниями о работе со статистикой в R.
Многим из нас приходится сталкиваться с различными данными на работе и в повседневной жизни. Качественно и правильно их обработать и проанализировать не так сложно. В этой серии статей я покажу применения некоторых статистических тестов.

Заинтересовались? Добро пожаловать под кат.
Читать дальше →
Total votes 13: ↑13 and ↓0 +13
Comments 11

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Scientist, Data Engineer
Lead
Machine learning
Deep Learning
DWH
Spark
Apache Hadoop
Python
Docker
Django