Pull to refresh
0
0
Александр Маркелов @smarkelov

Пользователь

Send message

Основные типы распределений вероятностей в примерах

Level of difficultyMedium
Reading time15 min
Views13K

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.

Читать далее
Total votes 58: ↑58 and ↓0+58
Comments11

Как я создаю себе колоды Anki для немецких слов

Level of difficultyMedium
Reading time14 min
Views6.8K

Я захотел продолжить некогда заброшенное изучение немецкого языка. Долгое время на просторах интернета слышал мнение, что карточки Anki – чуть ли не самый лучший способ изучение языка, и решил, собственно, посмотреть что к чему. Рекомендации YouTube привели меня к интересному видео, где автор рассказывает о своем шаблоне карточек с немецкими словами. Автор не желал публиковать свою колоду, и не найдя аналогов среди публичных колод, я принялся делать свое. Конечно же не вручную.

Читать далее
Total votes 17: ↑17 and ↓0+17
Comments36

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Level of difficultyMedium
Reading time21 min
Views96K

14го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении нерешённых проблем». А в блогпосте дочки гугла и вовсе не постеснялся указать, что это — первые находки Больших Языковых Моделей (LLM) в открытых математических проблемах. Неужели правда? Или кликбейт — и это в Nature? А может мы и вправду достигли техносингулярности, где машины двигают прогресс? Что ж, давайте во всём разбираться!

Ну давай разберёмся →
Total votes 182: ↑178 and ↓4+174
Comments271

Бомбора. Кровавый и беспощадный перевод книг

Level of difficultyEasy
Reading time11 min
Views35K

Вы покупаете книгу в бумажном исполнении, вдыхаете аромат её страниц, начинаете читать это чудо человеческой мысли и печатного станка, как вдруг… #%^#@&*#^~$%? Чуть выдохнув, вы пытаетесь понять, а что, собственно, за ахинею вы только что загрузили к себе в мозг? В этой статье поделюсь своим опытом, полученным от попытки прочитать переводную книгу от издательства Бомбора. Только сразу предупреждаю: от показанных примеров «перевода» могут случиться истерические припадки.

Читать далее
Total votes 239: ↑239 and ↓0+239
Comments183

MLOps от Gucci и оценка уровня Data Driven’ности в компании

Level of difficultyMedium
Reading time5 min
Views2.6K
image

Привет, Хабр! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать дальше →
Total votes 42: ↑42 and ↓0+42
Comments0

Основы парсинга на Python: от Requests до Selenium

Level of difficultyEasy
Reading time5 min
Views62K

Бывают ситуации, когда нужно автоматизировать сбор и анализ данных из разных источников. Например, если хочется мониторить курс рубля в режиме реального времени. Для решения подобных задач применяют парсинг.

В этой статье кратко рассказываем, как парсить данные веб-сайтов с помощью Python. Пособие подойдет новичкам и продолжающим — сохраняйте статью в закладки и задавайте вопросы в комментариях. Подробности под катом!
Читать дальше →
Total votes 36: ↑36 and ↓0+36
Comments15

В поисках инвестиционного портфеля «На все времена»

Level of difficultyMedium
Reading time10 min
Views6.3K

...или точнее попытка декомплилировать знаменитый портфель от Рэя Далио и перестроить его с учетом современных реалий.

Меня всегда интересовало, как построить для себя пассивный инвестиционный портфель, который бы генерил доходность, сопоставимую с индексным фондом, но с меньшими относительными просадками в периоды кризисов. На первый взгляд, невыполнимая задача со стороны теоретиков эффективного рынка. Со временем размышления на тему привели меня к изучению так называемых “вечных” (permanent) портфелей. Одним из таких портфелей является портфель “На все времена” (All-weather или All-seasons portfolio).

Читать далее
Total votes 9: ↑7 and ↓2+5
Comments6

ChatGPT как инструмент для поиска: решаем основную проблему

Reading time40 min
Views110K

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а Microsoft планирует интеграцию в поисковик Bing - чем, кстати, безумно обеспокоен СЕО Alphabet (Google) Сундар Пичаи. Настолько обеспокоен, что в своём письме-обращении к сотрудникам объявляет "Code Red" ситуацию. В то же время Сэм Альтман, CEO OpenAI - компании, разработавшей эту модель - заявляет, что полагаться на ответы ChatGPT пока не стоит.

Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы, как может выглядеть новый интерфейс взаимодействия, и какие основные проблемы есть на пути интеграции? Могут ли модели сёрфить интернет бок о бок с традиционными поисковиками? На эти и многие другие вопросы постараемся ответить под катом.

Погрузиться с головой →
Total votes 96: ↑96 and ↓0+96
Comments51

Рассвет и закат атомной энергетики Германии

Level of difficultyMedium
Reading time18 min
Views25K
15 апреля Германия закрыла последние три действующие блока АЭС. Страна завершила долгий процесс развития, а затем и отказа от атомной энергетики. Эта статья посвящена истории атомной промышленности и энергетики Германии и истории противостояния ей.

image

Это моя первая статья, написанная в соавторстве. Поскольку закрытие немецких АЭС планировалось давно, то мы задумали эту коллаборацию еще в прошлом году с инженером-энергетиком @energy_opinion, работающим в Германии, более известным под ником Энергетический батончик. Эта статья так же доступна в виде его большого треда в твиттере, а в других его тредах можно узнать много интересных деталей об энергетике Европы и Германии.

Читать дальше →
Total votes 92: ↑91 and ↓1+90
Comments50

Всё, что вам нужно — это внимание (часть 1)

Level of difficultyHard
Reading time14 min
Views20K
Источник

Примечание переводчика: Недавно на Хабре мы рассказывали о статьях, которые нужно прочитать, если вы хотите заниматься искусственным интеллектом. Среди них была культовая статья Attention is all you need, выпущенная в 2017 году. С неё началось развитие больших языковых моделей, в том числе всем известного чат-бота ChatGPT. Оказалось, что у такой важной статьи нет перевода на русский язык. Мы решили исправить это. Ниже вы найдёте перевод первой части статьи, вторая часть доступна по ссылке.

Краткое содержание


Наиболее распространённые модели преобразования последовательностей основаны на сложных рекуррентных или свёрточных нейронных сетях, которые включают энкодер и декодер. В самых успешных моделях энкодер и декодер соединяются с помощью механизма внимания. В статье авторы предлагают новую простую архитектуру нейронных сетей — Трансформер. Он основан исключительно на механизмах внимания, без рекуррентности или свёрток. Эксперименты на двух задачах машинного перевода показали лучшее качество, а также больше возможностей к распараллеливанию и меньшие временные затраты на обучение. Модель достигает 28.4 по метрике BLEU на задаче перевода с английского на немецкий на данных WMT 2014, что превосходит предыдущий лучший результат на 2 пункта. На задаче перевода с английского на французский на данных WMT 2014 модель достигла наилучшего результата для решения, основанного на одной модели — 41.8 по метрике BLEU — после всего 3.5 дней обучения на 8 GPU, что составляет совсем небольшую часть тех вычислительных мощностей, которые были затрачены на обучение лучшей модели, известной из имеющихся публикаций. Авторы показывают, что Трансформер может также успешно применяться и в других задачах, таких как, например, синтаксический разбор предложений на английском языке с использованием как больших, так и весьма ограниченных наборов данных для обучения.
Читать дальше →
Total votes 61: ↑60 and ↓1+59
Comments5

Всё, что вам нужно — это внимание (часть 2)

Level of difficultyHard
Reading time15 min
Views8.6K
Источник

Примечание переводчика: Это вторая часть перевода статьи Attention is all you need, с которой началось развитие больших языковых моделей, в том числе чат-бота ChatGPT. Первую часть можно найти здесь.
Читать дальше →
Total votes 44: ↑42 and ↓2+40
Comments0

Как мы подружили ML и биореакторы

Reading time12 min
Views3.2K

Привет, Хабр! Мы Data Science команда биотехнологической компании BIOCAD. Хотим рассказать вам о том, как мы применяем машинное обучение при производстве лекарственных средств и с какими задачами сталкиваемся для оптимизации технологического процесса культивирования белка.

Читать далее
Total votes 16: ↑16 and ↓0+16
Comments3

Теория вероятностей в машинном обучении. Часть 2: модель классификации

Reading time14 min
Views14K

В предыдущей части мы рассматривали вероятностную постановку задачи машинного обучения, статистические модели, модель регрессии как частный случай и ее обучение методом максимизации правдоподобия.

В данной части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax, как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Данная часть содержит много отсылок к формулам и понятиям, введенным в первой части, поэтому рекомендуется читать их последовательно.

В третьей части (статья планируется) перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей - рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

Читать далее
Total votes 29: ↑29 and ↓0+29
Comments2

Теория вероятностей в машинном обучении. Часть 1: модель регрессии

Reading time28 min
Views22K

В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия с оценкой уверенности, и как нормальное распределение связано с минимизацией среднеквадратичного отклонения.

В следующей части рассмотрим метод максимизации правдоподобия в классификации: в чем роль кроссэнтропии, функций сигмоиды и softmax и как кроссэнтропия связана с "расстоянием" между распределениями вероятностей и почему модель регрессии тоже обучается через минимизацию кроссэнтропии. Затем перейдем от метода максимизации правдоподобия к байесовскому выводу и его различным приближениям.

Данная серия статей не является введением в машинное обучение и предполагает знакомство читателя с основными понятиями. Задача статей - рассмотреть машинное обучение с точки зрения теории вероятностей, что позволит по новому взглянуть на проблему, понять связь машинного обучения со статистикой и лучше понимать формулы из научных статей. Также на описанном материале строятся более сложные темы, такие как вариационные автокодировщики (Kingma and Welling, 2013), нейробайесовские методы (Müller et al., 2021) и даже некоторые теории сознания (Friston et al., 2022).

Читать далее
Total votes 23: ↑23 and ↓0+23
Comments0

Как структурировать проект ML и сделать его воспроизводимым и поддерживаемым

Reading time6 min
Views4.7K

При создании проектов в машинном обучении зачастую сложнее всего бывает начать работу. Какой должна быть структура репозитория? Каким стандартам следовать? Смогут ли ваши коллеги воспроизвести результаты экспериментов? Автор материала делится шаблоном проекта, наработанным за годы изучения науки о данных, а наш флагманский курс по Data Science стартует 25 января.

Читать дальше →
Total votes 3: ↑3 and ↓0+3
Comments0

Обработка изображений с помощью библиотеки Python Pillow

Reading time33 min
Views122K

Данный туториал является переводом статьи, написанной Stephen Grupetta. Все изображения и коды скопированы без изменений. В конце вы найдете примечания относительно данной информации, а также ссылку на github с работающим кодом. Если код, приведенный автором не запускается, переходите в примечания и, возможно, сможете найти решение вашей ошибки.

Читать далее
Total votes 10: ↑10 and ↓0+10
Comments7

Нейросетевой подход к кредитному скорингу на данных кредитных историй

Reading time11 min
Views12K

В Альфа-Банке естественным образом накапливаются разнообразные последовательные данные: истории транзакций клиентов, кредитные истории, истории коммуникаций. Одно из двух направлений Лаборатории машинного обучения Альфа-Банка занимается построением нейросетевых моделей на таких данных для решения разных задач. Одна из них — задача кредитного скоринга. Любой прирост в качестве скоринга платежеспособности клиентов на входе может быстро принести большой прирост в прибыли на выходе за счет увеличения числа выдач при неизменном риске. 

Мы уже рассказывали о построении моделей на последовательностях карточных транзакций и транзакций расчетного счета для решения задачи кредитного скоринга. В обоих случаях вместо классических подходов – логистической регрессии и градиентного бустинга – использовались настоящие «черные ящики»: рекуррентные нейронные сети. Теперь же мы хотим рассказать о применении этого неклассического подхода на другом источнике данных – кредитных историях.

Появление модели на данных КИ стало переломной точкой, когда совокупный вес нейронок на последовательных данных при принятии решений превысил вес бустинговой модели на табличных данных. В этой статье мы опустим некоторые технические детали, о которых уже рассказывали в предыдущих. Вместо этого расскажем, как звучала постановка задачи, какие данные использовали, какие применяли модели, с какими сложностями столкнулись и как с ними справились. От этого рассказ, может быть, станет чуть менее техническим, но при этом не менее интересным.

Читать далее
Total votes 13: ↑12 and ↓1+11
Comments12

В Data Science не нужна математика (Почти)

Reading time6 min
Views87K

Привет, чемпион!

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!
Читать дальше →
Total votes 143: ↑136 and ↓7+129
Comments87

Сделай то, сделай это, сделай сам

Reading time4 min
Views14K

Доброго времени суток Дамы и Господа! Многим приходилось сталкиваться с необходимостью анализа большого количества данных при помощи Python по запросам начальства или коллег. Однотипные запросы поступают с определенной периодичностью, и не составляет труда подставить новые данные в свой код и провести анализ. Но иногда из-за определенной нагрузки не всегда хочется заниматься таким анализом. Намного проще сделать скрипт с графическим интерфейсом, чтобы сам заказчик для анализа данных мог нажать пару кнопок и получить желаемый результат. Тем более, можно изначально вложить в интерфейс столько «хотелок» заказчика для анализа, сколько будет душе угодно.

Читать далее
Total votes 17: ↑17 and ↓0+17
Comments1

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Date of birth
Registered
Activity