Pull to refresh
61
0
Георгий @Apatic

Аналитик

Send message

Правдоподобия, P-значения и кризис воспроизводимости

Reading time26 min
Views20K
Или: Как переход от публикации P-значений к публикации функций правдоподобия поможет справиться с кризисом воспроизводимости: личное мнение Элиезера Юдковского.

Если Монро нарисовал комиксы про 75% существующих интересных проблем, а четверть моих статей интересные, то какова вероятность, что рано или поздно мне придётся искать КДПВ где-то ещё?

Комментарий переводчика: Юдковский, автор HPMOR, создатель Lesswrong и прочая и прочая, изложил свою позицию по поводу пользы байесовской статистики в естественных науках в форме диалога. Прямо классический такой диалог из античности или эпохи возрождения, с персонажами, излагающими идеи, обменом колкостями вперемешку с запутанными аргументами и неизбежно тупящим Симплицио. Диалог довольно длинный, минут на двадцать чтения, но по-моему, он того стоит.

Дисклеймеры
  • Этот диалог был написан сторонником байесовского подхода. Реплики Учёного в нижеприведённом диалоге могут и не пройти идеологический тест Тьюринга на фреквентизм. Возможно, что они не отдают должное аргументам и контраргументам сторонников частотного подхода к вероятности.
  • Автор не рассчитывает, что описанные ниже предложения будут приняты широким научным сообществом в ближайшие десять лет. Тем не менее, это стоило написать.

Если вы ещё не знакомы с правилом Байеса, на сайте Arbital есть подробное введение.

Модератор: Добрый вечер. Сегодня в нашей студии: Учёный, практикующий специалист в области… химической психологии или чего-то типа того; его оппонент Байесовец, который намерен доказать, что кризис воспроизводимости в науке можно как-то преодолеть с помощью замены P-значений на что-то из Байесовской статистики…
Студент: Извините, как это пишется?
Модератор:… и, наконец, ничего не понимающий Студент справа от меня.
Читать дальше →
Total votes 27: ↑25 and ↓2+23
Comments41

Data-mining и Твиттер

Reading time5 min
Views8.3K

Среди социальных сетей Твиттер более других подходит для добычи текстовых данных в силу жесткого ограничения на длину сообщения, в которое пользователи вынуждены поместить все самое существенное.


Предлагаю угадать, какую технологию обрамляет это облако слов?


Облако


Используя Твиттер API можно извлекать и анализировать самую разнообразную информацию. Статья о том, как это осуществить с помощью языка программирования R.

Читать дальше →
Total votes 18: ↑18 and ↓0+18
Comments8
Новый офис, новые коллеги. Имена путаются, половина нужных спецов вам вообще не знакома. Что делать? Как искать правильных специалистов? На помощь придут наклейки, которыми щедро украшают свои ноуты практически все разработчики. Причем стикеры расскажут не только о профессии и навыках, но и о личных интересах их владельцев, а это — ключ к быстрому вхождению в коллектив. Правда, можно и ошибиться, приняв верстальщика за разработчика инфраструктуры приложений или начальника отдела за рядового тестера. Попытайтесь представить себя на месте нового сотрудника компании Авито. Попробуйте освоиться в новом коллективе и угадать, кто есть кто, всего лишь взглянув на крышку ноутбука.
Подробности — под катом
Total votes 60: ↑53 and ↓7+46
Comments81

Дела подводные — для роботов

Reading time17 min
Views26K

Intro


Поверхность планеты примерно на 71% покрыта океанами (порядка 361 млн. км²). Площадь РФ примерно 17 млн. км. Глубина океанов неравномерна, выделяют следующие зоны:

Шельф (shelf — полка) — глубина до 200—500 м;
Континентальный склон — глубина до 3500 м;
Океанское ложе — глубина до 6000 м;
Глубоководные желоба — глубина ниже 6000 м.

Средняя глубина также отличается:

Атлантический — 3600 м
Индийский — 3890 м
Северный ледовитый — 1225 м
Тихий — 4250 м

image

Зачем человек лезет под воду?
Total votes 54: ↑54 and ↓0+54
Comments40

Создаём простую нейросеть

Reading time9 min
Views166K


Перевод Making a Simple Neural Network

Что мы будем делать? Мы попробуем создать простую и совсем маленькую нейронную сеть, которую мы объясним и научим что-нибудь различать. При этом не будем вдаваться в историю и математические дебри (такую информацию найти очень легко) — вместо этого постараемся объяснить задачу (не факт, что удастся) вам и самим себе рисунками и кодом.
Начнем.
Total votes 41: ↑37 and ↓4+33
Comments17

Нейронки за 5 минут

Reading time5 min
Views171K
Давайте я за 5-10 минут чтения и понимания коротенькой статьи добавлю вам в резюме строчки «машинное обучение» и «нейронные сети»? Тем, кто далек от программирования, я развею все мифы о сложности ИИ и покажу, что большая часть всех проектов на машинном обучении строится на предельно простых принципах. Поехали — у нас всего пять минут.

Рассмотрим самый базовый пример нейронных сетей — перцептроны; я сам только после этого примера полностью осознал, как работают нейронные сети, так что, если я не накосячу, и вы сможете понять. Помните: никакой магии здесь нет, простая математика уровня пятого класса средней школы.
Читать дальше →
Total votes 138: ↑111 and ↓27+84
Comments143

Git снизу вверх

Reading time27 min
Views125K
У этого перевода не совсем обычная история. Системы контроля версий далеки от моих профессиональных интересов. Для рабочих проектов они мне требовались нечасто, причем, разные, так что, каждый раз, когда возникала такая необходимость, я заново вспоминала, как в них делается та или иная операция. А для личных проектов мне хватало возможностей Dropbox, хранящей историю версий файлов.


Изображение из твиттера @girlie_mac

Но вот однажды я на три незабываемых дня попала в роддом — это иногда случается с женщинами. Из развлечений у меня были новорожденная дочь и телефон с большим экраном. Дочь поначалу развлекала плохо (дома она быстро исправилась), а на телефоне помимо книг и фильмов обнаружился текст «Git from the bottom up», который оказался более чем годным… С тех пор прошло почти 3 года, подросшей дочке уже пора самой начинать использовать Git Git стал мейнстримом, если не сказать стандартом в современной разработке, а я с удивлением обнаружила, что перевода на русский этого чуда, полезного не только начинающим, но и продвинутым пользователям Git, до сих пор нет. Исправляю эту ситуацию.
Читать дальше →
Total votes 104: ↑102 and ↓2+100
Comments32

Вуз или техникум: куда поступать, чтобы удачно трудоустроиться и хорошо зарабатывать?

Reading time15 min
Views27K
Привет, Хабр! Прошлым летом мы опубликовали статью о результатах мониторинга трудоустройства выпускников вузов. Проект получил активную поддержку от вузов и всех заинтересованных сторон, благодаря чему за прошедший год был проведен ряд улучшений.

Во-первых, были собраны и обработаны данные о выпускниках вузов 2014 и 2015 годов. Данные за 2015 год были обработаны и опубликованы буквально несколько дней назад (возможно, кто-то из читателей заметил недавние публикации в СМИ на эту тему). Так что теперь можно анализировать результаты мониторинга сразу за три года, прослеживая динамику показателей. Но об этом мы расскажем подробнее в следующей статье.

Во-вторых, были собраны, обработаны и опубликованы на портале spo.graduate.edu.ru данные о выпускниках среднего профессионального образования 2013 и 2014 годов выпуска. Для тех, кто не очень разбирается в официальных терминах, – это выпускники «колледжей», «техникумов» и т.п. Вот о результатах этого мониторинга, а также об их сравнении с результатами мониторинга вузов мы и поговорим в данной статье.



Читать дальше →
Total votes 12: ↑9 and ↓3+6
Comments55

Типичные распределения вероятности: шпаргалка data scientist-а

Reading time11 min
Views125K

У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать?


Data science, чем бы она там не была – та ещё штука. От какого-нибудь гуру на ваших сходках или хакатонах можно услышать:«Data scientist разбирается в статистике лучше, чем любой программист». Прикладные математики так мстят за то, что статистика уже не так на слуху, как в золотые 20е. У них даже по этому поводу есть своя несмешная диаграмма Венна. И вот, значит, внезапно вы, программист, оказываетесь совершенно не у дел в беседе о доверительных интервалах, вместо того, чтобы привычно ворчать на аналитиков, которые никогда не слышали о проекте Apache Bikeshed, чтобы распределённо форматировать комментарии. Для такой ситуации, чтобы быть в струе и снова стать душой компании – вам нужен экспресс-курс по статистике. Может, не достаточно глубокий, чтобы вы всё понимали, но вполне достаточный, чтобы так могло показаться на первый взгляд.
Читать дальше →
Total votes 86: ↑85 and ↓1+84
Comments28

Отчет и материалы SPA meetup'а 8 апреля 2017

Reading time4 min
Views6.7K
image

В прошедшую субботу в офисе Avito прошел SPA Meetup. Это митап-сателит Moscow.js, ориентированный на фронтенд-разработчиков, которым интересна тема веб-приложений (Single Page Application), и сочувствующих им. Это уже третья встреча, которая получилась весьма насыщенной: 3 доклада, 2 блица, свободный микрофон, панельная дискуссия и, конечно же, живое общение. В этом посте мы немного расскажем о том, как это было, и поделимся видеозаписями докладов.
Total votes 24: ↑23 and ↓1+22
Comments0

Машинное обучение в Avito. Видеозаписи со встречи кейс-клуба Data Science 14 марта

Reading time2 min
Views8.2K
image

На прошлой неделе прошла встреча кейс-клуба Data Science, на которой специалисты Avito рассказали о том, какие бизнес-задачи сервиса решаются с помощью машинного обучения. В частности поговорили про рекомендации, контекстную рекламу и модерацию. Под катом больше подробностей о встрече и видеозаписи докладов.

Total votes 36: ↑32 and ↓4+28
Comments4

Тонкости R. Как минута час экономит

Reading time7 min
Views8.6K

Довольно часто enterprise задачи по обработке данных затрагивают данные, сопровождаемые временной меткой. В R такие метки, обычно хранятся как класс POSIXct. Выбор методов работы с таким типом данных по принципу аналогии может привести к большому разочарованию и убеждению о крайней медлительности R. Хотя если взглянуть на эту чуть более пристально, то оказывается, что дело не совсем в R, а в руках и голове.


Ниже затрону пару кейсов, которые встретились в этом месяце и возможные варианты их решения. В ходе решения появляются весьма интересные вопросы. Заодно упомяну инструменты, которые оказываются крайне полезными для решения подобных задачек. Практика показала, что об их существовании знают немногие.


Читать дальше →
Total votes 19: ↑18 and ↓1+17
Comments5

Распознавание образов в R с использованием сверточных нейронных сетей из пакета MXNet

Reading time8 min
Views15K
Это подробная инструкция по распознаванию образов в R с использованием глубокой сверточной нейронной сети, предоставляемой пакетом MXNet. В этой статье приведен воспроизводимый пример, как получить 97,5% точность в задаче распознавания лиц на R.

image

Читать дальше →
Total votes 33: ↑33 and ↓0+33
Comments2

Книга «Основы Data Science и Big Data. Python и наука о данных»

Reading time4 min
Views44K
imageData Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.

Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.

Обработка и анализ данных — одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.
Читать дальше →
Total votes 25: ↑22 and ↓3+19
Comments24

Разработка на R: тайны циклов

Reading time8 min
Views20K

Меньше недели назад в журнале Хакер вышла авторская версия материала, посвященного фичам при использовании циклов при разработке на R. По согласованию с Хакером, мы делимся полной версией первой статьи. Вы узнаете о том, как правильно писать циклы при обработке больших объемов данных.


Читать дальше →
Total votes 27: ↑27 and ↓0+27
Comments9

Что в имени тебе моем: как качественно «пробить» человека в сети Интернет?

Reading time5 min
Views196K
Мы постоянно встречаемся в своей жизни с новыми людьми, и стоит констатировать, что помимо хороших друзей нам попадаются мутные товарищи, а иногда и отъявленные мошенники. Любовь наших сограждан оставить свой след в интернете и старания наших ИТ-компаний по автоматизации всего и вся позволяют нам довольно оперативно собирать интересующую информацию о конкретных персонах по открытым источникам. Чтобы это делать быстро и качественно, нам нужно владеть простой методологией разведывательной работы и знать, где и какую информацию о человеке можно добыть в интернете.
Читать дальше →
Total votes 90: ↑70 and ↓20+50
Comments56

Рейтинг языков программирования в 2016 году

Reading time3 min
Views182K


Спор о том, какой язык программирования лучше, не утихает долгие годы. Многие соглашаются с тем, что все же нельзя говорит о «лучшем языке программирования». Какие-то более распространенные, какие-то — менее. Причем изучая один какой-то язык программирования, приходится учить связанные с ним вещи, что нередко приводит к изучению еще одного языка программирования, потом — следующего и так далее…

Для того, чтобы показать, какие языки программирования более востребованы или распространены на данный момент, ряд организаций ведут собственные рейтинги. Данные этих рейтингов берутся из ряда источников данных. Это форумы, предложения работы для программистов, упоминания в социальных сетях, опросы, репозитории кода. Такого рода рейтинги полезны для отслеживания трендов. В продолжении — несколько рейтингов, которые считаются наиболее авторитетными.
Читать дальше →
Total votes 29: ↑24 and ↓5+19
Comments102

Небольшое введение в параллельное программирование на R

Reading time8 min
Views6.7K
Давайте поговорим об использовании и преимуществах параллельных вычислений в R.

Причина, по которой стоит об этом задуматься: заставляя компьютер больше работать (выполнять много расчетов одновременно), мы меньше времени ждем результатов наших экспериментов и можем выполнить еще. Это особенно важно для анализа данных (R как платформа обычно используется именно для этой цели), поскольку часто требуется повторить вариации одного и того же подхода, чтобы что-то узнать, вывести значения параметров, оценить стабильность модели.

Обычно, для того, чтобы заставить компьютер больше работать, сначала нужно потрудиться самому аналитику, программисту или создателю библиотеки, чтобы организовать вычисления в виде, удобном для параллелизации. В лучшем случае кто-то уже сделал это за вас:
  • Хорошие параллельные библиотеки, например, многопоточные BLAS/LAPACK, включены в Revolution R Open (RRO, сейчас Microsoft R Open) (смотреть здесь).
  • Специализированные параллельные расширения, предоставляющие свои собственные высокопроизводительные реализации важных процедур, например, методы rx от RevoScaleR или методы h2o от h2o.ai.
  • Фреймворки абстрактной параллелизации, например, Thrust/Rth.
  • Использование прикладных библиотек R, связанных с параллелизацией (в частности, gbm, boot и vtreat). (Некоторые из этих библиотек не используют параллельные операции, пока не задано окружение для параллельного выполнения.)
Читать дальше →
Total votes 12: ↑11 and ↓1+10
Comments0

Смотрим часть чужого избранного ВКонтакте

Reading time3 min
Views60K

Кадры из фильма «50 оттенков серого»

На этот раз с помощью незамысловатого куска кода на javascript заглянем в таинственные глубины человеческих предпочтений. А именно получим часть списка закладок («лайков» записей сообществ) аккаунта ВКонтакте.

По данным wordstat.yandex.ru, до 2000 раз в месяц у поискового робота спрашивают «как посмотреть кто что лайкает». Ответом в поисковой выдаче является вирусная программка LikeCheсker, которая на поставленный вопрос на самом деле не отвечает. А мы ответим.

Зачем это нужно? Если верить интернету (а ему лучше не верить) по, например, почерку человека можно определить его характер. Например
Саркастичных людей можно распознать по написанию буквы «ё». Чем необычнее изображение точек, помещенных над этой буквой, тем острее его чувство юмора и ярче его способность к подражанию.

Есть у меня предположение, что по картинкам и постам, которые человек «лайкает» можно построить более точный портрет личности, чем по его почерку. Однако для получения этой информации нужно немного потрудиться.
Далее
Total votes 64: ↑41 and ↓23+18
Comments74

Crossover: высокооплачиваемая дистанционная фуллтайм работа для ИТ-профессионалов

Reading time6 min
Views69K
Привет, Хабр! Мы давно читаем ресурс и сейчас приняли решение не только читать, но и начать, наконец, писать. Сразу представимся. Мы, компания Crossover, занимаемся трудоустройством ИТ-специалистов по всему миру. Специалистов трудоустраиваем к нашим клиентам, в компании Versata, Aurea, 3seventy, Ignite, Ride Austin. Когда им нужны лучшие профессионалы, они обращаются к нам по направлениям разработки ПО, пользовательских интерфейсов, веб-дизайна.

Мы не фриланс-биржа, хотя нас иногда сравнивают с такими. Наша компания предлагает соискателям работу только с полной занятостью, долгосрочную, с высокими часовыми ставками оплаты труда. Это связано с тем, что мы отбираем и трудоустраиваем лучших специалистов по каждому из направлений.
Читать дальше →
Total votes 70: ↑40 and ↓30+10
Comments148

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity