Articles / Bookmarks / Profile of Apatic / Habr

Георгий @Apatic

Аналитик

Profile Publications 9Comments 505Bookmarks 79

synedra Nov 19 2018 at 09:59

Правдоподобия, P-значения и кризис воспроизводимости

26 min

20K

Mathematics*Statistics in ITPopular science

Translation

Или: Как переход от публикации P-значений к публикации функций правдоподобия поможет справиться с кризисом воспроизводимости: личное мнение Элиезера Юдковского.

Если Монро нарисовал комиксы про 75% существующих интересных проблем, а четверть моих статей интересные, то какова вероятность, что рано или поздно мне придётся искать КДПВ где-то ещё?

Если Монро нарисовал комиксы про 75% существующих интересных проблем, а четверть моих статей интересные, то какова вероятность, что рано или поздно мне придётся искать КДПВ где-то ещё?

Комментарий переводчика: Юдковский, автор HPMOR, создатель Lesswrong и прочая и прочая, изложил свою позицию по поводу пользы байесовской статистики в естественных науках в форме диалога. Прямо классический такой диалог из античности или эпохи возрождения, с персонажами, излагающими идеи, обменом колкостями вперемешку с запутанными аргументами и неизбежно тупящим Симплицио. Диалог довольно длинный, минут на двадцать чтения, но по-моему, он того стоит.

Дисклеймеры

Этот диалог был написан сторонником байесовского подхода. Реплики Учёного в нижеприведённом диалоге могут и не пройти идеологический тест Тьюринга на фреквентизм. Возможно, что они не отдают должное аргументам и контраргументам сторонников частотного подхода к вероятности.
Автор не рассчитывает, что описанные ниже предложения будут приняты широким научным сообществом в ближайшие десять лет. Тем не менее, это стоило написать.

Если вы ещё не знакомы с правилом Байеса, на сайте Arbital есть подробное введение.

Модератор: Добрый вечер. Сегодня в нашей студии: Учёный, практикующий специалист в области… химической психологии или чего-то типа того; его оппонент Байесовец, который намерен доказать, что кризис воспроизводимости в науке можно как-то преодолеть с помощью замены P-значений на что-то из Байесовской статистики…
Студент: Извините, как это пишется?
Модератор:… и, наконец, ничего не понимающий Студент справа от меня.

Читать дальше →

+23

temujin Oct 19 2018 at 18:40

Data-mining и Твиттер

5 min

8.3K

Data Mining*Twitter API*R*

Среди социальных сетей Твиттер более других подходит для добычи текстовых данных в силу жесткого ограничения на длину сообщения, в которое пользователи вынуждены поместить все самое существенное.

Предлагаю угадать, какую технологию обрамляет это облако слов?

Облако

Используя Твиттер API можно извлекать и анализировать самую разнообразную информацию. Статья о том, как это осуществить с помощью языка программирования R.

Читать дальше →

+18

AvitoTech corporate blog September 21 2018

Что в стикере тебе моëм? Угадай владельца по крышке ноутбука

Новый офис, новые коллеги. Имена путаются, половина нужных спецов вам вообще не знакома. Что делать? Как искать правильных специалистов? На помощь придут наклейки, которыми щедро украшают свои ноуты практически все разработчики. Причем стикеры расскажут не только о профессии и навыках, но и о личных интересах их владельцев, а это — ключ к быстрому вхождению в коллектив. Правда, можно и ошибиться, приняв верстальщика за разработчика инфраструктуры приложений или начальника отдела за рядового тестера. Попытайтесь представить себя на месте нового сотрудника компании Авито. Попробуйте освоиться в новом коллективе и угадать, кто есть кто, всего лишь взглянув на крышку ноутбука.

Подробности — под катом

+46

w7062c Sep 21 2018 at 12:29

Дела подводные — для роботов

17 min

26K

System Analysis and Design*Robotics development*RoboticsPopular scienceSystems engineering*

Intro

Поверхность планеты примерно на 71% покрыта океанами (порядка 361 млн. км²). Площадь РФ примерно 17 млн. км. Глубина океанов неравномерна, выделяют следующие зоны:

Шельф (shelf — полка) — глубина до 200—500 м;
Континентальный склон — глубина до 3500 м;
Океанское ложе — глубина до 6000 м;
Глубоководные желоба — глубина ниже 6000 м.

Средняя глубина также отличается:

Атлантический — 3600 м
Индийский — 3890 м
Северный ледовитый — 1225 м
Тихий — 4250 м

Зачем человек лезет под воду?

+54

NIX_Solutions Sep 18 2018 at 14:05

Создаём простую нейросеть

9 min

166K

Algorithms*Machine learning*NIX corporate blog

Tutorial

Translation

Перевод Making a Simple Neural Network

Что мы будем делать? Мы попробуем создать простую и совсем маленькую нейронную сеть, которую мы объясним и научим что-нибудь различать. При этом не будем вдаваться в историю и математические дебри (такую информацию найти очень легко) — вместо этого постараемся объяснить задачу (не факт, что удастся) вам и самим себе рисунками и кодом.

Начнем.

+33

backmeupplz Jul 4 2018 at 22:33

Нейронки за 5 минут

5 min

171K

Abnormal programming*Programming*Algorithms*Machine learning*Artificial Intelligence

Давайте я за 5-10 минут чтения и понимания коротенькой статьи добавлю вам в резюме строчки «машинное обучение» и «нейронные сети»? Тем, кто далек от программирования, я развею все мифы о сложности ИИ и покажу, что большая часть всех проектов на машинном обучении строится на предельно простых принципах. Поехали — у нас всего пять минут.

Рассмотрим самый базовый пример нейронных сетей — перцептроны; я сам только после этого примера полностью осознал, как работают нейронные сети, так что, если я не накосячу, и вы сможете понять. Помните: никакой магии здесь нет, простая математика уровня пятого класса средней школы.

Читать дальше →

+84

143

vikky13 Dec 20 2017 at 08:58

Git снизу вверх

27 min

125K

Programming*Intel corporate blogGit*Version control systems*

Translation

У этого перевода не совсем обычная история. Системы контроля версий далеки от моих профессиональных интересов. Для рабочих проектов они мне требовались нечасто, причем, разные, так что, каждый раз, когда возникала такая необходимость, я заново вспоминала, как в них делается та или иная операция. А для личных проектов мне хватало возможностей Dropbox, хранящей историю версий файлов.

^{Изображение из твиттера @girlie_mac}

Но вот однажды я на три незабываемых дня попала в роддом — это иногда случается с женщинами. Из развлечений у меня были новорожденная дочь и телефон с большим экраном. Дочь поначалу развлекала плохо (дома она быстро исправилась), а на телефоне помимо книг и фильмов обнаружился текст «Git from the bottom up», который оказался более чем годным… С тех пор прошло почти 3 года, ~~подросшей дочке уже пора самой начинать использовать Git~~ Git стал мейнстримом, если не сказать стандартом в современной разработке, а я с удивлением обнаружила, что перевода на русский этого чуда, полезного не только начинающим, но и продвинутым пользователям Git, до сих пор нет. Исправляю эту ситуацию.

Читать дальше →

+100

Apatic Jul 13 2017 at 14:16

Вуз или техникум: куда поступать, чтобы удачно трудоустроиться и хорошо зарабатывать?

15 min

27K

Data Mining*Open data*IBS corporate blog

Привет, Хабр! Прошлым летом мы опубликовали статью о результатах мониторинга трудоустройства выпускников вузов. Проект получил активную поддержку от вузов и всех заинтересованных сторон, благодаря чему за прошедший год был проведен ряд улучшений.

Во-первых, были собраны и обработаны данные о выпускниках вузов 2014 и 2015 годов. Данные за 2015 год были обработаны и опубликованы буквально несколько дней назад (возможно, кто-то из читателей заметил недавние публикации в СМИ на эту тему). Так что теперь можно анализировать результаты мониторинга сразу за три года, прослеживая динамику показателей. Но об этом мы расскажем подробнее в следующей статье.

Во-вторых, были собраны, обработаны и опубликованы на портале spo.graduate.edu.ru данные о выпускниках среднего профессионального образования 2013 и 2014 годов выпуска. Для тех, кто не очень разбирается в официальных терминах, – это выпускники «колледжей», «техникумов» и т.п. Вот о результатах этого мониторинга, а также об их сравнении с результатами мониторинга вузов мы и поговорим в данной статье.

Читать дальше →

kayan Jun 18 2017 at 09:43

Типичные распределения вероятности: шпаргалка data scientist-а

11 min

125K

Mathematics*

Translation

У data scientist-ов сотни распределений вероятности на любой вкус. С чего начать?

Data science, чем бы она там не была – та ещё штука. От какого-нибудь гуру на ваших сходках или хакатонах можно услышать:«Data scientist разбирается в статистике лучше, чем любой программист». Прикладные математики так мстят за то, что статистика уже не так на слуху, как в золотые 20е. У них даже по этому поводу есть своя несмешная диаграмма Венна. И вот, значит, внезапно вы, программист, оказываетесь совершенно не у дел в беседе о доверительных интервалах, вместо того, чтобы привычно ворчать на аналитиков, которые никогда не слышали о проекте Apache Bikeshed, чтобы распределённо форматировать комментарии. Для такой ситуации, чтобы быть в струе и снова стать душой компании – вам нужен экспресс-курс по статистике. Может, не достаточно глубокий, чтобы вы всё понимали, но вполне достаточный, чтобы так могло показаться на первый взгляд.

Читать дальше →

+84

lahmatiy Apr 14 2017 at 14:30

Отчет и материалы SPA meetup'а 8 апреля 2017

4 min

6.7K

Website development*Open source*JavaScript*AvitoTech corporate blog

В прошедшую субботу в офисе Avito прошел SPA Meetup. Это митап-сателит Moscow.js, ориентированный на фронтенд-разработчиков, которым интересна тема веб-приложений (Single Page Application), и сочувствующих им. Это уже третья встреча, которая получилась весьма насыщенной: 3 доклада, 2 блица, свободный микрофон, панельная дискуссия и, конечно же, живое общение. В этом посте мы немного расскажем о том, как это было, и поделимся видеозаписями докладов.

+22

Oldtuna Mar 22 2017 at 14:04

Машинное обучение в Avito. Видеозаписи со встречи кейс-клуба Data Science 14 марта

2 min

8.2K

Machine learning*AvitoTech corporate blog

На прошлой неделе прошла встреча кейс-клуба Data Science, на которой специалисты Avito рассказали о том, какие бизнес-задачи сервиса решаются с помощью машинного обучения. В частности поговорили про рекомендации, контекстную рекламу и модерацию. Под катом больше подробностей о встрече и видеозаписи докладов.

+28

i_shutov Mar 1 2017 at 09:18

Тонкости R. Как минута час экономит

7 min

8.6K

Data Mining*Big Data*R*

Довольно часто enterprise задачи по обработке данных затрагивают данные, сопровождаемые временной меткой. В R такие метки, обычно хранятся как класс POSIXct. Выбор методов работы с таким типом данных по принципу аналогии может привести к большому разочарованию и убеждению о крайней медлительности R. Хотя если взглянуть на эту чуть более пристально, то оказывается, что дело не совсем в R, а в руках и голове.

Ниже затрону пару кейсов, которые встретились в этом месяце и возможные варианты их решения. В ходе решения появляются весьма интересные вопросы. Заодно упомяну инструменты, которые оказываются крайне полезными для решения подобных задачек. Практика показала, что об их существовании знают немногие.

Читать дальше →

+17

qc-enior Aug 8 2016 at 16:42

Распознавание образов в R с использованием сверточных нейронных сетей из пакета MXNet

8 min

15K

Image processing*Инфопульс Украина corporate blogR*Machine learning*

Tutorial

Translation

Это подробная инструкция по распознаванию образов в R с использованием глубокой сверточной нейронной сети, предоставляемой пакетом MXNet. В этой статье приведен воспроизводимый пример, как получить 97,5% точность в задаче распознавания лиц на R.

Читать дальше →

+33

ph_piter Feb 20 2017 at 19:20

Книга «Основы Data Science и Big Data. Python и наука о данных»

4 min

44K

Python*Big Data*Издательский дом «Питер» corporate blogProfessional literature*

Data Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.

Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.

Обработка и анализ данных — одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.

Читать дальше →

+19

Schvepsss Jan 26 2017 at 09:24

Разработка на R: тайны циклов

8 min

20K

Programming*Microsoft corporate blogAlgorithms*R*Machine learning*

Меньше недели назад в журнале Хакер вышла авторская версия материала, посвященного фичам при использовании циклов при разработке на R. По согласованию с Хакером, мы делимся полной версией первой статьи. Вы узнаете о том, как правильно писать циклы при обработке больших объемов данных.

Читать дальше →

+27

alexdorofeeff Jan 11 2017 at 19:36

Что в имени тебе моем: как качественно «пробить» человека в сети Интернет?

5 min

196K

Personnel Management*Эшелон corporate blog

Recovery Mode

Мы постоянно встречаемся в своей жизни с новыми людьми, и стоит констатировать, что помимо хороших друзей нам попадаются мутные товарищи, а иногда и отъявленные мошенники. Любовь наших сограждан оставить свой след в интернете и старания наших ИТ-компаний по автоматизации всего и вся позволяют нам довольно оперативно собирать интересующую информацию о конкретных персонах по открытым источникам. Чтобы это делать быстро и качественно, нам нужно владеть простой методологией разведывательной работы и знать, где и какую информацию о человеке можно добыть в интернете.

Читать дальше →

+50

itNews Aug 3 2016 at 13:59

Рейтинг языков программирования в 2016 году

3 min

182K

JavaScript*Programming*Java*C*King Servers corporate blog

Спор о том, какой язык программирования лучше, не утихает долгие годы. Многие соглашаются с тем, что все же нельзя говорит о «лучшем языке программирования». Какие-то более распространенные, какие-то — менее. Причем изучая один какой-то язык программирования, приходится учить связанные с ним вещи, что нередко приводит к изучению еще одного языка программирования, потом — следующего и так далее…

Для того, чтобы показать, какие языки программирования более востребованы или распространены на данный момент, ряд организаций ведут собственные рейтинги. Данные этих рейтингов берутся из ряда источников данных. Это форумы, предложения работы для программистов, упоминания в социальных сетях, опросы, репозитории кода. Такого рода рейтинги полезны для отслеживания трендов. В продолжении — несколько рейтингов, которые считаются наиболее авторитетными.

Читать дальше →

+19

102

qc-enior Aug 29 2016 at 13:10

Небольшое введение в параллельное программирование на R

8 min

6.7K

High performance*Инфопульс Украина corporate blogConcurrent computing*R*

Tutorial

Translation

Давайте поговорим об использовании и преимуществах параллельных вычислений в R.

Причина, по которой стоит об этом задуматься: заставляя компьютер больше работать (выполнять много расчетов одновременно), мы меньше времени ждем результатов наших экспериментов и можем выполнить еще. Это особенно важно для анализа данных (R как платформа обычно используется именно для этой цели), поскольку часто требуется повторить вариации одного и того же подхода, чтобы что-то узнать, вывести значения параметров, оценить стабильность модели.

Обычно, для того, чтобы заставить компьютер больше работать, сначала нужно потрудиться самому аналитику, программисту или создателю библиотеки, чтобы организовать вычисления в виде, удобном для параллелизации. В лучшем случае кто-то уже сделал это за вас:

Хорошие параллельные библиотеки, например, многопоточные BLAS/LAPACK, включены в Revolution R Open (RRO, сейчас Microsoft R Open) (смотреть здесь).
Специализированные параллельные расширения, предоставляющие свои собственные высокопроизводительные реализации важных процедур, например, методы rx от RevoScaleR или методы h2o от h2o.ai.
Фреймворки абстрактной параллелизации, например, Thrust/Rth.
Использование прикладных библиотек R, связанных с параллелизацией (в частности, gbm, boot и vtreat). (Некоторые из этих библиотек не используют параллельные операции, пока не задано окружение для параллельного выполнения.)

Читать дальше →

+10

vadimmironov Dec 5 2016 at 10:34

Смотрим часть чужого избранного ВКонтакте

3 min

60K

Information Security*JavaScript*VK API*

Кадры из фильма «50 оттенков серого»

На этот раз с помощью незамысловатого куска кода на javascript заглянем в таинственные глубины человеческих предпочтений. А именно получим часть списка закладок («лайков» записей сообществ) аккаунта ВКонтакте.

По данным wordstat.yandex.ru, до 2000 раз в месяц у поискового робота спрашивают «как посмотреть кто что лайкает». Ответом в поисковой выдаче является вирусная программка LikeCheсker, которая на поставленный вопрос на самом деле не отвечает. А мы ответим.

Зачем это нужно? Если верить интернету (а ему лучше не верить) по, например, почерку человека можно определить его характер. Например

Саркастичных людей можно распознать по написанию буквы «ё». Чем необычнее изображение точек, помещенных над этой буквой, тем острее его чувство юмора и ярче его способность к подражанию.

Есть у меня предположение, что по картинкам и постам, которые человек «лайкает» можно построить более точный портрет личности, чем по его почерку. Однако для получения этой информации нужно немного потрудиться.

+18

ptar Oct 13 2016 at 17:28

Crossover: высокооплачиваемая дистанционная фуллтайм работа для ИТ-профессионалов

6 min

69K

FreelancePersonnel Management*IT careerCrossover corporate blog

Recovery Mode

Привет, Хабр! Мы давно читаем ресурс и сейчас приняли решение не только читать, но и начать, наконец, писать. Сразу представимся. Мы, компания Crossover, занимаемся трудоустройством ИТ-специалистов по всему миру. Специалистов трудоустраиваем к нашим клиентам, в компании Versata, Aurea, 3seventy, Ignite, Ride Austin. Когда им нужны лучшие профессионалы, они обращаются к нам по направлениям разработки ПО, пользовательских интерфейсов, веб-дизайна.

Мы не фриланс-биржа, хотя нас иногда сравнивают с такими. Наша компания предлагает соискателям работу только с полной занятостью, долгосрочную, с высокими часовыми ставками оплаты труда. Это связано с тем, что мы отбираем и трудоустраиваем лучших специалистов по каждому из направлений.

Читать дальше →

+10

148

1 2