Pull to refresh
11
0
Alexey Samoylov @tibhar940

Пользователь

Send message

Краудсорсинг в ML Boot Camp. Считаем mIOU без картинок для новой задачи от Одноклассников

Reading time 2 min
Views 4.6K
Привет! Лето — жаркое. Организаторы «айтишных» чемпионатов много сидели на солнце, сгорели и схватили удар, но главное — собрали новую задачу для очередного (уже девятого) контеста на платформе ML Boot Camp. Чемпионат пройдёт онлайн в течение месяца.


Сейчас на платформе зарегистрировано более 10 тысяч специалистов. Часто бывает, что задачи, которые на ней появляются, не всем по зубам (богам Kaggle в том числе). Для чего мы это делаем? Нужно развиваться и пробовать, причем на реальных данных, а не синтетическом булшите. Победы придут со временем.

Задача, которую хотим предложить вам решить в этом соревновании, отличается от всех предыдущих. Тема задачи — это детектирование объектов на изображениях. Формулировка задачи подразумевает, что в наборе данных будут картинки, но, что забавно, их нет. И это не петабайты данных. И даже не гигабайты.
Читать дальше →
Total votes 44: ↑41 and ↓3 +38
Comments 1

QA на CodeFest: будущее, iOS-фермы и backdoor’ы

Reading time 3 min
Views 2.7K
Пока ребята из бекендов и фронтендов шлифуют последние фразы для рассказа о своих секциях, ребята из тестирования уже всё проверили.


Читать дальше →
Total votes 14: ↑14 and ↓0 +14
Comments 0

Пожалуй, самая необычная головоломка на Google Play

Reading time 7 min
Views 68K
Это немного самонадеянно, но я решил озаглавить этот текст одним из отзывов о своей игре. На это есть две причины: первая — такая характеристика тешит мое самолюбие, признаюсь, чего уж скрывать. Вторая причина — мне бы хотелось, чтобы именно так воспринималась эта головоломка, а точнее целый набор, игроками.


Я недавно подсчитал, что уже 5 лет занимаюсь созданием игр в свободное от основной работы время. За этот период я сделал несколько игр, которые можно назвать успешными, если судить по количеству загрузок. Но по настоящему, я горжусь только последней, она изображена на картинке выше. Нет, это не игра про лутбоксы. Это набор головоломок, основная идея которого в том, чтобы объединить разноплановые головоломки одним сюжетом. Но главное, это должны быть головоломки с подвохом, такие, которые требуют от игрока нешаблонного, креативного мышления. Головоломки с простым, но при этом неожиданным решением. Под катом гифки, история создания и технические детали этой игры.
Читать дальше →
Total votes 109: ↑100 and ↓9 +91
Comments 68

20 лет Яндексу. Лекция Ильи Сегаловича — человека, который придумал это слово

Reading time 48 min
Views 26K
Ровно 20 лет назад — 23 сентября 1997 года — в интернете появился Яндекс. Аркадий Волож, Илья Сегалович, Елена Колмановская представили на выставке Softool поисковую систему Yandex.ru. Открывали её, перерезав ленточку перед компьютером — потому что не понимали, как надо открывать сайты в интернете.

Тогда он состоял из 5 тысяч сайтов, на которых было размещено около 4 гигабайт текста. Люди подходили к демонстрационному компьютеру, пробовали задавать запросы и получали ответы. На тот момент Яндекс учитывал морфологию русского языка, расстояние между словами и умел ранжировать документы.


Это одна из последних лекций, которую прочитал iseg, сооснователь и первый технический директор Яндекса Илья Сегалович. Она посвящена истории Яндекса с того момента, как Илья и Аркадий Волож сели в школе за одну парту. Качество записи лекции не настолько хорошее, насколько бы нам хотелось, но содержание — бесценно.

Total votes 91: ↑87 and ↓4 +83
Comments 15

С чего начать внедрение Hadoop в компании

Reading time 16 min
Views 29K


Алексей Еремихин ( alexxz )


Я хочу навести порядок в головах, чтобы люди поняли, что такое Hadoop, и что такое продукты вокруг Hadoop, а также для чего не только Hadoop, но и продукты вокруг него можно использовать на примерах. Именно поэтому тема — «С чего начать внедрение Hadoop в компании?»

Структура доклада следующая. Я расскажу:

  • какие задачи я предлагаю решать с помощью Hadoop на начальных этапах,
  • что такое Hadoop,
  • как он устроен внутри,
  • что есть вокруг него,
  • как Hadoop применяется в Badoo в рамках решения задач с первого пункта.

Читать дальше →
Total votes 41: ↑38 and ↓3 +35
Comments 16

Особенности Jupyter Notebook, о которых вы (может быть) не слышали

Reading time 10 min
Views 355K
Jupyter Notebook – это крайне удобный инструмент для создания красивых аналитических отчетов, так как он позволяет хранить вместе код, изображения, комментарии, формулы и графики:



Ниже мы расскажем о некоторых фишках, которые делают Jupyter очень крутым. О них можно прочитать и в других местах, но если специально не задаваться этим вопросом, то никогда и не прочитаешь.
Читать дальше →
Total votes 49: ↑45 and ↓4 +41
Comments 14

Начинать программировать никогда не рано: взгляд девятилетнего

Reading time 3 min
Views 69K
На днях мне исполнилось 9 лет. Через неделю я пойду в третий класс. И в нем до сих пор нет информатики. Это большой недостаток школьной программы.


Читать дальше →
Total votes 176: ↑166 and ↓10 +156
Comments 435

Пишем приложение для анализа твитов в real-time режиме за 30 минут

Reading time 4 min
Views 13K
На самом деле, еще меньше. Основной инструмент для написания такого приложения — Node-RED в Bluemix



Несколько лет назад наша компания разработала инструмент Node-RED. Это open-source сервис, который помогает создавать приложения на модульной основе — нужно просто соединять готовые блоки. В качестве блоков выступают не только программные модули, но и различные устройства, веб-API и онлайн-службы. Для работы с Node-RED нужны базовые знания HTML, CSS и JavaScript. Конечно, чем глубже ваши знания, тем более совершенное приложение можно будет создать.

Сегодня в качестве примера мы покажем, как на основе Node-RED можно создать приложения для анализа твитов заданной тематики в режиме реального времени (первоисточник — англоязычная статья). Тематика (ключевое слово) — не единственный критерий, искать можно и по автору или хэштегу. Но в примере используется именно поиск по ключевым словам. Кроме темы, приложение, которое мы напишем, будет способно оценивать эмоциональную окраску сообщения. Искать будем только негативные твиты определенной тематики. Нужные сообщения будут показываться в течение пары секунд после того, как их кто-то напишет.
Читать дальше →
Total votes 10: ↑10 and ↓0 +10
Comments 2

RUVDS предоставит клиентам БКС виртуальные сервера в самом сердце Московской Биржи

Reading time 1 min
Views 3.6K


Хостинг-провайдер RUVDS и «Компания БКС» запустили совместный проект, который позволит клиентам крупнейшего брокера приобретать в аренду виртуальные сервера VPS на оборудовании провайдера, размещенном в зоне биржевой коллокации дата-центра биржи M1.

Особенностью такого размещения, по словам управляющего партнера и основателя RUVDS Никиты Цаплина, является возможность для клиентов БКС размещать свои торговые системы и специализированное программное обеспечение по доступным ценам без необходимости приобретения собственного дорогостоящего оборудования.

Подобная услуга предоставляется впервые в России по столь низкой цене — виртуальный сервер обойдется пользователям не дороже 5 000 рублей в месяц. К слову, примерно такую стоимость владельцы собственных серверов еженедельно платят за их размещение в стенах биржи.
Читать дальше →
Total votes 3: ↑2 and ↓1 +1
Comments 0

Как закончить Театральный институт и стать руководителем в Yandex – лекция Григория Бакунова в Университете Иннополис

Reading time 1 min
Views 28K


В неформальной беседе директор по распространению технологий компании Yandex рассказал студентам Университета Иннополис о нейронных сетях, технологиях будущего и объяснил, почему создание Self-Driving Car — уже скучная задача. Содержательная беседа о мире ИТ, современных знаниях и фантастах прошлого столетия. Всё это в одной лекции, которую обязательно нужно посмотреть!
Смотреть видео
Total votes 18: ↑14 and ↓4 +10
Comments 13

Специализация по машинному обучению на Coursera от Физтеха и Яндекса

Reading time 7 min
Views 67K
В начале года на Coursera открылся курс по машинному обучению от Яндекса и Вышки, о котором мы уже рассказывали. К моменту старта на него записались 14000 человек. Через час после открытия пользователи создали канал в Slack, где стали обсуждать программу. Сейчас слушателей уже 21000.



9 февраля на платформе стала доступна запись на специализацию по машинному обучению, которая разрабатывается нашими специалистами уже совместно с Физтехом. Она устроена таким образом, чтобы помочь слушателям плавно погрузиться в тему.

Специализация «Машинное обучение и анализ данных» состоит из пяти курсов и работой над собственным проектом. Обучение будет длиться несколько месяцев. Записаться на него можно до 19 февраля. Если вы не успеете это сделать, с 14 марта можно будет записаться на второй поток.

Авторы курса — сотрудники Яндекса, специалисты Yandex Data Factory, которые преподают на Физтехе. Константин Воронцов тоже среди них. Мы попросили некоторых из коллег рассказать, кому может быть полезна специализация и для чего она нужна. Также под катом — программа всех курсов.
Читать дальше →
Total votes 42: ↑40 and ↓2 +38
Comments 49

Построение стакана котировок (FullOrderBook) по историческим данным

Reading time 4 min
Views 31K


Совсем недавно решал задачу построения стакана котировок на основе исторических данных Московской Биржи. В открытых источниках ничего подобного не нашел, пришлось начинать с нуля и копать самому. Есть некоторые нюансы, о которых нужно знать. Про них буду упоминать по ходу.

Про биржевую торговлю, инфраструктуру и тестирование алгоритмов на исторических данных много писал и пишет IT Invest, спасибо ему. От себя добавлю, что на данных OrderLogs мы анализируем глубину рынка, ликвидность, спреды и еще много чего. Результаты используем в наших торговых алгоритмах.

Специально выбрал Фондовый рынок, так как тут больше всего вопросов. Валютный и Срочный рынок имеют свои особенности, но там проще. Реализация алгоритма на Java, код на GitHub.

Цель: Получить стакан котировок на любой момент времени.
Читать дальше →
Total votes 13: ↑11 and ↓2 +9
Comments 5

Мониторинг выполнения задач в IPython Notebook

Reading time 2 min
Views 36K
Хотел бы поделиться простым, но полезным инструментом. Когда много работаешь с данными, часто возникают примитивные, но долгие операции, например: «скачать 10 000 урлов», «прочитать файл на 2Гб, и что-то сделать с каждой строчкой», «распарсить 10 000 html-файлов и достать заголовки». Долго смотреть в зависший терминал тревожно, поэтому долгое время я использовал следующий гениальный код:
def log_progress(sequence, every=10):
    for index, item in enumerate(sequence):
        if index % every == 0:
            print >>sys.stderr, index,
        yield item


Эта функция прекрасна, больше года она кочевала у меня из задачи в задачу. Но недавно я заметил в стандартной поставке Jupyter виджет IntProgress и понял, что пора что-то менять:

Читать дальше →
Total votes 42: ↑39 and ↓3 +36
Comments 11

Наивный Байесовский классификатор в 25 строк кода

Reading time 3 min
Views 88K
Наивный Байесовский классификатор один из самых простых из алгоритмов классификации. Тем не менее, очень часто он работает не хуже, а то и лучше более сложных алгоритмов. Здесь я хочу поделиться кодом и описанием того, как это все работает.

И так, для примера возьму задачу определения пола по имени. Конечно, чтобы определить пол можно создать большой список имен с метками пола. Но этот список в любом случае будет неполон. Для того чтобы решить эту проблему, можно «натренировать» модель по маркированным именам.
Если интересует, прошу
под кат
Total votes 37: ↑37 and ↓0 +37
Comments 24

Обнаружение инсайдерской торговли: Алгоритмы выявления и паттерны незаконных сделок

Reading time 11 min
Views 33K


Как конкретно ведут себя инсайдеры на бирже? Зависят ли их сделки от занимаемой должности в компании (генеральный или финансовый директор), меняется ли поведение инсайдеров с течением времени (повлиял ли на него, к примеру, кризис 2008 года)?

Группа исследователей из технологического института Джорджии провели исследование на основе данных о 12 млн транзакций, совершенных 370 тысячами инсайдеров в период с 1986 по 2012 год. Целью этой работы было выявление паттернов поведения игроков на фондовом рынке, с помощью которых регулирующие органы могли бы обнаруживать и пресекать незаконную инсайдерскую торговлю. Мы представляем вашему вниманию основные моменты этого документа.
Читать дальше →
Total votes 21: ↑21 and ↓0 +21
Comments 3

Специалисты FireEye обнаружили новый буткит

Reading time 2 min
Views 7.5K
Специалисты компании FireEye опубликовали данные о бутките под названием BOOTRASH, который используется кибергруппой с названием FIN1. FIN1 прибегает к использованию различного вредоносного ПО под общим названием Nemesis для компрометации банков и платежных терминалов. FireEye указывает, что кибергруппа использует механизм заражения системы на уровне секторов жесткого диска, компрометируя известную структуру Volume Boot Record (VBR), в которой расположены структуры данных файловой системы и код загрузчика.



Так называемая платформа злоумышленников Nemesis включает в себя набор различных файлов и инструментов, включая кейлоггер, инструменты передачи файлов, захвата скриншотов и управления работающими процессами. Все эти инструменты используются злоумышленниками для кражи финансовой информации у банков и платежных терминалов.
Читать дальше →
Total votes 12: ↑11 and ↓1 +10
Comments 0

400 потрясающих бесплатных сервисов

Reading time 16 min
Views 717K

Рад представить дополнение оригинального списка из 300 потрясающих бесплатных сервисов. Автор оригинальной статьи Ali Mese добавил ещё +100 новых сервисов, которые помогут найти все — от источников вдохновения и редакторов фотографий до создания опросов и бесплатных иконок.

И еще подборку +500 инструментов от 10 марта 2017 г. смотрите здесь.



A. Бесплатные веб-сайты

  • HTML5 UP: Адаптивные шаблоны HTML5 и CSS3.
  • Bootswatch: Бесплатные темы для Bootstrap.
  • Templated: Коллекция 845 бесплатных шаблонов CSS и HTML5.
  • Wordpress.org | Wordpress.com: Бесплатное создание веб-сайта.
  • Strikingly: Конструктор веб-сайтов.
  • Layers: Создание сайтов на WordPress (new).
  • Bootstrap Zero: Самая большая коллекция бесплатных шаблонов Bootstrap (new).
  • Landing Harbor:  Продвижение мобильного приложения c помощью бесплатного лендинга (new).
Читать дальше →
Total votes 108: ↑89 and ↓19 +70
Comments 38

Как не пропустить лучшие распродажи

Reading time 1 min
Views 12K
Все, кто хоть раз покупал онлайн, знает, что теперь он будет получать все-все новости интернет-магазина. Тут есть интересные – черная пятница или 75% распродажа, а есть не очень – новые коллекции купальников, бесплатная доставка при покупке от 500$ и прочее-прочее. Когда интересных площадок становится больше, прибавляются и письма в спаме.

Сотрудникам pochta.fi чуть легче, по количеству посылок из каждого магазина в определенный момент можно примерно понимать, где лучшие распродажи. К сожалению, даже если вы нашли тотальную распродажу, весь ассортимент представлен по смехотворным ценам, то все-равно найдется та самая заветная вещь, которая больше всего понравится и которая окажется совсем-совсем новой, из свежайшей коллекции, естественно без скидок.
Читать дальше →
Total votes 15: ↑10 and ↓5 +5
Comments 13

Событийно-ориентированный бэктестинг на Python шаг за шагом. Часть 1

Reading time 9 min
Views 27K


Ранее в нашем блоге на Хабре мы рассматривали различные этапы разработки торговых систем (есть и онлайн-курсы по теме), среди которых одним из наиболее важных является тестирование на исторических данных (бэктестинг). Сегодня речь пойдет о практической релизации событийно-ориентированного бэктест-модуля с помощью Python.
Читать дальше →
Total votes 15: ↑13 and ↓2 +11
Comments 3

Лекции Техносферы. 1 семестр. Методы использования СУБД в интернет-приложениях

Reading time 4 min
Views 31K


Сегодня мы предлагаем вашему вниманию очередную публикацию в рамках постоянной рубрики «Лекции Техносферы». В этот раз вы можете изучить материалы по курсу «Методы использования СУБД в интернет-приложениях». Цель курса — изучение топологии, многообразия и основных принципов функционирования систем хранения данных, а также алгоритмов, заложенных в основу как централизованных, так и распределённых систем, демонстрация фундаментальных компромиссов присущих тем или иным решениям. Преподаватели курса: Константин Осипов kostja, Евгений Блих bigbes, Роман Цисык.
Читать дальше →
Total votes 36: ↑32 and ↓4 +28
Comments 2

Information

Rating
Does not participate
Location
Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity