• Открыта регистрация на Raiffeisen Data_Cup

      Мы приглашаем вас принять участие в чемпионате по анализу данных Raiffeisen Data_Cup. Онлайн часть пройдёт на платформе Boosters.pro. Участникам предстоит определить место жительства и работы клиента Райффайзенбанка, используя анонимизированную историю платежей и снятия наличных. Онлайн часть проходит до 23 марта, а подведение итогов и награждение пройдут в Москве 30 марта.



      Читать дальше →
    • Из спутниковых снимков в графы (cоревнование SpaceNet Road Detector) — попадание топ-10 и код (перевод)

        Привет, Хабр! Представляю вам перевод статьи.



        Это Вегас с предоставленной разметкой, тестовым датасетом и вероятно белые квадраты — это отложенная валидация (приват). Выглядит прикольно. Правда эта панорама лучшая из всех четырех городов, так вышло из-за данных, но об этом чуть ниже.


        0. TLDR


        Ссылка на соревнование и подробное описание.


        Быстрая картинка сайта, кому лень ходить.


        Мы закончили предварительно на 9-м месте, но позиция может измениться после дополнительного тестирования сабмитов организаторами.


        Также я потратил некоторое время на написание хорошего читаемого кода на PyTorch и генераторов данных. Его можно без застенчивости использовать для своих целей (только поставьте плюсик). Код максимально простой и модульный, плюс читайте дальше про best practices для семантической сегментации.


        Кроме того, не исключено, что мы напишем пост про понимание и разбор Skeleton Network, которую в итоге использовали все финалисты в топе соревнования для преобразования маски изображения в граф.


        Суть соревнования
        Суть соревнования на 1 картинке

        Читать дальше →
        • +32
        • 4,3k
        • 2
      • Cradle: Rave. Два хакатона + конференция, с упором на Big Data & ML, Blockchain, Quantum Computing, DevOps и Mobile

          На прошлой неделе друзья позвали отдохнуть на неком Cradle:Rave. Судя по названию, это могло быть всё что угодно, включая кислотную вечеринку, поэтому я решил провести некие исследования в интернетах.


          На Хабре быстро отыскалась статья в блоге Сбертеха с анонсом мероприятия. Мне этого оказалось недостаточно, поэтому я связался с организаторами напрямую и попросил своими словами объяснить, что это такое. Предоставленная информация была даже шире, чем сейчас опубликовано на сайте, и сейчас я поделюсь с вами данными секретами полишинеля.


          Оказалось, всё довольно круто. Это гибридное развлечение, совмещающее хакатон и конференцию. Взяли два основных способа культурного времяпровождения, упаковали в три дня, побеспокоились о помещении и ништяках. Круто. Будет на этой неделе, 16.02-18.02.


          Бесплатно, иначе говоря — на халяву, на шару, совершенно свободно. Но нужно успеть зарегистрироваться до 15-ого числа на сайте, регистрация обязательна.



          Читать дальше →
          • +32
          • 3,9k
          • 2
        • Статистика Backblaze, научный подход к анализу надёжности накопителей

            Фирма Backblaze регулярно публикует статистику по отказам своих жёстких дисков, и даже выложила в свободный доступ полный архов со статистикой S.M.A.R.T параметров всех своих накопителей.


            В этой статье я покажу как с помощью при помощи лома и какой-то матери с помощью научных методов рассчитывать надёжность накопителей.

            Читать дальше →
          • Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data

              Все мы любим посмеяться над дремучим legacy на Java, которое якобы живёт в банках. После прочтения этой статьи у вас появится понимание другой грани этой истории. Оказывается, конкретно в Сбербанк-Технологиях есть целые большие отделы, занимающиеся прорывными технологиями и направлениями, включая Big Data и Machine Learning. Более того, скоро мы можем оказаться в мире, где Machine Learning встроен чуть ли не в каждую кофеварку. К добру или к худу, но Internet of Things, следящий за нами тысячью глаз из каждого банкомата, — куда более актуальное прочтение этой старой шутки.

              Как вы, наверное, заметили, я пишу на Хабре про виртуальные машины, внутренности OpenJDK, JVM и другую системную разработку. Почему эта статья — о банковском софте? Потому что это актуально как никогда. Вот представьте, вы такой весь в белом, дважды Data Scientist и четырежды важный гуру JIT-компиляции. Что дальше? Кому всё это может быть нужно прямо здесь и сейчас? Часто слышу рассуждения на тему: «Вот сейчас ты ковыряешься в своей любимой Java, а завтра никто тебя на работу не возьмёт». Это очень забавное и опасное заблуждение. Благодаря таким товарищам, о которых пойдёт речь в этой статье, работа у нас будет всегда.

              Конечно, на слово мне никто верить не должен, поэтому специально для Хабра я сорвался на самолёт в Москву, чтобы пообщаться с начальником отдела разработки спецпроектов в Сбербанк-Технологиях. Вадим Сурпин потратил на меня чуть больше часа, а в этом интервью будут только самые важные мысли из нашего разговора. Кроме того, удалось уговорить Вадима подать заявку на участие в нашей конференции JBreak. Более того, Вадим — первый человек, который показался мне достойным инвайта на Хабр: vadsu (инвайт был честно заработан статьей про хакинг ChromeDriver).

              Читать дальше →
            • Анализируй это. Mista.ru


                What, How, Why


                Форум Mista.ru — один из самых старых и активных форумов, посвященных 1С. Первое сообщение датировано 2000 годом и на текущий момент счетчик тем перевалил за 800000, а количество сообщений больше 16 000 000. Форум был настолько популярен, что его даже пытались "зеркалировать", так как содержал неплохую базу вопросов-ответов по 1С, из-за чего админы форума добавили "защиту от скачивания". В этой статье будет описано то, как можно скачать этот (а наверное и любой другой) форум в относительно короткие сроки при помощи Google Cloud Platform.

                Читать дальше →
              • AdBlock похитил этот баннер, но баннеры не зубы — отрастут

                Подробнее
                Реклама
              • Автоматическая оценка качества статей Википедии на разных языках

                Предлагаю Вашему вниманию обзорную статью научных работ, в которых я являюсь непосредственным участником и автором, на тему оценки качества Википедии на разных языках. Свои научные публикации на эту тему я пишу в основном на английском и польском языках. Я решил поделиться своими знаниями и опытом в этой области для русскоязычной аудитории, и выбрал Хабрахабр для первой такой статьи. Буду рад услышать комментарии и предложения на данную тему, возможно кто-то будет заинтересован в сотрудничестве в этом направлении. В следующих статьях я планирую более подробно остановиться на отдельных методиках и алгоритмах по анализу качества статей на разных языках. Также планирую размещать примеры кода (в основном Python), которые могут пригодиться для извлечения и анализа данных из Википедии.

                image
                Читать дальше →
                • +28
                • 4,5k
                • 4
              • «День знаний» для ИИ: опубликован ТОП30 самых впечатляющих проектов по машинному обучению за прошедший год (v.2018)

                • Перевод


                Чтобы выбрать ТОП 30 (только 0,3%), за прошедший год команда Mybridge сравнила почти 8800 проектов по машинному обучению с открытым исходным кодом.

                Это чрезвычайно конкурентный список, и он содержит лучшие библиотеки с открытым исходным кодом для машинного обучения, наборы данных и приложения, опубликованные в период с января по декабрь 2017 года. Чтобы дать вам представление о качестве проектов, отметим, что среднее число звезд Github — 3558.

                Проекты с открытым исходным кодом могут быть полезны не только ученым. Вы можете добавить что-то удивительное поверх ваших существующих проектов. Ознакомьтесь с проектами, которые вы, возможно, пропустили в прошлом году.


                Осторожно, под катом много картинок и gif.
                Читать дальше →
                • +31
                • 17,1k
                • 4
              • Feature Engineering, о чём молчат online-курсы


                  Sherlock by ThatsWhatSheSayd


                  Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.


                  Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

                  Читать дальше →
                • IT 2018: будущее наступило вчера

                    Мы уже почти написали пост к старому Новому году с отличной задумкой и героями русских сказок, но процесс прервало сообщение в Telegram. А в нём — анонс новости от экспертов рынка. Исследователи из Оксфордского и Йельского университетов пришли к выводу, что переход к полной автоматизации большинства экономических и технологических процессов закончится через 150 лет. Их азиатские коллеги показывают более оптимистичный срок — 104 года.

                    Так что все фантазии компаний относительно победы искусственного интеллекта в течение пары лет, увы (или к счастью), несостоятельны. Но тем не менее технологии продолжают экспансию, эксперты предрекают будущее, бизнес принимает или меняет правила игры. У нас есть свой прогноз. А вы — делитесь своим в комментариях. Ну и сказки, пожалуй, оставим — они предсказали будущее сотни лет назад.


                    Источник
                    Читать дальше →
                  Самое читаемое