• Проблемы современного Data Science

      image

      Привет, Хабр! В последнее время все чаще приходится наблюдать, что ожидания работодателей и потенциальных ученых по данными сильно отличаются. Компания, инвестируя в новые разработки в первую очередь ждет возврат на инвестиции, а не очередную модель. Специалист же, окончивший всевозможные курсы ждет на вход чистые и понятные данные, а на выходе хотел бы отдать модель прикрепив к ней метрики качества. А дальше «пусть менеджеры разбираются», как это все будет встроено в процесс и как именно полученная модель будет использоваться. В результате возникает пропасть и непонимание между бизнесом и учеными.

      По факту оказывается, что модели сами по себе никому не нужны, а на деле приходится заниматься очень большим количеством рутинных задач.

      Хотелось бы на обобщенных примерах (все совпадения с реальной жизнью случайны) показать, какие же на самом деле трудности приходится преодолевать, чтобы принести работодателю деньги. Наверное, после этого в аналитику данных люди будут идти более осознанно, попутно получая нужные для работы навыки, а не изучая очередную статью про алгоритм.
      Читать дальше →
    • Всероссийский конкурс «Открытые данные»

        Привет, хабр!



        В прошлый раз мы уже помогали проводить Хакатон по открытым данным, на котором в последствии было придумано и реализовано несколько интересных сервисов. Сейчас спешим сообщить о том, что стартует очень масштабное всероссийское мероприятие по анализу данных. Мы постараемся помочь Аналитическому центру при Правительстве РФ и Открытому Правительству сделать это мероприятие по-настоящему интересным и увлекательным. В прошлый раз нам это почти удалось. Понятно, что уровень таких мероприятий для специалистов по анализу данных далек от того, о чем мы пишем и чем занимаемся. Однако, мы исходим из того, что лучше попытаться лишний раз улучшить эту ситуацию, нежели ничего не делать.
        Читать дальше →
      • Кто ВКонтакте самый главный?

          Привет, хабр!



          Мы уже знакомы по предыдущим статьям на тему анализа данных. Теперь настало время рассказать об одной очень практической задаче, которую мы научились решать. А именно — мы узнаем, кто же на самом деле управляет нашим мнением в социальной сети ВКонтакте. Код катом много необычных результатов и интересной математики.
          Читать дальше →
        • Необычный хакатон по открытым данным



            Привет, хабр!

            Мы с Вами уже обсуждали вопросы Big Data и машинное обучение, теперь пришло время практики! Вы уже не раз слышали о такой замечательно инициативе, как Открытые Данные. Уже было проведено множество хакатонов, мероприятий, сделано немало полезных приложений. Теперь это делается при поддержке первого в России Data Science сообщества MLClass.ru, в связи с чем объявляет новый необычный хакатон, в котором предлагается сделать полезный сервис, объединив данные из соц. сетей и данные портала data.gov.ru. У нас есть множество идей и примеров, когда, используя только открытые данные, можно делать поистине крутые вещи! Детали под катом.
            Читать дальше →
          • Ваши вопросы о Data Science

              Привет, хабр!

              Мы перезапустили MLClass! — первое в России сообщество любителей Data Science

              В связи с этим, как и обещал в статье Ваш персональный курс по Big Data, выкладываю ответы на самые часто задаваемые вопросы, которые возникают у людей, интересующихся Data Science и Big Data. Ответы даны лучшими практиками анализа данных: победителями Kaggle, сотрудниками многих компаний, внедряющих у себя Big Data решения и всеми, кто знает, что такое Data Science не понаслышке. Стоит отметить, что с каждым днем все больше людей в России (а также в странах СНГ) интересуются анализом данных, проходит все больше соревнований, хакатонов. Однако, до сих пор вокруг этой темы существуют большое количество мифов, которые я собираюсь развеять в этом посте!

              Итак, я взял около 100 самых распространенных вопросов, выделили из них наиболее обсуждаемые, и прокомментировал каждый из наиболее подробно, чтобы вопросов больше не осталось!
              Читать дальше →
            • Big Data: текущая реальность

                Привет, Хабр!

                С момент публикации серии статей на тему анализа данных и машинного обучения прошло уже достаточно времени и люди начинают просить новых публикаций. За последний год мне удалось поработать с несколькими компаниями, планирующих внедрять у себя инструменты продвинутой аналитики на предмет подбора специалистов, а также обучения их сотрудников и решения проектных задач. Для меня это был довольно необычный и одновременно сложный опыт, поэтому этот пост хотелось бы адресовать руководителям компаний, планирующих внедрять инструменты Big Data и Data Mining.
                Читать дальше →
              • Big Data в Билайне: реальный опыт



                  Привет, хабр! Меня зовут Александр Крот, я отвечаю за разработку алгоритмов машинного обучения и интеллектуального анализа данных в компании Билайн, а также за подготовку и отбор специалистов по работе с данными под руководством Сергея Марина, который ранее знакомил Вас с работой нашего подразделения Big Data. Я уже писал про отдельные аспекты Big Data и Machine Learning, но сегодня я расскажу, как это устроено на практике, а именно — как мы в Билайн решаем задачи, связанные с анализом больших данных, как отбираем специалистов, какие инструменты и методы применяем на практике.
                  Читать дальше →
                • Как на самом деле устроен процесс в Data Science

                    Привет, хабр!

                    После последней публикации «Ваш персональный курс по Big Data» мне пришло несколько сотен писем с вопросами, читая которые, я с удивлением обнаружил, что люди очень сильно погружаются в теорию, уделяя мало времени решению практических задач, в которых навыки необходимы совершенно другие. Cегодня я расскажу, какие сложности появляются на практике и с чем приходится работать при решении реальных задач.
                    Читать дальше →
                  • Ваш персональный курс по Big Data

                      Привет, хабр!

                      После публикации нескольких статей по Big Data и Машинному обучению, ко мне пришло немало писем от читателей с вопросами. За последние несколько месяцев мне удалось помочь многим людям сделать быстрый старт, некоторые из них — уже решают прикладные задачи и делают успехи. А кто-то уже устроился на работу и занимается решением реальных задач. Моя цель — чтобы вокруг меня были умные люди, с которыми в том числе и я смогу работать в дальнейшем. Поэтому я хочу помочь тем, кто действительно хочет научиться решать настоящие задачи на практике. В сети присутствует большое количество мануалов о том, как стать ученым по данным (Data Scientist). В свое время я прошел все, что там есть. Однако, на практике порой нужны совсем другие знания. О том, какие именно навыки нужны — я расскажу в сегодняшней статье и постараюсь ответить на все Ваши вопросы.
                      Читать дальше →
                    • Social Network Analysis: Spark GraphX

                        Привет, хабр!



                        Сегодня мы подробно познакомимся с задачами Анализа Социальных Сетей (SNA), а также закончим обзор библиотеки Apache Spark, предназначенной для анализа Больших Данных. А именно, как и было обещано в предыдущих статьях (раз и два) мы рассмотрим одну из компонент Apache Spark, предназначенную для анализа графов — GraphX. Постараемся понять, как в этой библиотеке реализовано распределенное хранение графов и вычисления на них. А также покажем на конкретных примерах, как данная библиотека может использоваться на практике: поиск спама, ранжирование поисковой выдачи, выделение сообществ в социальных сетях, поиск лидеров мнения — далеко не полный список применений методов анализа графов.
                        Читать дальше →