• Выборка случайной записи из таблицы с 700*10^6 строк

      Многие ли из нас сталкивались на практике с этим модным словом "Big Data", работая в заурядных компаниях веб-разработчиками? Скорее вы, как и мы, разрабатываете каждый день одинаковые сайты на одинаковых CMS, часто даже не задумываясь об их производительности.


      Однако и в жизни веб-разработчика настает такой день, когда приходит заказчик с интересной задачей. Вы наливаете кофе, прогоняете кота с клавиатуры и вдохновенно начинаете проектирование.


      Это рассказ о том, как пара амбициозных веб-разработчиков впервые столкнулась с задачей обработки "больших данных".


      image


      Читать дальше →
    • Применение R для работы с утверждением «Кто виноват? Конечно ИТ!»

        Продолжение предыдущих публикаций «Инструменты DataScience как альтернатива классической интеграции ИТ систем»,
        «Экосистема R как инструмент для автоматизации бизнес-задач» и Джентельменский набор пакетов R для автоматизации бизнес-задач. Настоящая публикация преследует 2 цели:


        1. Взглянуть на типичные задачи, которые встречаются в бизнесе, под немного другим углом.
        2. Попробовать их решить, частично или полностью, с использованием средств, предоставляемых R.
        Читать дальше →
        • +16
        • 6,3k
        • 7
      • Data Science Week 2016. Презентации спикеров

          Хабр, привет! 8-13 сентября команда New Professions Lab провела в Москве второй форум Data Science Week. Как и обещали, публикуем презентации наших спикеров:

          image
          Читать дальше →
        • Power Query: стероиды для MS Excel

            image

            В данной статье я хочу рассказать о некоторых возможностях бесплатной и крайне полезной, но пока еще мало известной надстройки над MS Excel под названием Power Query.

            Power Query позволяет забирать данные из самых разных источников (таких как csv, xls, json, текстовых файлов, папок с этими файлами, самых разных баз данных, различных api вроде Facebook opengraph, Google Analytics, Яндекс.Метрика, CallTouch и много чего еще), создавать повторяемые последовательности обработки этих данных и загружать их внутрь таблиц Excel или самого data model.

            И вот под катом вы можете найти подробности всего этого великолепия возможностей.
            Читать дальше →
          • Подборка: Более 70 источников по машинному обучению для начинающих



              Индикатор кулачкового аналогового компьютера / Wiki

              В нашем блоге мы уже рассказывали о разработке системы квантовой связи и о том, как из простых студентов готовят продвинутых программистов. Сегодня мы решили вернуться к теме машинного обучения и привести адаптированную (источник) подборку полезных материалов.
              Читать дальше →
            • Аналитика Instagram и GAE



                Некоторое время назад на Хабре была опубликована статья про поиск похожих аккаунтов в Twitter'e. На комментарии автор, к сожалению, не реагировал, потому пришлось изобретать велосипед. Но чтобы не делать уж совсем то же самое, было решено искать похожие аккаунты в Instagram с помощью Google App Engine, да так, чтобы воспользоваться сервисом мог каждый. Так появился instalytics.ru*.

                Самое сложное...
              • Еще один способ отключения сбора телеметрии в OC Windows 10

                  Микрософт с помощью пасьянса и косынки учила пользователей пользоваться мышью,
                  теперь с помощью windows 10 учит читать лицензионное соглашение.

                  После выхода windows 10 сразу появились сообщения о сборе информации о действиях пользователей и много обсуждений, что делать. Достаточно быстро пользователи составили список основных серверов, собирающих информацию и попытались их заблокировать через файл hosts. Но скептики сразу выдвинули здравое предположение, что MS мог предусмотреть этот метод и некоторые адреса прописать в коде. Тем более, что MS всегда может актуализировать адреса серверов через windows update.

                  В нашей компании начали появляться первые пользователи windows 10, и мы решили опробовать блокировку передачи телеметрии через встроенный windows firewall.
                  Читать дальше →
                • Лучшие доклады PHDays IV: слежка, взлом и национальные особенности кибервойны

                    image

                    На больших конференциях, где доклады идут в несколько потоков, часто работает особый вариант закона Мерфи, согласно которому наиболее интересные (лично для тебя) секции поставлены одновременно. Выберешь одну — не попадешь на другие. Что же делать?

                    В случае международного форума по безопасности Positive Hack Days решить эту проблему можно, просмотрев интересующих вас выступления в записи. Особенно актуально это будет для тех, кто вообще не попал на конферецию. Все видеофайлы лежат на сайте: phdays.ru/broadcast/.

                    Однако смотреть записи всех залов подряд, за оба дня, это вариант для о-о-очень терпеливых людей. Логичнее смотреть по темам или по авторам: сначала прочитать описания докладов в программе, а потом выбирать конкретный доклад в списке видео.

                    Тут, впрочем, надо понимать: описания были написаны до конференции, когда было еще неизвестно, насколько хорошим будет тот или иной доклад. Может, у него только название крутое, а внутри — скукота?.. Поэтому предлагаем вам третий способ: по популярности. Мы проанализировали отзывы участников PHDays и собрали десяток самых удачных докладов. Вот они:
                    Читать дальше →
                  • Функциональное и экономическое сравнение российских операторов предоставляющих облачные услуги. Версия 2.0

                      Чуть больше года назад я опубликовал сравнение российских облачных операторов: статья многим понравилась и была полезна. Примерно через полгода я начал получать много отзывов и просьб о том, что неплохо было бы сделать новый обзор, актуализировав данные по ценам, добавив в запрос дополнительные сервисы и дополнив его новыми компаниями. В этот раз в сравнение вошли уже 34 компании (в прошлом году их было более, чем в 2 раза меньше), включая зарубежные сервисы Amazon и Rackspace, а сбор информации занял более двух месяцев.



                      Как и в прошлый раз была выбрана определенная обновленная конфигурация ресурсов и услуг, так же для разнообразия и по просьбам трудящихся, я добавил ряд новых вопросов. Поскольку я имел опыт работы в компании, оказывающей услуги комплексного ИТ-аутсорсинга, то и запрашиваемая конфигурация выбиралась исходя из наиболее востребованных услуг.
                      Читать дальше →
                    • Проблемы мотивации: работа с «выгоревшими» сотрудниками

                      Последние шесть лет я делаю проекты в банковском IT, и за это время часто встречался с тем, что основным риском проекта становились «выгоревшие» сотрудники. Проектный ритм и большой поток задач вызывают у таких людей раздражение, поэтому их «распинывание» часто становится одной из главных задач менеджера проекта.

                      Для понимая того, почему такие люди появляются в организации, рассмотрим модель развития специалиста, построенную на параметрах «навык / мотивация». Основу для неё я взял из модели ситуационного лидерства и немного развил, исходя из практических наблюдений. Эта модель нужна, чтобы понять, на каком этапе «жизненного цикла» могут находиться на нашем проекте, и как это влияет на их мотивацию.

                      Этап 1 – мало опыта, много энтузиазма (низкий навык, высокая мотивация). Это может быть молодой специалист, получивший первую работу; человек, решивший попробовать себя в новой профессии или профессионал, которого выдвинули на руководящую должность. В общем, любой из вариантов, когда человек только что пришел на новое место, очень хочет добиться успеха, но еще не понимает как это сделать.

                      На этом этапе обычно находится человек, который только-только записался в спортзал: он точно решил, что будет ходить туда несколько раз в неделю, сбросит лишний вес, нарастит мускулы и уж в этот-то отпуск поедет красивым и подтянутым.

                      Читать дальше →