Компания
41,32
рейтинг
29 декабря 2012 в 13:09

Разработка → 12 инструментов, о которых необходимо знать каждому программисту, работающему с Big Data перевод

Проектируете ли вы систему для анализа Big Data или просто пытаетесь собирать и обрабатывать данные своих мобильных приложений, вам никак не обойтись без качественных инструментов для аналитики. Хорошей новостью является то, что в данный момент множество компаний выпускают на рынок инструменты, учитывающие потребности разработчиков и соответствующие их навыкам.

За прошедший год, я встретил много стартапов, проектов и инструментов, призванных обеспечить программистов передовыми средствами анализа. В некоторых случаях это было реализовано в виде простых скриптов, из которых складывались достаточно мощные решения. А в других же эти инструменты просто обеспечивали доставку данных до разработчиков в более пригодном для анализа виде, что освобождало тех, в свою очередь, от львиной доли грязной работы и облегчало дальнейший труд. Я думаю, это значимый тренд в данной области.

В сегодняшнем мире мобильных приложений и облачных технологий стало гораздо проще, чем когда-либо, сделать бизнес на достаточно простом приложении. Даже в крупных компаниях разработчикам приходится бороться за ресурсы предприятия, доказывая большую привлекательность своих приложений или находя более прибыльные способы его монетизации. Иногда это даже приводит к внедрению некоторых процессов обработки данных в само приложение.
В любом случае, если ваша работа связана с написанием кода, а не с потоками данных, вам, наверняка, потребуется небольшая помощь. Далее я привел 12 инструментов (в алфавитном порядке), призванных помочь вам в этом нелегком деле. Как зачастую случается с подобными подборками, я мог и упустить некоторые хорошие примеры, поэтому приглашаю вас к активному обсуждению в комментариях.

1. BitDeli


BitDeli, стартап, запущенный в ноябре, позволяет программистам оценивать все, что угодно с помощью различных метрик, используя скрипты на Python. Со-основатель и генеральный директор Вилли Тулос (Ville Tuulos) сообщил, что скрипты могут быть как простыми, так и сложными в зависимости от нужд, вплоть до самообучающихся. В отличие от тяжеловеса Hadoop, BitDeli позиционируют себя скорее как более легкое решение, сравнимое с фремворком Ruby on Rails, но только для аналитики.



2. Continuuity


Детище бывшего главного разработчика архитектур облачных систем в компании Yahoo, Тодда Папаиоанну (Todd Papaioannou), и инженера базы данных HBase в Facebook, Джонатана Грея (Jonathan Gray), Continuuity создана, чтобы помогать всем компаниям наладить работу на таком же высоком уровне, что и в фирмах, упомянутых выше. Команда создала такую структуру данных, которая реализует новый уровень абстракции над сложными подключениями к кластерам Hadoop и HBase, а также включает в себя полный набор инструментов для разработки. Основной целью проекта является упрощение процесса создания big data приложений, работающих как с внутренней, так и с внешней аудиторией.



3. Flurry


Проект Flurry, как единый магазин-приложение, на самом деле приносит своим создателям около 100 миллионов долларов в год, потому что отлично справляется с задачами, возложенными на него. Компания помогает разработчикам не только делать мобильные приложения, но также и анализировать все данные, выдаваемые ими, чтобы сделать эти приложения еще лучше. Кроме того, эти данные могут лечь в основу рекламной кампании, сводя друг с другом рекламодателей и их целевую аудиторию.



4. Google Prediction API


Из всех инструментов разработки от компании Google, Google Prediction API претендует на звание самого крутого. Если у вас найдутся подходящие данные для обучения Prediction API, то этот интерфейс будет способен распознавать любое количество шаблонов и давать правильные ответы вашему приложению. Среди примеров, которые приводит сама компания, есть такие, как движок обнаружения спама, анализа пожеланий и движок, способный давать рекомендации, причем, Google также дает пошаговые инструкции по построению этих моделей.



5. Infochimps


Хотя Infochimps и пытается сделать себя IT-компанией (и стать поближе к деньгам), одноименная платформа, тем не менее, составляет реальную ценность для разработчиков. А вершина их технологий конфигурирования и управления big data, — фреймворк Wukong, предназначенный для работы с Hadoop и его потоками данных, с использованием скриптов на Ruby.



6. Keen IO


Этот проект получил первое место в нашем конкурсе Structure 2012 Launchpad как самый мощный инструмент аналитики для разработчиков мобильных приложений. Всего лишь с помощью одной строки, вставленной в исходный код и указывающей, что именно отслеживать, программисты могут следить за всем, что их интересует в своих приложениях. В данном случае, приведение данных в пригодный для анализа вид – лишь вопрос создания удобной визуальной панели.



7. Kontagent


Основным направлением деятельности Kontagent является его платформа для аналитики мобильных, социальных и веб-приложений, работающая с Hadoop и способная обрабатывать действительно огромные объемы информации. Ранее в этом году компания запустила продукт, позволяющий пользователям собирать информацию от их приложений с помощью SQL-подобного языка запросов Hive для Hadoop. Вместо отслеживания заранее определенных переменных, с данным продуктом появляется свобода выбора.



8. Mortar Data


Mortar Data – это Hadoop для разработчиков, простой и ясный. Уже почти год назад компания предложила свой облачный сервис, заменяющий MapReduce комбинацией Pig и Python. В ноябре состоялся релиз открытого фреймворка Mortar с целью создания сообщества для обмена данными и опытом по работе с Hadoop. На данный момент Mortar Data работает поверх Amazon Web Services и поддерживает в качестве информационных ресурсов Amazon S3 и MongoDB (размещенной на Amazon EC2).



9. Placed Analytics


Placed покончил со скриптами, API и другой тяжелой работой и просто обеспечивает своих пользователей уже готовым результатом. В данном случае это детализированная информация о том, где и когда потребители воспользовались мобильным приложением или сайтом, вплоть до названия бизнеса. Эта информация может быть весьма полезна для привлечения рекламодателей, а также для создания информационного функционала приложения (например, встраивание голосового оповещения для использования приложения за рулем).



10. Precog


Precog с первого взгляда может показаться обычным частным бизнесом, но он не так прост при ближайшем рассмотрении. Компания предлагает сервис под названием Labcoat, который представляет собой интерактивную среду разработки аналитических моделей на основе открытого языка запросов Quirrel. IDE включает в себя учебное пособие к языку и некоторые сложные функции, а исполнительный директор Precog, Джеф Кар (Jeff Carr), заявил, что даже люди без технического образования смогут без труда изучить этот язык за несколько часов.



11. Spring для Apache Hadoop


Хоть Hadoop и написан на Java, это еще не значит, что разработчикам Java будет легко работать с Hadoop. Именно поэтому в начале 2012 года SpringSource анонсировала выход Spring для Apache Hadoop. Это означает, что теперь возможна интеграция и с другими Spring приложениями, а также написание скриптов на JVM-подобных языках, и кроме этого, значительно упрощается процесс создания приложений, использующих Hadoop и связанных с этим проектом технологий, таких как Hive и HBase.



12. StatsMix


Действуя в том же ключе, что и BitDeli с Keen IO, StatsMix позволяет разработчикам собирать и обрабатывать большое количество данных, поступающих от их приложений, используя только те языки, которые они уже знают. Сервис автоматически отслеживает некоторые показатели, но их список может быть значительно расширен благодаря StatsMix API и стандартных библиотек. Результаты работы этого инструмента представляются пользователю в виде наглядных панелей, вид которых он может настроить под свои нужды, а также может поделиться ими или использовать для сведения нескольких источников информации в одно представление.



У вас есть опыт работы с какими-либо из представленных сервисов? Можете дополнить?
Автор: @alexander_illarionov Derrick Harris
CloudsNN
рейтинг 41,32
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Комментарии (6)

  • +28
    По-моему данные инструменты не относятся к разряду «необходимо знать», скорее к «желательно знать о существовании».

    А вот что необходимо, так это:
    1) принципы map-reduce и итеративных алгоритмов
    2) ну и действительно инструменты:
    hadoop для batch обработки, доп инструменты для него hive и pig
    storm и spark для реалтайм процессинга,
    druid и impala для реалтаймовых выборок с sql подобным синтаксисом

    то что перечислено в статье это обертки, которые можно использовать для того чтобы агрегировать потоки данных от приложений и последующей простой визуализации, а следовательно и целевая аудитория отнють не «программист, работающий с Big Data», а «разработчик приложений (в основном мобильных), которое может генерировать потоки данных, а сам разработчик не знает куда их залить и что с ними можно сделать»
  • 0
    8. Mortar Data

    Mortar Data – это Hadoop для разработчиков, простой и ясный. Уже почти год назад компания предложила свой облачный сервис, заменяющий MapReduse комбинацией Pig и Python. В ноябре состоялся релиз открытого фреймворка Mortar с целью создания сообщества для обмена данными и опытом по работе с Hadoop. На данный момент Mortar Data работает поверх Amazon Web Services и поддерживает в качестве информационных ресурсов Amazon S3 и MongoDB (размещенной на Amazon EC2).


    MapReduse — to reduce
    • 0
      Благодарю за замечание:) Сам не понимаю, откуда эта «s» взялась.
  • +1
    А где же awk?
    • 0
      Это юниксовый тул, который к биг дата отношения не имеет.
  • 0
    Гм, я работаю как раз в области Big Data, мы создаем свою платформу на основе Hadoop (http://www.crn.com/slide-shows/data-center/240144276/the-10-coolest-big-data-products-of-2012.htm;jsessionid=LmE6GpmQffvVBtRJjXP00g**.ecappj03?pgno=5 — могу о ней рассказать, кстати), но ни об одной из предоставленных технологий до сего дня не слышал.

    А почему не упомянуты такие вещи, как ZooKeeper, Flume, Mahout, Sqoop, Oozie?

    И вообще вот этого списка? blog.ashwanthkumar.in/2012/02/list-of-hadoop-ecosystem-tools.html

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка