company_banner

Приглашаем на HadoopKitchen



    Спешим сообщить вам о нашей новой инициативе, которая будет интересна как программистам, так и ряду других IT-специалистов: 27 сентября, в следующую субботу, в московском офисе Mail.Ru Group состоится первая встреча HadoopKitchen. Почему именно Hadoop и чем эта встреча может быть интересна непрограммистам?

    • Hadoop является центром настоящей экосистемы, с ним связаны многочисленные проекты и технологии.
    • Многие компании целиком полагаются на коммерческие дистрибутивы Hadoop.
    • Hadoop входит в продуктовые линейки почти всех крупных поставщиков информационных технологий, что говорит о его востребованности и популярности.

    Программа первой Hadoop-встречи будет очень насыщенной, выступят аж четыре докладчика. Все они замечательные специалисты с большим опытом, которым хотят поделиться с аудиторией. Под катом читайте программу мероприятия и анонсы докладов.

    Программа мероприятия:

    11:00 Регистрация и welcome coffee.

    12:00 Алексей Филановский (Cloudera Certified Developer for Apache Hadoop, старший консультант отдела продаж, Oracle) расскажет о новых интересных возможностях Hadoop v2. Конечно, это не будет сухим перечислением с краткими описаниями, Алексей также разберёт разные сценарии использования этих возможностей, а заодно расскажет о некоторых примерах из практики.

    Hadoop-экосистема набирает популярность семимильными шагами, все больше и больше пользователей начинают использовать ее не только для синтетических тестов, для удовлетворения собственного любопытства, но и в продуктивной среде предприятия. Данный факт объясняет бурное развитие продукта. Больше пользователей, больше пожеланий для разработчиков. В рамках данного доклада будут освещены основные возможности, появившиеся в Hadoop v2.

    13:00 Никита Макеев (Data Team lead, IponWeb) поведает собравшимся особые знания о том, как можно расширить возможности Hadoop Streaming при работе с современными форматами данных Avro и Parquet.

    Map-Reduce, Avro и Parquet без Java. Ну почти. Hadoop Streaming — отличный способ оседлать Hadoop в частности и пакетную обработку больших объемов данных вообще. Почти не нужно знать Java, а только примерно представлять, как работает MapReduce, и уметь писать на каком-нибудь языке программирования, который может обрабатывать строчки текста. Практически любая задача, которая может быть решена при помощи MapReduce, может быть также решена и при помощи Hadoop Streaming. Преимущества очевидны — простота разработки, нет проблем с кадрами, невысокие затраты на вхождение.

    Одно из наиболее распространенных применений Hadoop Streaming — обработка текстовых логов или других данных, представленных в виде текста. Однако популярность стремительно завоевывают более сложные, чем просто текст, форматы. Можно ли сохранить возможность обрабатывать данные при помощи скриптовых языков и при этом использовать все преимущества, которыми обладают современные форматы данных, такие как Avro и Parquet?

    Мы справляемся с этой задачей, используя некоторое количество Java-кода и JSON как связующее звено. Как водится, везде есть нюансы, особенности, а зачастую и особые уникальные «грабли» о которых и будет рассказано.

    14:00 Максим Лапань (ведущий программист проекта Поиск, Mail.Ru Group) расскажет увлекательную историю о том, как в Mail.Ru Group осуществляется управление кластерами Hadoop. Докладчик не обойдёт стороной и те трудности, которые вставали на пути команды разработчиков по мере развития и расширения системы. Доклад будет посвящен практической стороне эксплуатации кластера Hadoop/HBase, на протяжении последних трех лет используемого в проекте Поиск Mail.Ru. За это время система выросла с 30 до 400 серверов, объем хранилища с 400ТБ до 9ПБ. Темы, которые планируется затронуть:
    • как мы изобрели свой bigtop: структура и логика наших сборок rpm-пакетов, поддержка нескольких кластеров, работа пользователей, особенности конфигурации компонентов Hadoop;
    • мониторинг и анализ производительности кластера: как мы следим за работой кластеров, какие метрики используем;
    • проблемы администрирования большой инсталляции Hadoop/HBase.

    15:00 Обед. Война войной, а обед по расписанию.

    С 15:45 до 17:45 в формате World Cafe все желающие смогут принять участие в совместном определении и обсуждении наиболее животрепещущих вопросов эксплуатации Hadoop.

    В 18:00 Алексей Грищенко (Pivotal Enterprise Architect, EMC Corporation) выступит с докладом о том, какие особенности и нюансы характерны для архитектурного решения Pivotal HAWQ, а также расскажет о его взаимодействии с Hadoop. В рамках доклада будут освещены следующие темы:
    1. Текущее положение на рынке решений, реализующих SQL-интерфейс для работы с данными в HDFS. В последнее время эта тема крайне активно набирают популярность, что по большей части связано с популяризацией Hadoop в корпоративном секторе. Я кратко освещу основные существующие на текущий момент решения и принципиальные проблемы, с которыми сталкиваются все подобные системы.
    2. Компоненты решения Pivotal HAWQ и их взаимодействие с HDFS. Здесь я детально расскажу о том, из каких компонент состоит наша СУБД, как они располагаются на кластере, каким образом они связаны с HDFS и как они хранят данные
    3. Детальный разбор процесса выполнения запроса. В качестве примера будет дан несложный запрос, процесс его выполнения будет расписан по шагам от поступления запроса в систему до возвращения данных клиентскому приложению. Также здесь я кратко расскажу о отличительных особенностях обработки запросов в HAWQ по сравнению с другими системами.
    4. Возможности организации доступа к кастомизированным форматам хранения данных на HDFS, а также к различным внешним системам. Здесь я расскажу о фреймворке PXF и возможности его расширения, приведу пример реализованного мной компонента
    5. Прочие возможности HAWQ и направление дальнейшего развития. Я расскажу о возможностях использования HAWQ для решения задачи интеллектуального анализа данных, а также освещу направление, в котором наша платформа развивается и каких изменений стоит ждать.

    Обязательно возьмите с собой документ, удостоверяющий личность, у нас строгая охрана. Также вам необходимо будет зарегистрироваться.
    Метки:
    • +25
    • 6,6k
    • 8
    Mail.Ru Group 1 001,56
    Строим Интернет
    Поделиться публикацией
    Похожие публикации
    Комментарии 8
    • +11
      Блин, в какой стране хоть? Лично я понятий не имею, в каких странах у вас есть офисы, не говорю уже о городах.

      Для оффлайн-мероприятий всегда указывайте страну и город. При том, сразу и хорошо заметным образом — в заголовке или аннотации. Дату же почему-то указывать не забываете?
      • +2
        Спасибо, что обратили внимание. Теперь будем добавлять.
      • –2
        > Обязательно возьмите с собой документ, удостоверяющий личность, у нас строгая охрана.

        После Lua Workshop'а в это не особо верится… или уже успели набрать новых, очень строгих охранников?
        • +1
          Будет ли онлайн трансляция? Оффлайн записи докладов?
          • +1
            Видео готово, приятного просмотра!

            • 0
              Большое спасибо!
          • 0
            «This Meetup is full. Want to know if a spot opens up?»
            Так понимаю не успел :( и не смогу попасть к вам?
            • 0
              Места имеют обыкновение заканчиваться :( смотрите видео в комменте выше.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое