company_banner

Uptime day 2: российские ИТ-компании расскажут о том, как справляются с катастрофами

    Через три недели, в пятницу, 13-го, в коворкинге Deworkacy в Москве пройдет уже вторая конференция сообщества Uptime, тема которой — аварии в ИТ-инфраструктуре. Мест всего 300, участие бесплатное — под катом есть ссылка на регистрацию.

    image

    Немного истории


    Идея назвать так конференцию (и сообщество) пришла нам в одно и то же время с ребятами из Code&Supply в Питтсбурге. Их домен uptime.events зарегистрирован 28 марта 2017, наш uptime.community — 14 марта. Первая наша конференция состоялась в апреле, смотрите видеозаписи.

    В августе в Питтсбурге прошла подобная нашей конференция, я был на ней волонтером-звукооператором и даже немного выступал.

    image

    Что будет на Uptime day 2


    Итак, 13 октября в Москве мы обсудим ИТ-катастрофы, которые случались в жизни сотрудников Badoo, Carprice, «Ревизиума», ITSumma, «Битрикс24».

    Мой доклад — «Менеджмент инцидентов и исследование жизненного цикла аварии». Обратной стороной технического прогресса в 20 веке стало большое количество техногенных катастроф. Эксплуатация высоконагруженных проектов — это такой же технологический процесс, какие ежедневно происходят в авиации, в медицине и крупной промышленности. В этих сферах многие десятилетия есть практика расследования крупных инцидентов и детального разбора причин произошедших аварий для того, чтобы избежать их в будущем. Однако в нашей сфере по сей день отсутствуют единые практики, которые позволят не допустить повторения уже пройденных ошибок. Каждая компания подходит к этому вопросу на свой лад, зачастую не зная, что наступает на те же грабли, о которые сотни раз спотыкались их коллеги.

    Круглосуточно поддерживая сайты 350 клиентов, мы сталкиваемся в среднем с десятью серьезными авариями в день, при этом около половины из них происходит из-за человеческого фактора. Для нас важно обучить специалистов с обеих сторон тому, как можно избежать подобных аварий.

    На примере реальных аварий я покажу те методики и технологии, которые применяет ITSumma для решения уже возникших инцидентов и, что важнее, предотвращения их в будущем.

    Рассмотрим такие процессы:

    1. Фиксация того, как взаимодействуют между собой участники команды во время устранения аварии.
    2. Создание и анализ пост-мортемов аварий.
    3. Разработка рекомендаций и регламентов для нас и для клиентов.
    4. Разработка программного обеспечения для менеджмента инцидентов.
    5. Внедрение результатов анализа в ежедневные процедуры разработки и поддержки.

    Пятница, 13-е — отличный день, чтобы поговорить о катастрофах. Участие бесплатное, регистрируйтесь.
    • +12
    • 2,9k
    • 1
    ITSumma 93,73
    Собираем безумных людей и вместе спасаем интернет
    Поделиться публикацией
    Комментарии 1
    • 0
      Взял билеты в Мск на 12-13

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое