Пользователь
0,0
рейтинг
21 апреля 2011 в 23:56

Администрирование → Дата-центр Amazon EC2 упал, отправив в даун сотни сайтов и сервисов

Сегодня в районе 2 ночи по тихоокеанскому времени сервера, «находящиеся» в дата-центре Amazon в North Virginia (US-East), внезапно полегли.

Судя по странице статусов амазона, дата-центр всё еще в дауне.

По причине недоступности серверов лежат Quora, Foursquare, Reddit, множество facebook-игр, да и сотни разных стартапов.

P.S. Вроде как сегодня должна была начаться атака SkyNet-а. Они выбрали интересный способ :)

Upd. Список пострадавших
Роман Чаднов @w0nder
карма
29,0
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое Администрирование

Комментарии (91)

  • +13
    Вот теперь и думай, что выбирать в качестве самого надёжного хостинга для критичных приложений.
    • +11
      Нет абсолютно надежных. Все могут поломаться, даже самые надежные. Причем это происходит в самый ответственный момент. По этому нужно автоматически запускать сервер в другом датаценре EC2, если не доступен в вашем.

      P.S.
      У нас сервер на EC2 в US East — работает. У них же там (в US East) 4-ре датацентра — на то оно и облако.
      • +1
        А что делать с базой? Регулярная репликация между датацентрами дорого выйдет?
        • +5
          Высокая доступность стоит дорого. Для среднего сервиса высокая доступность не нужна — 1 день простоя не страшно.
          • +4
            Насчет 1 дня я бы не был так уверен. Вопрос в том что теряется.
            К примеру если речь об сайте которому пользователи доверили свои деньги, то падение на день подрывает доверие и к тому же может иметь финансовые последствия.

            Есть знакомый у которого интернет-магазин с оплатой через Paypal. Так вот как только магазин падает на сколько-нибудь серьёзное время сразу идут запросы на отмену платежей (диспуты и чарджбеки) и за день можно порерять сколько сколько за месяц заработать.
          • 0
            даже для крупного сервиса это не так страшно. События последних дней тому пример ;)
    • +15
      А еще есть надежность каналов связи. От банды пьяных экскаваторщиков защититься очень сложно.
      • +6
        Да что там банда экскаваторщиков. Дайте бабке лопату и скажите, что там лежит медь. Тактическая распределенная группировка бабушек вообще весь интернет положит.
        • 0
          Кстати чистая правда — пруфлинк
        • +5
          тактическая группа — это одна бабушка с лопатой.

          а несколько — это уже стратегическая с разделяющейся головной частью.
  • +1
    Вот мы и узнаем, что жизнь без этих сервисов и стартапов вполне реальна.
    • НЛО прилетело и опубликовало эту надпись здесь
      • +36
        Завтра в новостях: «Производительность труда внезапно выросла на 83%».
        • +3
          Скорее так:
          Завтра в новостях: «У 83% рабочего персонала пропал урожай на ферме! Как это отразится на мире во всём мире?!».
      • 0
        а мне вот Спрингпад (тоже под раздачу попал) совсем не мешал работать. Так что ехидничество считаю неуместным — не только игры пострадали
      • 0
        как быть тем, для кого эти игры это и есть работа? ;)
        • НЛО прилетело и опубликовало эту надпись здесь
    • +1
      Не поверите, но теоретически жизнь реальна и без Интернета вообще.
      • НЛО прилетело и опубликовало эту надпись здесь
      • +1
        На самом деле уже нет.
        И дело тут не столько в фейсбуке сколько в том, что существенная часть механизмов экономики и военной безопасности держится именно на интернете.
        • 0
          Думаю как-нибудь перебьемся без интернета и механизмов экономики. Голивуд доказывает это в каждом втором фильме.
          • +5
            Мне кажется, что голливудские фильмы — не самый надежный источник информации.
            • НЛО прилетело и опубликовало эту надпись здесь
      • +4
        теоретически и за МКАДом жизнь есть
      • 0
        In theory theory and practice are the same. In practice they are not.
        Теоретически, теория и практика должні совпадать. На практике же, они не совпадают.

        :)
  • +24
    >>Вроде как сегодня должна была начаться атака SkyNet-а
    Саппорты говорят что skynet тут ни при чём.
    From the information I have and to answer your questions, SkyNet did not have anything to do with the service event at this time.
    forums.aws.amazon.com/thread.jspa?threadID=65073&tstart=0
    • +18
      ...at this time.
    • +1
      Скайнет вообще должен был ударить сначала в августе 1997, но второй Т-800 с Джоном оттянули конец на 2004-ый.
      Все прибаутки последних дней по поводу Скайнета — липа.
      • +14
        Неужели?
    • +3
      >From the information I have and to answer your questions, SkyNet did not have anything to do with the service event at this time.
      Не, ну ясное дело — автора ответа уже в заложниках держат.
      • +23
        в том треде были такие идеи)
        That's exactly what SkyNet would say.
    • +6
      Конечно нет, это Джон Коннор нанес превентивный удар. Дата опять отложена.
  • 0
    Среди сервисов, которые испытали и продолжают испытывать проблемы — Heroku, Quora, About.me, Foursquare, FormSpring, Lighthouse, Nvidia's Developer Portal, reddit, SpringPad.
    Полный список пострадавших сервисов:
    http://www.ec2disabled.com/
    • +6
      Кстати Foursquare возобновил работу примерно через час.
      Остальные сервисы повесили fail-whale страницы.

      Сразу стало понятно, кто делает бекапы, а кто уже делает бекапы.
      • 0
        Тут чуть сложнее.
        Надо было делать бекап в другую Availability Zone.
        Потому как бекапы у меня например были. Но забрать я их так и не смог из-за постоянных ошибок :)
        • +3
          Бекапы лучше держать на сторонних серверах.
          Сказал я, и записал это себе в TODO-list. :(
          • +7
            … и разместил его на Amazon EC2…
          • 0
            Вот самое противное что пострадала только база и её рабочие ESB.
            Остальные серваки нормально работают, несмотря на то что находятся в одной зоне.
  • +1
    Много интересного здесь:
    search.twitter.com/search?had_popular=true&q=ec2&result_type=recent
  • +9
    а я как раз зарегался пощупать амазон, думаю чего это у меня инстансы не запускаются…
    • +91
      Доигрался?
      • +36
        упс…
    • +12
      вступите в Единую Россию пожалуйста
  • +43
    амазон забыл продлить домен?
  • 0
    Обидно за assembla.com, тоже пострадала. Только начал привыкать
  • +112
    По поводу Скайнета: есть версия, что запуск Скайнета не состоялся, так как они тоже хостились на Амазоне…
    • +2
      Значит все таки смогли вырубить =(
    • +1
      Либо забыли продлить свой скайнет-домен
  • +30
    Когда падают облака всех накривает туманом :)
    • 0
      fog of war?
      • 0
        blacksheepwall в помощь.
  • 0
    Вот хорошая статья, где объясняется, что и как упало для простых смертных:
    justinsb.posterous.com/aws-down-why-the-sky-is-falling
    • –8
      Для смертных знающих английский язык.
    • +5
      собственно, с технической точки зрения там ничего не объяснено. только сказано, что упали сразу несколько «зон доступности» («Availability Zones» якобы независимые ЦОДы или что-то в этом роде) в одном и том же регионе (восток США). почему? неизвестно.
  • 0
    И поэтому репозитории на Assembla.com тоже частично отвалились. Вот и накрылись все стартапы :)
  • +3
    Кстати умные рекламщики быстро сообразили и начали выкладывать в Твиттер по тегу #ec2 рекламу VPS и конкурирующих cloud-решений — RackSpace, elastichosts.
    • 0
      С утра мониторю #ec2 #aws, с помощью promoted tweets пиарится только @StormOnDemand…
      • +2
        я там прочитал про elastichosts.

        Еще интереснейший твит был от @starbucks:
        twitter.com/#!/Starbucks/status/61139468912041984
  • 0
    В этих ваших твиттерах пишут, что Амазон уже поднялся. Все сервера моей компании поднялись.
    Статусная страница самого Амазона пока молчит.
    • 0
      Однако у assembla пока еще проблемы с репозиторяими :(
  • +2
    В такие моменты я могу им только сочувствовать. Никто и никогда не может дать 100% гарантии 100% работоспособности. Потому что любое резервирование имеет запас прочности и существует вероятность, что случится именно так, что не поможет.

    Кроме того, есть человеческий фактор — вынутый невовремя или не тот кабель, ошибка в команде, ошибка в коде и т.д.
    • +11
      … garbage collector со шваброй.
  • 0
    Хм, а как собрать сирену, срабатывающую при падении сервера? Чтоб, если сайт не доступен, сразу срабатывала.
    • +1
      В цикле или по хрону запрашивать сервис на доступность, и если таймаут превысил нужный включать сирену через что-то вроде habrahabr.ru/blogs/DIY/112511/
    • +5
      Я настроил для этого консольную sip звонилку linphone которая при необходимости инициирует звонок на мой alarm phone в котором стоит громкая сирена в качестве звонка. Если интересно могу по пунктам рассказать, как чего настраивать.
      • +2
        Интересно.
        • +13
          Рассказываю.

          Делал это я для мониторинга LA на своем серваке. Звонилка тоже на этом же серваке живет, но ничего не мешает поставить звонилку на любой VDS чтобы она мониторила другие серваки.

          Для начала настраиваем саму звонилку, вот подробный мануал: www.linux16.net/node/538

          Только в качестве сип шлюза я выбрал voipdiscount так как у меня там был аккаунт. Кстати алярм звонки мне обходятся совершенно бесплатно. Время разговора 0 сек.

          Настроив все по мануалу который я указал выше, я подправил под себя скриптик alarm.call

          #!/usr/bin/expect -f
          set timeout 60
          spawn linphonec
          expect "Registration on sip:voipdiscount.com successful."
          send "call +your_phone_number\n"
          expect "Connected."
          set timeout 3
          send "terminate\n"
          expect "User is busy."
          send "terminate\n"
          send "quit\n"


          И второй скриптик для мониторинга LA и инициирования звонка, который запускается по крону раз в пару минут:

          <?php

          $maxLA = 40;

          if (getLA() >= $maxLA)
          exec("./alarm.call");

          function getLA()
          {
          $la = `cat /proc/loadavg`;
          $la = explode(" ",$la);
          return $la[0];
          }

          ?>


          Уже пару раз просыпался под веселые звуки сирены когда мой сервак умирал при странных обстоятельствах.
          • 0
            Погодите, под серваком вы имеете ввиду приложение? А что если упал компьютер, на котором оно запущено? Скрипт ведь не вызовется тогда. Как проверить доступность удаленного сервера?
            • 0
              Ну в начале я написал, у меня запущена звонилка на том-же серваке который она мониторит. Это, конечно, не правильно. По идее надо брать отдельный vds где настраивать звонилку и скрипт который будет мониторить аптайм серваков.

              Просто для меня была задача мониторить только LA.
          • 0
            просто и надежно, возьму на заметку!
    • +2
      Сирена не сирена, а sms можно получить :) попробуйте monitorius.com или любой другой uptime monitoring сервис ;)
      • НЛО прилетело и опубликовало эту надпись здесь
      • 0
        Еще есть pingdom.com из простых и более-менее бюджетных (поминутная проверка, $10 в месяц + $0,45 за sms), год пользуюсь — доволен.
  • –2
    Как хорошо что у меня свой сервер.
    Пострадавшим — сочувствую
    • +2
      Это, как бы, тоже не проблема для «бабушек с лопатами» или «банды экскаваторщиков».
      • +1
        Это Вы к чему вообще?
        • 0
          Вот
          • 0
            (Прошу прощения ссылка не вставилась)
            habrahabr.ru/blogs/cloud_computing/117933/#comment_3840602
            • –1
              Ну, когда семля налетит на небесную ось — вообще все ляжет и все лягут.
              Сколько чего не резервируй, а вероятность падения все равно остается. Не пойму почему минусят, разве иметь свой маленький ДЦ уже не комильфо? Я вот так не считаю. Живу себе свокойно, и если недай-бог чего падает — сам себе нехороший человек.
              Но по сравнению с резервной площадкой у хостера — аптайм моих сервисов в собственном ДЦ куда дольше. За последние 3 года моя собственная площадка была не доступна два раза. У хостера — 5 раз.
              Я не претендую на истинность. Лично мне так проще и дешевле. Аппетиты у меня скромные и своего облака из 8 лезвий мне пока хватает за глаза.
              • +2
                Э… вся ваша независимость заканчивается ближайшей подстанции. И да, дизеля на две недели будет тяжко покупать.

                А ещё, если датацентр маленький, то есть соседи сверху с отоплением и ванной/сортиром.
  • 0
    На старой работе весь моск съели в своё время, что надо на амазон переезжать, чтобы клиентам всё было доступно 24/7. Там, мол, все круто и мы лэйбл добавим, что у нас всё на амазоне, клиентов привлечем этим.

    А с месяц тому они всё таки переехали на амазон. Надо узнать задело их или нет, что ли.
    • 0
      Те сервисы которые держали критично важные серваки в разных зонах не пострадали. Или смогли быстро перейти на резервы
      • 0
        Узнал. они не в этом ДЦ обитают, их вообще не задело.
        • 0
          Ну тогда я спокоен :)
  • 0
    Учебная тревога от амазона прошла успешно. Кто не зареплицировался я не виноват.
    • НЛО прилетело и опубликовало эту надпись здесь
  • +5
    Мне понравился ответ от компании Quora — «We’d point fingers, but we wouldn’t be where we are today without EC2»
  • 0
    Хорошо, что Европы не коснулось
  • +9
    image
  • 0
    А ведь предупреждал.

    habrahabr.ru/blogs/cloud_computing/96607/#comment_2960694
  • 0
    мы быстро починили, смонтировав ami образы с последнего backup EBS
    хотя это все зависит от вашей архитектуры

    пилим нормальный деплой через SVN и байбай EBS

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.