Компания
54,33
рейтинг
22 апреля 2012 в 13:33

Разное → Снова сбой в работе Scalaxy

Накануне было объявлено о проведении Технических работ с дисковыми массивами в ночь с 21 на 22 апреля.

Однако с 4 утра до настоящего времени некоторая часть серверов в облаке не работает.

Вот комментарий сотрудников:
При проведении ночных работ, на одной из пар дисковых массивов из-за ошибки в коде, отвечающем за сборку рейда, произошел сбой, который повлек за собой ошибки при сборке рейда. В связи с этим, часть серверов на данный момент недоступна.

К сожалению, не уточняется когда проблема будет полностью устранена, и пользователи уже начинают волноваться за сохранность своих данных.
Техподдержка советует просто перезагрузить виртуальный сервер в панели управления, однако сейчас сервер отказывается стартовать (статус Fail) и уходит в циклический ребут.

image

Чуть более месяца назад в облаке уже был крупный сбой, повлекший недоступность большого числа виртуальных серверов.

UPD.
Только что получил ответ на свой тикет в zendesk:
Мы приносим свои извинения за сложившуюся ситуацию, однако по всей видимости файловая система сервера была повреждена и гарантии ее полного восстановления нет.

UPD2. Техподдержка ответила окончательно — сервер восстановлению не подлежит, все данные потеряны.
Автор: @Scalar
Apps4All
рейтинг 54,33
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Комментарии (99)

  • +19
    Еще немного и это станет традицией
    • +1
      да это уже традиция, грустная только((( а были одними из лучших облачных в России
      • +1
        А что, есть какой-то рейтинг (независимый) «лучших облачных в России»?
        • +2
          нет, просто личные впечатления по соотношению цена/качество
      • +11
        Были одним из самых дутых хостингов.
  • +11
    Руки им мыть надо перед работами с серверами. Ну или хотя бы временно вставлять на положенное место…
  • +1
    У них это похоже традиционный «воскресный» факап: рано утром в воскресенье все ломается.

    Очень не хотелось бы потерять данные. Бэкапы конечно есть, но не первой свежести.
  • +4
    вовремя съехал от них, как то достали уже постоянные падения
  • +1
    У нас тоже один из серверов лежал почти 10 часов, час назад подняли. Хочется переехать, а куда — проблема. До недавнего времени наиболее подходящим казался Селектел, держим там тестовые серверы, но и он в последнее время подводит.
    • 0
      если не настолько критичен пинг то лучше в сторону европы посмотреть. сам перенес проекты в ирландский ДЦ Амазона, около месяца полет нормальный)
      • 0
        Именно Москва нужна, и дело не только в пинге :(
        • 0
          Активклауд вроде в Москве
          • 0
            Плюсую к ActiveCloud, знакомый народ их рекомендует как раз таки из-за хорошего аптайма.
            • 0
              Но цены у них — совсем не айс.
              Для обычного сайта их рекомендуемая конфигурация стоит 4 458.28 P/мес.

              То что идет ниже, к теме не относится, это мое ИМХО на хабр
              — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —
              Да-аа, на хабре, вообще драконовские правила, гестапо отдыхает.
              Это ж кому в голову пришло — вы можете комментировать 1 раз в ЧАС…
              «Моя» недоумевает, зачем так нужно и главное для чего? Правила ради правил? Кретинизмом попахивает, однако.
              Карма — это ничто и на ее основе запрещать мне выражать мысли — это сверхнаглость и антидемократичность. Хабр стоит демократизировать.
              • 0
                Держитесь мейнстрима. Оставляйте только комментарии, льстящие среднему посетителю хабры, и ваша карма будет на высоте.
              • –1
                Обнуляй карму и с чистого листа без ограничений ;-)
          • 0
            Спасибо, присматриваемся к ним.
        • 0
          А в чем еще дело?
          • 0
            Во-первых, для продвижения в поисковиках требуют, чтобы сервер находился в Москве. Во-вторых, мы покупаем услуги как юр.лицо, поэтому документами (счета, акты) обмениваться гораздо проще, если провайдер находится в Москве.
            • +2
              Хорошо, поясню. «требуют» имелось в виду в нашей компании — не поисковик требует, не я требую, а люди, которые отвечают за продвижение. Что касается документов, от имени юр.лица платить иностранным компаниям (чтобы получить документы и предоставить их налоговой), видимо, не так просто. Это не моя прихоть.
              • +1
                Очень интересно, какая разница людям, отвечающим за продвижение в поиске, где физически находится сервер?
        • –2
          Если подходят и обычные VPS, то очень рекомендую nqhost. У них три локации Россия(Москва), Германия и США. Они находка для меня.
    • +1
      А что не так с селектелом?
      • +1
        За последние полгода было не менее двух сбоев.
        • 0
          У них сбоило новое облако, старое пока стабильно полгода работает.
          • 0
            Сбой в новом облаке был в марте (почти на 16 часов), кроме этого был еще один сбой в ноябре (на полтора часа). Это только то, что я помню. Возможно, было что-то еще.
            • +2
              Это был deadlock на mdadm при запуске checking или resync. Эта проблема точно исправлена, все остальные виды сбоев кластер переживает без заметных для пользователя последствий (извините, что в чужом треде).
  • +17
    И после этого они зовутся облаком? Разве основная мысль облака это не то, что вы не зависите от железа серверов?
    • +6
      От железа, а не от софта. :) А софт еще пилят.
      • +1
        Может и пилят(раньше оно работало гараздо стабильней), но из списка пожеланий который у них в zendesk за последние полгода не реализовано ничего, что впрочем не помешало в феврале увеличить цены в полтора раза
    • +1
      Основная мысль облака — в том, что оно предоставляет удобный способ управления ресурсами, и по большому счету больше ни в чем. Ну, дополнительная фишка типа живой миграции — это вишенка на торте, только надо четко понимать: мигрировать по-живому может виртуалка, но не ее диск.
      • +2
        И надежность обеспечить можно, и диск при необходимости по-живому мигрировать. Зависит от постановки задачи при проектировании и, разумеется, адекватности созданного проекта и выбранных инструментов.

        Я так понимаю, у Scalaxy сейчас не в штатном режиме система поломалась, а что-то меняли, и сломалось во время изменения.
  • +46
    Я так понимаю, суть облака в том, что его гораздо проще навернуть одной командой.
  • 0
    Печаль, мой диск тоже задело.
    • 0
      Так и не поднялось до сих пор…
      Тех. поддержка молчит не первый час.
      Простой больше 12-ти часов.
  • +43
    Мдя… Мой домашний роутер работает стабильнее российских облаков.
    • +9
      Если уж так сравнивать, то мой домашний стул работает надежнее спутников.
      • +3
        В моем домашнем роутере нет дгу, резервирования N+1 и кондиционирования.=)
        • +8
          Значит это все не сломается :)
          • 0
            xD Ну да… Обидно на самом деле. Особенно обидно за время даунтайма.
    • 0
      У меня роутеры столько не работают:


      Selectel 2011-2012
  • +1
    Мне (тьфу-тьфу) повезло,
    сбои моих проектов не коснулись.
  • +1
    сервер раз
    -bash: /usr/bin/uptime: cannot execute binary file
    сервер два
    /usr/bin/uptime: line 1: syntax error near unexpected token `)'
    ????2/????֋[?3?+?,????wɘn-1ۛ?ܔ?,??e?B?]?m_?c0?8|-?????2?o&?a??n?;A??Ķ ?j?t?x?)?p????Ntw????v?
  • +2
    Техническая поддержка пока никак не комментирует происшедшее через личный кабинет.
    Есть только общие обращения направленные всем, внутр которых идет активная дискусия без участия представителей оверсана
  • 0
    Мне помог ребут и чекдиск
    • +4
      С fsck надо поаккуратнее, поскольку сохранность данных его задачей не является, он нужен только при приведения метаданных ФС к консистентному виду, даже если придется для этого что-нибудь потереть (что, впрочем, не означает, что fsck не следует использовать совсем).
      И, разумеется, если сбойная запись попала на участок с данными, не стоит надеятся, что восстановление структур ФС восстановит Ваши данные.
      В общем, проверяйте также их на повреждения (лучше обнаружить это раньше, чем когда бэкапы устареют сильнее).

      Также не стоит торопиться с fsck, если файловую систему удается смонтировать в readonly.
      • 0
        файловую систему удается смонтировать в readonly

        А какие дальнейшие порекомендуете действия?
        У меня был подобный случай. Ну я ни сколько не сомневаясь вытащил систему из readonly, запустил fsck после чего она уже загружаться даже не стала.
        • +1
          Переносить с порченого тома данные и проверять на валидность, разумеется. Если критиные данные точно не затронуты и Вы уверены в этом, то работать с ними дальше (не на побитой ФС уже, разумеется), иначе откатываться на бэкап. Когда данные вытащены, можно и fsck попробовать прогнать на битой ФС.
        • 0
          Тоже грузился только в read-only. Спас данные по следующей схеме: клонируем сервер -> добавляем ему новый диск -> переносим все необходимые данные на этот диск -> переустанавливаем ос на root (fsck на руте не помогала) -> даем ему ip, после загрузки есть доступ из вне, можно слить все, что удалось спасти.
  • 0
    Вроде бы уже отпустило, наши сайты заработали в нормальном режиме.
  • +16
    Мда. Лежит сайт с двух часов ночи. Учитывая, что клиент выкинул огромные бабки на субботную рекламу по первому каналу, все очень плохо.
    • +1
      если клиент имеет бабки для рекламы на первом канале, то у него в договоре должно быть прописано, что простой серверов (например) не более 30 минут.
    • +4
      А почему клиент, который кидает деньги на рекламу в телевизоре не заботится о том, чтобы не зависеть от одной виртуалки, а еще лучше — от одного провайдера? Ну то есть понятно почему — вопрос чисто риторический на самом деле. Но почему бы исполнителю не предложить ему сделать чуть по-другому. Как показывает практика, это хороший способ сделать win-win: исполнителю больше заработать, заказчику — получить лучший сервис.
      • –3
        Потому что до последних месяцев сайт падал раза 3 за пять лет. Решили сделать надежнее, и переехали в облако. Долго общались с представителями скалакси, они всех уверили, что в России у них один из лучших датацентров и начальство сделало выбор в их пользу. Как теперь оказалось — зря. Будем дальше учиться на своих ошибках. У остальных клиентов простые шаред хостинги годами работают как часы, а тут «супер отказоустойчивая система» падает через каждые выходные.
  • +8
    Все, финиш, техподдержка обьявила: сервер восстановлению не подлежит.
    • 0
      Соболезнуем. Бакапы, бакапы… ОБразы виртуалки делались?
      • +4
        Бэкапы делались, сижу восстанавливаю
    • +1
      Потрясающе! Бизнес по-русски)))
  • –3
    Сколько можно уже ))) Когда же они поймут, что общее хранилище это далеко не гуд )))
    • +2
      (Ничуть не оправдывая происходящее)

      У вас есть альтернативы? Как вы предлагаете размещать клиентов? Каждому по выделенному хранилищу, даже если клиенту нужно 2Гб места при нагрузке на 50р/месяц?
      • +3
        Сейчас дисковая плотность одного сервера достаточно высока и можно виртуальные машины хранить локально на физ.нодах и если «падает», то уж лучше одно нода, нежели одно хранилище с подключенными к нему 10-ю физ. нодами.

        Может быть это не так круто по сравнению с дисковой полкой с RAID100500, и ещё чего… Но хотелось бы узнать ваше мнение.

        ЗЫ: виртуальные машины гораздо дороже стоят :) А в случае с шаред-хостингом (то что за 50 руб./мес.) тем более дисковую полку (оно же хранилище) использовать не целесообразно.
        • +1
          производительность СХД выше одного диска в пересчете на одну ноду.
          к тому же, мобильность VPS при схд выше, чем при использовании пар нод «всё-на-борту».
          и на RAID100500 можно SSD FlashCache ставить, а вот на каждую ноду уже не напасёшься…
          В общем, правильным путём идут, но тестировать надо на кошках…
          К сожалению, всё на кошках не откатаешь, оттого и вылезают вот такие бока.
          • 0
            Согласен с «мобильностью», но во всём остальном… *Руссуждаю* допустим, HP Proliant DL360 G7 очень даже сносный сервер для таких задач, + используя 6 скоростных дисков + 2 диска большого объема (для хранения, допустим снапшетов, или еще чего)
        • 0
          Так и делают если «для себя» (гуглите архитектуры Гугла, Yahoo, тюбов всех мастей), для продажи сервиса нужна мистическая «гибкость» и потому городят внешние стораджи.
          • 0
            На самом деле внешний СХД нужен для консолидации кеша (читай, ssd в рейде в хосты не воткнёшь, а в СХД можно), и для live migration за разумное время.
        • +3
          Ха! Ну так это прямой путь к полному ппц.

          Рассказываю. Некоторое время назад у нас образовался м… э… хреновый сервер. Я так и не понял, что там было не так, в гарантии поменяли половину содержимого. Заняла возня с тестами и т.д. — три месяца.

          Ваше предложение, что делать с клиентами, которые на локальных дисках были? Три месяца не обслуживать? Так я их запустил на другом сервере и всё хорошо, а с этим можно возиться сколько угодно.

          Насчёт цены — у нас есть клиенты с полным аптаймом и расходами порядка 50-80р/месяц (лежит домашняя страничка, есть не просит).
        • 0
          В rackspace, кстати, так и сделано. Зато в случае проблем с хостом мигрировать виртуалки будут больше суток. При наличии же СХД время измеряется секундами-минутами.
  • +3
    Веселят ответы сервера, с шестичасовой задержкой. Выполните эту команду, выполните ту… С какой стати я должен выполнять какие-то команды в выходной вечер воскресенья? Если сервер не работает по вине хостера, то админы хостера пусть и выполняют эти команды, я так считаю.
  • +7
    Неделю назад ушел на Селектел. Доволен, еще и дешевле получается.
    • –3
      А куда?
      • +5
        Поясните вопрос. Честно говоря, я совершенно его не понял.
        • –3
          Простите :) С Селектел ушли куда? Я рынок особо не изучал, мне просто интересны альтернативы.
          • +8
            Перечитайте, пожалуйста, мой первоначальный комментарий. Цитирую: «Неделю назад ушел на Селектел». Со «Скалакси» — на «Селектел».
            • +4
              Надо же как затупил.
              • +3
                Ничего страшного :) Я сегодня тоже странный, так что все ОК.
  • +11
    А у них там в скалакси техдир вообще есть? Как зовут нашего героя?
    • +1
      Там маркетолог рулит ;)
  • +6
    Я устал, я ухожу.
  • +9
    Поясните, пожалуйста, грамотные люди, как они умудрились потерять все данные сервера? Вроде бы ими заявлялось о офигенной надежности, резервировании и что в облаке такого быть вообче не может.
    • +2
      Вообще изначально было ясно, что это грандиозный попил бабла роскосмоса. Мы на Хабре с НЛО не смогло распознать ссылку ни один десяток кармы потеряли, когда прямо указывали на это ещё на этапе открытия всех этих оверсанов. Наверное требуется прыгнуть на грабли с разбегу несколько раз, чтобы понять это. Мало ли что кем заявлялось.
    • +1
      Русское авось, помноженное на невысокую квалификацию персонала. Что-то российское использовать для проектов? Не знаю. Но думаю пока рано. Я не западник — просто наши технологии пока ещё не настолько совершенны. Нужно подождать.
    • 0
      У нас пропало 4% диска на основном сервере с БД после этого факапа. Хорошо что был второй пишу
      • 0
        А как проверить? У меня есть подозрение, что нас как то тоже зацепило
        • 0
          У меня проект после перезагрузки заработал вроде нормально. Но следующей ночью я остановил сервер, загрузил в single mode и открыв консоль (кнопка в панеле управления) запустил «fsck /dev/sda1» — оказалось часть системных файлов с ошибками. Исправил ошибки, но часть вспомогательных сервисов накрылась. Буду в ближайшее время съезжать в другое облако.

          Подробнее про single mode написано на форуме Скалакси.
          • 0
            Да, предварительно забэкапился. На случай, если система полностью накроется после fsck.
  • +6
    Как только linode.com сделает филиал в Москве, очень многие задумаются о переезде к ним.

    Хотя в свое время я сам очень уважал scalaxy: и архитектура интересная, и своя система управления — все это очень хорошо (нет идиотских ограничений и формальностей, объяснение которым лишь «так сделано в чужой системе управления, которую мы развернули у себя»), так что честь ребятам и хвала за такой подход. Но но последнее время… Такое впечатление, что тестят код, действительно, на живых клиентах (либо недостаточно тестят предварительно).
    • 0
      Про linode это просто мысль или есть информация, что они собираются в Россию?
      • +2
        Это моя мечта. Работа с их ДЦ пока ничего, кроме удовольствия, не приносила. Но, к сожалению, информацией подобного рода не располагаю.
  • +23
    Правила сисадмина.
    1. Делай бэкапы всегда.
    2. Первым делом на новом сервере настраивай бэкап.
    3. Проверяй, что твой бэкап распаковывается и работает. Раз в месяц это делать также не помешает.
    4. Сохраняй бэкапы минимум в 2 независимых хранилища (а лучше больше — учись у Волан-де-морта)
    5. Если ты получил письмо «о плановых работах» — сразу сделай внеочередной бэкап!
    6. Разработай план на срочный переезд к другому хостеру.
    7. А лучше сразу арендуй там машину и настрой. Чтобы ждать только обновления записей в ДНС.
    8. Проверяй состояние своих серверов, хотя бы Яндекс.метрикой. Можно и смс получать, бесплатно.
    9. Не придумал.
    10. Никогда не надейся ни на кого, кроме самого себя. Всегда помни, что драть за косяки будут тебя, а не хостера.

    На всякий случай оставлю:
    Настройка небольшого сервера.
    Скрипт для бэкапа этого сервера.

    Мои рецепты далеко не идеал, но лично мне помогают. Авось кому еще пригодятся.
  • 0
    Мда. Печально.
    Кстати, clodo приостановили создание серверов в ДЦ оверсан-меркурий. Видимо они тоже хотят распрощаться со scalaxy :) Ну и правильно, я считаю!
  • НЛО прилетело и опубликовало эту надпись здесь
    • +1
      у них похоже рейд рассыпался во время регламентных работ, судя по хронологии событий, а вот то что вообще не было резервных копий это фейл, хотя они вобщем то никогда и не заявляли что бекапы делают
  • НЛО прилетело и опубликовало эту надпись здесь
  • +1
    Кому-нибудь что-нибудь сказали о компенсации?
    • 0
      Сказали, что вопрос о компенсациях начнут решать завтра. В настоящий момент руководство принимает решение о них.
      • 0
        Мне начислили месячную стоимость потерянного сервера. Нормально.
  • 0
    Потеря данных для облачного хостинга — абсолютно недопустимо. Был гораздо большего мнения о Скалакси.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное