Снова сбой в работе Scalaxy

    Накануне было объявлено о проведении Технических работ с дисковыми массивами в ночь с 21 на 22 апреля.

    Однако с 4 утра до настоящего времени некоторая часть серверов в облаке не работает.

    Вот комментарий сотрудников:
    При проведении ночных работ, на одной из пар дисковых массивов из-за ошибки в коде, отвечающем за сборку рейда, произошел сбой, который повлек за собой ошибки при сборке рейда. В связи с этим, часть серверов на данный момент недоступна.

    К сожалению, не уточняется когда проблема будет полностью устранена, и пользователи уже начинают волноваться за сохранность своих данных.
    Техподдержка советует просто перезагрузить виртуальный сервер в панели управления, однако сейчас сервер отказывается стартовать (статус Fail) и уходит в циклический ребут.

    image

    Чуть более месяца назад в облаке уже был крупный сбой, повлекший недоступность большого числа виртуальных серверов.

    UPD.
    Только что получил ответ на свой тикет в zendesk:
    Мы приносим свои извинения за сложившуюся ситуацию, однако по всей видимости файловая система сервера была повреждена и гарантии ее полного восстановления нет.

    UPD2. Техподдержка ответила окончательно — сервер восстановлению не подлежит, все данные потеряны.
    Apps4All 53,66
    Компания
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама
    Комментарии 99
    • +19
      Еще немного и это станет традицией
      • +1
        да это уже традиция, грустная только((( а были одними из лучших облачных в России
        • +1
          А что, есть какой-то рейтинг (независимый) «лучших облачных в России»?
          • +2
            нет, просто личные впечатления по соотношению цена/качество
          • +11
            Были одним из самых дутых хостингов.
        • +11
          Руки им мыть надо перед работами с серверами. Ну или хотя бы временно вставлять на положенное место…
          • +1
            У них это похоже традиционный «воскресный» факап: рано утром в воскресенье все ломается.

            Очень не хотелось бы потерять данные. Бэкапы конечно есть, но не первой свежести.
            • +4
              вовремя съехал от них, как то достали уже постоянные падения
              • +1
                У нас тоже один из серверов лежал почти 10 часов, час назад подняли. Хочется переехать, а куда — проблема. До недавнего времени наиболее подходящим казался Селектел, держим там тестовые серверы, но и он в последнее время подводит.
                • 0
                  если не настолько критичен пинг то лучше в сторону европы посмотреть. сам перенес проекты в ирландский ДЦ Амазона, около месяца полет нормальный)
                  • 0
                    Именно Москва нужна, и дело не только в пинге :(
                    • 0
                      Активклауд вроде в Москве
                      • 0
                        Плюсую к ActiveCloud, знакомый народ их рекомендует как раз таки из-за хорошего аптайма.
                        • 0
                          Но цены у них — совсем не айс.
                          Для обычного сайта их рекомендуемая конфигурация стоит 4 458.28 P/мес.

                          То что идет ниже, к теме не относится, это мое ИМХО на хабр
                          — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —
                          Да-аа, на хабре, вообще драконовские правила, гестапо отдыхает.
                          Это ж кому в голову пришло — вы можете комментировать 1 раз в ЧАС…
                          «Моя» недоумевает, зачем так нужно и главное для чего? Правила ради правил? Кретинизмом попахивает, однако.
                          Карма — это ничто и на ее основе запрещать мне выражать мысли — это сверхнаглость и антидемократичность. Хабр стоит демократизировать.
                          • 0
                            Держитесь мейнстрима. Оставляйте только комментарии, льстящие среднему посетителю хабры, и ваша карма будет на высоте.
                            • –1
                              Обнуляй карму и с чистого листа без ограничений ;-)
                          • 0
                            Спасибо, присматриваемся к ним.
                          • 0
                            А в чем еще дело?
                            • 0
                              Во-первых, для продвижения в поисковиках требуют, чтобы сервер находился в Москве. Во-вторых, мы покупаем услуги как юр.лицо, поэтому документами (счета, акты) обмениваться гораздо проще, если провайдер находится в Москве.
                              • +2
                                Хорошо, поясню. «требуют» имелось в виду в нашей компании — не поисковик требует, не я требую, а люди, которые отвечают за продвижение. Что касается документов, от имени юр.лица платить иностранным компаниям (чтобы получить документы и предоставить их налоговой), видимо, не так просто. Это не моя прихоть.
                                • +1
                                  Очень интересно, какая разница людям, отвечающим за продвижение в поиске, где физически находится сервер?
                            • –2
                              Если подходят и обычные VPS, то очень рекомендую nqhost. У них три локации Россия(Москва), Германия и США. Они находка для меня.
                          • +1
                            А что не так с селектелом?
                            • +1
                              За последние полгода было не менее двух сбоев.
                              • 0
                                У них сбоило новое облако, старое пока стабильно полгода работает.
                                • 0
                                  Сбой в новом облаке был в марте (почти на 16 часов), кроме этого был еще один сбой в ноябре (на полтора часа). Это только то, что я помню. Возможно, было что-то еще.
                                  • +2
                                    Это был deadlock на mdadm при запуске checking или resync. Эта проблема точно исправлена, все остальные виды сбоев кластер переживает без заметных для пользователя последствий (извините, что в чужом треде).
                        • +17
                          И после этого они зовутся облаком? Разве основная мысль облака это не то, что вы не зависите от железа серверов?
                          • +6
                            От железа, а не от софта. :) А софт еще пилят.
                            • +1
                              Может и пилят(раньше оно работало гараздо стабильней), но из списка пожеланий который у них в zendesk за последние полгода не реализовано ничего, что впрочем не помешало в феврале увеличить цены в полтора раза
                            • +1
                              Основная мысль облака — в том, что оно предоставляет удобный способ управления ресурсами, и по большому счету больше ни в чем. Ну, дополнительная фишка типа живой миграции — это вишенка на торте, только надо четко понимать: мигрировать по-живому может виртуалка, но не ее диск.
                              • +2
                                И надежность обеспечить можно, и диск при необходимости по-живому мигрировать. Зависит от постановки задачи при проектировании и, разумеется, адекватности созданного проекта и выбранных инструментов.

                                Я так понимаю, у Scalaxy сейчас не в штатном режиме система поломалась, а что-то меняли, и сломалось во время изменения.
                            • +46
                              Я так понимаю, суть облака в том, что его гораздо проще навернуть одной командой.
                              • 0
                                Печаль, мой диск тоже задело.
                                • 0
                                  Так и не поднялось до сих пор…
                                  Тех. поддержка молчит не первый час.
                                  Простой больше 12-ти часов.
                                • +43
                                  Мдя… Мой домашний роутер работает стабильнее российских облаков.
                                  • +9
                                    Если уж так сравнивать, то мой домашний стул работает надежнее спутников.
                                    • +3
                                      В моем домашнем роутере нет дгу, резервирования N+1 и кондиционирования.=)
                                      • +8
                                        Значит это все не сломается :)
                                        • 0
                                          xD Ну да… Обидно на самом деле. Особенно обидно за время даунтайма.
                                    • 0
                                      У меня роутеры столько не работают:


                                      Selectel 2011-2012
                                    • +1
                                      Мне (тьфу-тьфу) повезло,
                                      сбои моих проектов не коснулись.
                                      • +1
                                        сервер раз
                                        -bash: /usr/bin/uptime: cannot execute binary file
                                        сервер два
                                        /usr/bin/uptime: line 1: syntax error near unexpected token `)'
                                        ????2/????֋[?3?+?,????wɘn-1ۛ?ܔ?,??e?B?]?m_?c0?8|-?????2?o&?a??n?;A??Ķ ?j?t?x?)?p????Ntw????v?
                                        • +2
                                          Техническая поддержка пока никак не комментирует происшедшее через личный кабинет.
                                          Есть только общие обращения направленные всем, внутр которых идет активная дискусия без участия представителей оверсана
                                          • 0
                                            Мне помог ребут и чекдиск
                                            • +4
                                              С fsck надо поаккуратнее, поскольку сохранность данных его задачей не является, он нужен только при приведения метаданных ФС к консистентному виду, даже если придется для этого что-нибудь потереть (что, впрочем, не означает, что fsck не следует использовать совсем).
                                              И, разумеется, если сбойная запись попала на участок с данными, не стоит надеятся, что восстановление структур ФС восстановит Ваши данные.
                                              В общем, проверяйте также их на повреждения (лучше обнаружить это раньше, чем когда бэкапы устареют сильнее).

                                              Также не стоит торопиться с fsck, если файловую систему удается смонтировать в readonly.
                                              • 0
                                                файловую систему удается смонтировать в readonly

                                                А какие дальнейшие порекомендуете действия?
                                                У меня был подобный случай. Ну я ни сколько не сомневаясь вытащил систему из readonly, запустил fsck после чего она уже загружаться даже не стала.
                                                • +1
                                                  Переносить с порченого тома данные и проверять на валидность, разумеется. Если критиные данные точно не затронуты и Вы уверены в этом, то работать с ними дальше (не на побитой ФС уже, разумеется), иначе откатываться на бэкап. Когда данные вытащены, можно и fsck попробовать прогнать на битой ФС.
                                                  • 0
                                                    Тоже грузился только в read-only. Спас данные по следующей схеме: клонируем сервер -> добавляем ему новый диск -> переносим все необходимые данные на этот диск -> переустанавливаем ос на root (fsck на руте не помогала) -> даем ему ip, после загрузки есть доступ из вне, можно слить все, что удалось спасти.
                                              • 0
                                                Вроде бы уже отпустило, наши сайты заработали в нормальном режиме.
                                                • +16
                                                  Мда. Лежит сайт с двух часов ночи. Учитывая, что клиент выкинул огромные бабки на субботную рекламу по первому каналу, все очень плохо.
                                                  • +1
                                                    если клиент имеет бабки для рекламы на первом канале, то у него в договоре должно быть прописано, что простой серверов (например) не более 30 минут.
                                                    • +4
                                                      А почему клиент, который кидает деньги на рекламу в телевизоре не заботится о том, чтобы не зависеть от одной виртуалки, а еще лучше — от одного провайдера? Ну то есть понятно почему — вопрос чисто риторический на самом деле. Но почему бы исполнителю не предложить ему сделать чуть по-другому. Как показывает практика, это хороший способ сделать win-win: исполнителю больше заработать, заказчику — получить лучший сервис.
                                                      • –3
                                                        Потому что до последних месяцев сайт падал раза 3 за пять лет. Решили сделать надежнее, и переехали в облако. Долго общались с представителями скалакси, они всех уверили, что в России у них один из лучших датацентров и начальство сделало выбор в их пользу. Как теперь оказалось — зря. Будем дальше учиться на своих ошибках. У остальных клиентов простые шаред хостинги годами работают как часы, а тут «супер отказоустойчивая система» падает через каждые выходные.
                                                    • +8
                                                      Все, финиш, техподдержка обьявила: сервер восстановлению не подлежит.
                                                      • 0
                                                        Соболезнуем. Бакапы, бакапы… ОБразы виртуалки делались?
                                                        • +4
                                                          Бэкапы делались, сижу восстанавливаю
                                                        • +1
                                                          Потрясающе! Бизнес по-русски)))
                                                        • –3
                                                          Сколько можно уже ))) Когда же они поймут, что общее хранилище это далеко не гуд )))
                                                          • +2
                                                            (Ничуть не оправдывая происходящее)

                                                            У вас есть альтернативы? Как вы предлагаете размещать клиентов? Каждому по выделенному хранилищу, даже если клиенту нужно 2Гб места при нагрузке на 50р/месяц?
                                                            • +3
                                                              Сейчас дисковая плотность одного сервера достаточно высока и можно виртуальные машины хранить локально на физ.нодах и если «падает», то уж лучше одно нода, нежели одно хранилище с подключенными к нему 10-ю физ. нодами.

                                                              Может быть это не так круто по сравнению с дисковой полкой с RAID100500, и ещё чего… Но хотелось бы узнать ваше мнение.

                                                              ЗЫ: виртуальные машины гораздо дороже стоят :) А в случае с шаред-хостингом (то что за 50 руб./мес.) тем более дисковую полку (оно же хранилище) использовать не целесообразно.
                                                              • +1
                                                                производительность СХД выше одного диска в пересчете на одну ноду.
                                                                к тому же, мобильность VPS при схд выше, чем при использовании пар нод «всё-на-борту».
                                                                и на RAID100500 можно SSD FlashCache ставить, а вот на каждую ноду уже не напасёшься…
                                                                В общем, правильным путём идут, но тестировать надо на кошках…
                                                                К сожалению, всё на кошках не откатаешь, оттого и вылезают вот такие бока.
                                                                • 0
                                                                  Согласен с «мобильностью», но во всём остальном… *Руссуждаю* допустим, HP Proliant DL360 G7 очень даже сносный сервер для таких задач, + используя 6 скоростных дисков + 2 диска большого объема (для хранения, допустим снапшетов, или еще чего)
                                                                • 0
                                                                  Так и делают если «для себя» (гуглите архитектуры Гугла, Yahoo, тюбов всех мастей), для продажи сервиса нужна мистическая «гибкость» и потому городят внешние стораджи.
                                                                  • 0
                                                                    На самом деле внешний СХД нужен для консолидации кеша (читай, ssd в рейде в хосты не воткнёшь, а в СХД можно), и для live migration за разумное время.
                                                                  • +3
                                                                    Ха! Ну так это прямой путь к полному ппц.

                                                                    Рассказываю. Некоторое время назад у нас образовался м… э… хреновый сервер. Я так и не понял, что там было не так, в гарантии поменяли половину содержимого. Заняла возня с тестами и т.д. — три месяца.

                                                                    Ваше предложение, что делать с клиентами, которые на локальных дисках были? Три месяца не обслуживать? Так я их запустил на другом сервере и всё хорошо, а с этим можно возиться сколько угодно.

                                                                    Насчёт цены — у нас есть клиенты с полным аптаймом и расходами порядка 50-80р/месяц (лежит домашняя страничка, есть не просит).
                                                                    • 0
                                                                      В rackspace, кстати, так и сделано. Зато в случае проблем с хостом мигрировать виртуалки будут больше суток. При наличии же СХД время измеряется секундами-минутами.
                                                                • +3
                                                                  Веселят ответы сервера, с шестичасовой задержкой. Выполните эту команду, выполните ту… С какой стати я должен выполнять какие-то команды в выходной вечер воскресенья? Если сервер не работает по вине хостера, то админы хостера пусть и выполняют эти команды, я так считаю.
                                                                  • +7
                                                                    Неделю назад ушел на Селектел. Доволен, еще и дешевле получается.
                                                                    • –3
                                                                      А куда?
                                                                      • +5
                                                                        Поясните вопрос. Честно говоря, я совершенно его не понял.
                                                                        • –3
                                                                          Простите :) С Селектел ушли куда? Я рынок особо не изучал, мне просто интересны альтернативы.
                                                                          • +8
                                                                            Перечитайте, пожалуйста, мой первоначальный комментарий. Цитирую: «Неделю назад ушел на Селектел». Со «Скалакси» — на «Селектел».
                                                                            • +4
                                                                              Надо же как затупил.
                                                                              • +3
                                                                                Ничего страшного :) Я сегодня тоже странный, так что все ОК.
                                                                    • +11
                                                                      А у них там в скалакси техдир вообще есть? Как зовут нашего героя?
                                                                    • +6
                                                                      Я устал, я ухожу.
                                                                      • +9
                                                                        Поясните, пожалуйста, грамотные люди, как они умудрились потерять все данные сервера? Вроде бы ими заявлялось о офигенной надежности, резервировании и что в облаке такого быть вообче не может.
                                                                        • +2
                                                                          Вообще изначально было ясно, что это грандиозный попил бабла роскосмоса. Мы на Хабре с НЛО не смогло распознать ссылку ни один десяток кармы потеряли, когда прямо указывали на это ещё на этапе открытия всех этих оверсанов. Наверное требуется прыгнуть на грабли с разбегу несколько раз, чтобы понять это. Мало ли что кем заявлялось.
                                                                          • +1
                                                                            Русское авось, помноженное на невысокую квалификацию персонала. Что-то российское использовать для проектов? Не знаю. Но думаю пока рано. Я не западник — просто наши технологии пока ещё не настолько совершенны. Нужно подождать.
                                                                            • 0
                                                                              У нас пропало 4% диска на основном сервере с БД после этого факапа. Хорошо что был второй пишу
                                                                              • 0
                                                                                А как проверить? У меня есть подозрение, что нас как то тоже зацепило
                                                                                • 0
                                                                                  У меня проект после перезагрузки заработал вроде нормально. Но следующей ночью я остановил сервер, загрузил в single mode и открыв консоль (кнопка в панеле управления) запустил «fsck /dev/sda1» — оказалось часть системных файлов с ошибками. Исправил ошибки, но часть вспомогательных сервисов накрылась. Буду в ближайшее время съезжать в другое облако.

                                                                                  Подробнее про single mode написано на форуме Скалакси.
                                                                                  • 0
                                                                                    Да, предварительно забэкапился. На случай, если система полностью накроется после fsck.
                                                                            • +6
                                                                              Как только linode.com сделает филиал в Москве, очень многие задумаются о переезде к ним.

                                                                              Хотя в свое время я сам очень уважал scalaxy: и архитектура интересная, и своя система управления — все это очень хорошо (нет идиотских ограничений и формальностей, объяснение которым лишь «так сделано в чужой системе управления, которую мы развернули у себя»), так что честь ребятам и хвала за такой подход. Но но последнее время… Такое впечатление, что тестят код, действительно, на живых клиентах (либо недостаточно тестят предварительно).
                                                                              • 0
                                                                                Про linode это просто мысль или есть информация, что они собираются в Россию?
                                                                                • +2
                                                                                  Это моя мечта. Работа с их ДЦ пока ничего, кроме удовольствия, не приносила. Но, к сожалению, информацией подобного рода не располагаю.
                                                                              • +23
                                                                                Правила сисадмина.
                                                                                1. Делай бэкапы всегда.
                                                                                2. Первым делом на новом сервере настраивай бэкап.
                                                                                3. Проверяй, что твой бэкап распаковывается и работает. Раз в месяц это делать также не помешает.
                                                                                4. Сохраняй бэкапы минимум в 2 независимых хранилища (а лучше больше — учись у Волан-де-морта)
                                                                                5. Если ты получил письмо «о плановых работах» — сразу сделай внеочередной бэкап!
                                                                                6. Разработай план на срочный переезд к другому хостеру.
                                                                                7. А лучше сразу арендуй там машину и настрой. Чтобы ждать только обновления записей в ДНС.
                                                                                8. Проверяй состояние своих серверов, хотя бы Яндекс.метрикой. Можно и смс получать, бесплатно.
                                                                                9. Не придумал.
                                                                                10. Никогда не надейся ни на кого, кроме самого себя. Всегда помни, что драть за косяки будут тебя, а не хостера.

                                                                                На всякий случай оставлю:
                                                                                Настройка небольшого сервера.
                                                                                Скрипт для бэкапа этого сервера.

                                                                                Мои рецепты далеко не идеал, но лично мне помогают. Авось кому еще пригодятся.
                                                                                • 0
                                                                                  Мда. Печально.
                                                                                  Кстати, clodo приостановили создание серверов в ДЦ оверсан-меркурий. Видимо они тоже хотят распрощаться со scalaxy :) Ну и правильно, я считаю!
                                                                                  • НЛО прилетело и опубликовало эту надпись здесь
                                                                                    • +1
                                                                                      у них похоже рейд рассыпался во время регламентных работ, судя по хронологии событий, а вот то что вообще не было резервных копий это фейл, хотя они вобщем то никогда и не заявляли что бекапы делают
                                                                                    • НЛО прилетело и опубликовало эту надпись здесь
                                                                                      • +1
                                                                                        Кому-нибудь что-нибудь сказали о компенсации?
                                                                                        • 0
                                                                                          Сказали, что вопрос о компенсациях начнут решать завтра. В настоящий момент руководство принимает решение о них.
                                                                                          • 0
                                                                                            Мне начислили месячную стоимость потерянного сервера. Нормально.
                                                                                        • 0
                                                                                          Потеря данных для облачного хостинга — абсолютно недопустимо. Был гораздо большего мнения о Скалакси.

                                                                                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                                          Самое читаемое