Что же случилось в Селектел?

Получил тикет несколько минут назад:
Здравствуйте,

Из-за высоких темпов роста услуги «Вычислительные ресурсы облака» был достигнут предел масштабируемости существующей архитектуры, поэтому необходима ее модификация и развертывание новой платформы. Чтобы не создавать текущим и новым пользователям дискомфорта при работе с услугой, было принято решение приостановить создание новых облачных серверов.

Для новых клиентов создание облачных серверов будет приостановлено с 14 октября с 19-00, для существующих с 01 ноября.

Призываю тов. amarao и других сотрудников Селектел, расскажите Хабру, что случилось? Во что упёрлись?
14 октября 2011 в 19:22
1
bondbig –1,8

отсортировано по дате по оценке
ответы (5)

+11
amarao #
Пока ещё не всем клиентам решили проблемы с fsck (иногда бывает так, что система не может сама себе fsck сделать, мы это пока что руками решаем). Как закончу — поеду домой отсыпаться/приходить в себя.

В понедельник напишем развёрнуто.

Прошу прощения у всех пострадавших.
fsck died with status? не xfs? Как решали? rasa, 15 октября 2011 в 15:12
0
bsboris #
Не знаю, что именно там случилось, но у меня машина уже полтора часа не подает признаков жизни, а в кабинете висит плашка «На одном из хранилищ произошёл сбой. Пострадавшие машины перезапускаются. Приносим извинения за неудобства.» Это печально. До этого не было вообще никаких проблем с Селектелом=(
Тоже хотелось бы услышать комментарии от официальных лиц, в частности насчет устранения неполадок.
Сроки назвать не могу, но нас «подловили» за несколько недель до перевода кластерной системы из тестинга в продакт. Соответственно, когда запустимся, будет кластеризованное хранилище. amarao, 14 октября 2011 в 23:28
Бог в помощь. Вообще в августе лично у меня вышло из строя 11 винтов на 7 серваках в разных дц, и 1 на личном ноуте. Это был ад. Я уже ничему не удивлялся. Спасала только избыточность и бекапы. pentarh, 15 октября 2011 в 11:02
0
easy_john #
В видео вопроса менее удобно, другим заинтересованным не подписаться на комменты.
Верни топик, тема актуальная, и там и там обсудим. Я просто подумал, что топик — перебор, для Q&A больше подходит. bondbig, 14 октября 2011 в 19:39
ну вот, вернул. easy_john, 14 октября 2011 в 19:46
0
bigdogsru #
Хотелось бы комментариев от Селектела, да :-( Второй серьезный сбой за два дня… вчерашний для одной из двух моих машинок закончился сбоем в файловой системе и невозможностью загрузить машину, общий простой — почти четыре часа :-(
Сегодня намного быстрее все починилось, и сейчас все работает, но иногда бывают «затыки» при записи в дисковый кэш — на конкретную папку выдается вдруг read only…
Что самое обидное — на пострадавшей машине у меня основной сайт. Лучше б вторая лежала, с клиентской мелочевкой :-(
Я себя ощущаю мудаком. Но оно дважды упало. С разными трейсами. Извините. amarao, 14 октября 2011 в 21:12
0
Disasm #
Видимо в производительность хранилищ упёрлись, раз они сбойнули.
Да, логично. bondbig, 14 октября 2011 в 20:14
Нас подставило хранилище с полугодовым аптаймом и загрузкой около 70%. Проблемы с производительностью до клиентов пока не дошли, мы остановили приём машин раньше. amarao, 14 октября 2011 в 21:15

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.