Компания
354,78
рейтинг
19 августа 2011 в 22:52

Разное → Сбой на Яндексе из rss

Сегодня в течение нескольких часов сервисы Яндекса были недоступны. Это произошло из-за проблемы с маршрутизацией в сети Яндекса. С работой дата-центров, DDoS-атаками, пожарами, а также любыми другими внешними факторами это никак не связано. Сейчас основные последствия проблемы устранены. Никакие пользовательские данные не потеряны.

Мы приносим извинения всем нашим пользователям.

Для тех, кому интересно, более подробное описание:

Проблема вызвана ошибкой программного обеспечения на маршрутизаторе, расположенном в нашем новом дата-центре в Амстердаме. В Яндексе используются протоколы маршрутизации – внутренний протокол OSPF и внешний протокол BGP. Из-за ошибки информация обо всех внешних маршрутах оказалась во внутренних таблицах маршрутизации. Это примерно на три порядка больше маршрутов, чем обычно. Протокол OSPF не рассчитан на такое количество. В результате у всех маршрутизаторов кончилась память, и они перестали работать. Нарушилась работа сети, и через несколько минут Яндекс стал полностью недоступен.

Внутренняя сеть тоже не работала. Поэтому нашим специалистам потребовалось потратить много времени для того, чтобы по цепочке добраться до источника проблемы.

Администраторы исправили ошибку на маршрутизаторе. После этого, чтобы снять лишнюю нагрузку с остальных маршрутизаторов, которых у нас больше сотни, нашим специалистам пришлось разделить сеть на несколько частей. Количество трафика снизилось, у маршрутизаторов появилось больше свободной памяти, и они смогли самостоятельно восстановить связность сети.

Сеть начала постепенно подниматься. Через некоторое время сервисы Яндекса стали доступны большей части пользователей.

Владимир Иванов,
делаю sh ip bgp summary

.
Автор: @rssbot RSS: clubs.ya.ru/company/replies.xm...
Яндекс
рейтинг 354,78

Комментарии (79)

  • +54
    А что вы хотели от датацентра в Амстердаме.? :)))
    • +4
      Интересно посмотреть, сколько пользователей перебегут в стан «врагов» типа Google.
      Вчера доля Google по данным StatCounter — 54%
      Сегодня — 62%.
      Это чувствительный удар по доходам Яндекса, учитывая контекстную рекламу.
      Интересно, как поведут себя акции в перспективе?
    • +1
      Да, еще и в пятницу…
  • –40
    честно? вам простительно :) люблю я вас Яндекс.

    p.s. но больше не пропадайте, а то сердечники и люди с плохими нервами %)
    • +16
      В каком смысле — простительно?

      … прогиб! защитан.
      • +32
        Глубоко лизнул…
        • +38
          Скорее наоборот. Падение такого крупного сервиса целиком (с почтой, картами, директом) это пипец как непростительно.
        • –1
          И как у вас после этих слов карма не опустилась как моя? ))))))))
          • +1
            у него годный аватар. :3
          • 0
            Да нет, подсрали.
    • 0
      Шелдон меня поймет! :(
  • +12
    А, извиняюсь, обтекаемая фраза «Проблема вызвана ошибкой программного обеспечения на маршрутизаторе» означает ошибку человека (например при неких настройках/изменениях) или же действительно абнормальное проишествие, вызванное давно настроенной аппаратурой (нечто в самой IOS).
    • +8
      Расследование продолжается, ещё не все подробности мы окончательно выяснили.
    • 0
      НОВЫЙ дата-центр как-бы намекает на первое (а кто от них застрахован?)
      • +2
        *как бы

        (я больше не буду отправлять комментарии в пятницу вечером, не перечитывая :)
        • +2
          Ничего страшного, просто отрада для глаз после повсеместного «какбэ»
          • 0
            а особенно после «кагбе» :-)
    • +2
      Бывает. Пятница, пиво греется, торопились. deny где-нибудь в route-map забыли.
  • +10
    А мне понравилась фраза в мобильных картах «Нет пробок»!
    • 0
      Ага, в пятницу вечером из Москвы в область…
  • +32
    Админ1: О, смотри какая штука. redistribute!
    Админ2: Прикольно, а давай попробуем!
    • НЛО прилетело и опубликовало эту надпись здесь
  • +4
  • +26
    Интересная новость справа: «Firefox 6.0 с защитой от Яндекса ». Как-то неоднозначно звучит :)
  • +8
    Так и знал что траблы либо с BGP либо с OSFP… Памятен сбой в результате тестов BGP от ITF
    • 0
      Занятно, мы тут тоже самое предположили
  • –14
    как-то ощущения от поста странные. как будто отписались, типа «ребята, вот вам маленькое объяснение, а мы дальше что-нибудь делать пойдем „
    • +5
      Ну народ же ждет новостей. Развернутой статьи через такое время не будет, а так — небольшой комментарий ситуации, чтобы народ не теряляся в догадках.
      • 0
        да, наверное.
        прошу прощения, просто высказал личное мнение. и никаких претензий ни к кому не высказывал, если что.
        • –1
          Слабо извинились. Если уж прогибаетесь — то до конца действуйте. -)
    • +9
      Нормальный пост: лаконичный, честный, оперативный. Вот так нужно было поступать Супу, например.
      • –2
        Ни разу не нормальный. Куча сервисов до сих пор в лежке. скорбим и валим в другие вменяемые. ну или терпим.
        • +4
          Вы определитесь: у вас претензии к тексту или всё-таки к тому, что сервисы ещё не заработали.
          • –5
            Глупо писать о том, что сервисы доступны — я уверен еще масса чего нить лежит. Поиск подняли и пошли домой пить пиво.
            • +5
              Поднимите взгляд к тексту: там написано «большей части пользователей». А про пиво так вообще ничего не написано. Удивительно, как вы умудрились что-то додумать, а потом ещё это воспринять как личное оскорбление.
            • 0
              Я думаю с их ответственностью и зарплатой они могут себе позволить отказаться в одну пятницу от пива ради сохранения своих рабочих мест.
    • +2
      Баснописцы яндекса еще не вышли из состояния шока и состояния пятницы. Позже, специально для вас, они напишут добротную повесть!
  • +28
    А сколько переключений на резервные каналы по всей стране произошло из-за отсутствия пинга ya.ru!
    • +8
      а сколько сервисов, завязанных на API Яндекса, стали работать некорректно!
    • +2
      О да! Кластер проксиков решил, что Интернета на нодах совсем нет и перекидывал всех на fallback с извинениями…
  • +1
    Новый, это который на AMS-IX? Куда Infradata отпрапортовала о поставке для Яндекса оборудования Juniper Networks?
  • –23
    Подготовка к выборам полным ходом.
    • +58
      Вас не затруднит привести все промежуточные мысли, которые позволили вам связать нашу сегодняшнюю аварию и грядущие выборы?
      • +7
        Связь между путчем 90 и падением яндекса сегодня гораздо больше, чем между яндексом и предстоящими выборами…
        • 0
          Ну как же, а Лебединое озеро?
  • –6
    Вам давно пора узнать про ibgp ebgp и никакого ospf. ospf не ваш случай.
    Тем более вы на Бутлерово (м9), присутствуете.

    • –5
      Я не в упрек админам сказал(то что они не знают что такое bgp в целом), я к тому что пора дизайн сети произвести.
      • +7
        :facepalm:
      • +6
        А вы в курсе, какая у BGP сходимость по сравнению с OSPF?
        • +1
          В курсе, что у ospf конвергенция пошустрей, но мой комментарий был направлен на то, что сеть у яндекса не маленькая, не из 30 маршрутизаторов состоит. А как сказано выше, «100-и маршрутизаторов в сторону Амстердама», подозрения есть. что не только в Амстердаме у них сеть.
          Да и еще один фактор повлиял, я был хмельной, и не совсем внимательно читал пост, в частности яндекс сделал правильные шаги.
          нашим специалистам пришлось разделить сеть на несколько частей. Количество трафика снизилось, у маршрутизаторов появилось больше свободной памяти, и они смогли самостоятельно восстановить связность сети.

          Собственно, что я и имел ввиду. Просто не точно высказался, под воздействием все того же хмеля.
          Да, и вам, не любителю сходимости bgp, вот сылка, которая помогает уменьшить сходимость.
          • НЛО прилетело и опубликовало эту надпись здесь
    • 0
      Расскажите подробнее плз. Мы тоже используем ospf для редистрибуции внутренних маршрутов с аггрегирующих коммутаторов между собой и бгп для наружки. Хочется понять риски подобной схемы и как можно улучшить.
      • 0
        выше
        Вам скорее всего не надо такого, хотя решать вам.
  • +13
    Интересно, если один амстердамский датацентр может положить весь яндекс, то может ли, например, российский датацентр гугла положить весь гугл? А если может, представляете какое оружие находится в руках государств где есть датацентры гугл? Информационные войны не за горами:)
    • 0
      Может. И такое уже не раз было. Гуглите про BGP и самые крупные аварии
      • 0
        С правильно настроенными полиси на роутерах — не может.
  • +4
    Смотрю за окно — вижу салют… сидим с верстальщиком и думаем а не По этому ли поводу салют забацали… =)))
  • 0
    Падение такого сервиса на такое время — просто нереальный фейл. Хочется верить что проблема будет поводом для устранения самой возможности ее повторения в будущем. У нас с нашим менталитетом все так, а работает кое-как и хрен с ним, упало, подняли — ну так чего вы материтесь? работает же?

    Для команды Яндекса: Спокойной ночи, надеюсь вы сегодня спать будете все таки уляжетесь )))
  • +26
    Картинка старая, но актуальность свежая :)

    cisco redistribute rip bgp clipper
  • +1
    Администраторам — мои сочувствия по поводу пятницы :)
  • –3
    Вы там уже спите???? Почините свою сра%ую платежную систему! Не дает производить платеж и магазинов. до сих пор. эпик фейл
  • 0
    На данный момент платежи яндекс-денег не проходят. Конкретнее — не могу пополнить баланс мобильников (оба МТС).
  • +1
    У Яндекса корова сдохла [X]
  • +2
    И все же, «кто бросил валенок на пульт»? :)
  • +25
    ))) image
    • –1
      чего не спится то? )
  • –1
    >Протокол OSPF не рассчитан на такое количество.
    Глупость. Это маршрутизаторы у кого-то не имеют достаточного кол-ва памяти.

    Ошибка с кривым инжектом BGP->OSPF — типично.
    • +1
      Просто OSPF предполагает применение там, где не нужно такие масштабные таблицы маршрутизации, соответственно и маршрутизаторы под задачи выбираются, тут скорее больше какие-нибудь L3 свичи, которые молотят трафик с жуткой скоростью, но табличка маловата у них. В глобальной таблице 360к+ маршрутов, прилично весьма )

      А вот о такой ошибке можно было бы и заранее побеспокоиться, чтобы вся сеть не падала от одной команды на единственном маршрутизаторе.

      Хотя все крупные такие bgp аварии только и случались, что из-за человеческой неосторожности )
      • НЛО прилетело и опубликовало эту надпись здесь
  • –1
    Вместе с яндексом отвалился и рамблер
    image
  • 0
    Вчера всё никак не мог объяснить родителям, почему Интернет не работает. Ну вот как? Стартовая страница не открывается. Почта не работает (ПДД). Интернет-магазин подвисает (yandex.st, метрика).

    На вопрос — а ссылка в избранных на другой сайт — это тоже Яндекс — с облегчением ответил, что нет и она работает))
    • 0
      Продвинутые у вас родители, обычно то интернет «перестает работать», когда отваливаются вконтакте или одноклассники )))
  • +6
    на яндексе был сбой?
    • +2
      Да Вы счастливый человек!
  • +6
    А говорят, что самые разрушительные сбои бывают по понедельникам, когда админы выходят на работу отдохнувшие, с новыми идеями.
    И без подстраховки сразу начинают их претворять в жизнь.

    Ждём-с…
    Кто-то выйдет в понедельник и...: "Ребята! Я знаю, как сделать, чтобы такого больше небыло! ..."
    И опять…
  • +1
    Странно, что в такой крупной конторе дизайн сети и конфигурация маршрутизаторов допускает такой хаос, ведь наверняка можно было бы минимизировать последствия от такой ошибки.
    • +1
      А с чего Вы взяли, что они не минимизированы? Или Вы считаете, что как только Яндекс упал, все пошли довольные пиво пить, выходные же! Так? Балдею просто от хомячков, которые пытаются распространять свои глупые и ничем не аргументированные мысли наружу. Как «популярные» СМИшные сайты, которые стали писать про «пожары в Яндексе» и «взрывы в дата-центрах».
      • 0
        Полное падение всех сервисов это называется минимизированы? Никто не говорит о бездействии спецов яндекса, просто такой момент, что при неисправности/зависании/флуде одной железки должен падать только сегмент в котором она находится, а не вся сеть. Взять за основу тот-же глобальный BGP, там есть координационные центры на основе информации с которых строятся фильтры у всех операторов. Даже если я начну анонсировать сетку гугла, то мой магистрал этот анонс порежет и гугл из-за этого не отключится.
        Надо полагать в яндексе после такого происшествия систему фильтров тоже внедрят )

        И да, балдею от таких псевдоспециалистов-фанатиков, которые навешивают ярлыки основываясь на ничем не подкрепленных выводах )))

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разное