Пользователь
0,0
рейтинг
19 июля 2012 в 15:59

Разработка → Так что же случилось со Сбербанком? из песочницы

Вместо эпиграфа:
Пускай слыву я старовером,
Мне всё равно, я даже рад.
Пишу я Гоблина размером,
Пою, друзья, на старый лад
(почти М. Ю. Лермонтов)

Итак,

— Что же произошло с процессингом Сбербанка?
— Произошла ошибка СУБД Oracle, приведшая к остановке экземпляра.

— Что за странные вещи написал вице-президент банка? Какое ещё удаление событий из журналов?
— Обратите внимание, комментарий написан далеко заполночь, и не на специализированном ресурсе типа sql.ru, и не администратором Oracle, а вице-президентом. Странно в такой ситуации ожидать глубокого технического описания. Тем не менее, описание достаточно точное. Чуть ниже будут технические подробности — попробуйте сформулировать «для простого народа» понятнее, чем это получилось у Орловского.

— Ну, давай уже технические подробности!
— Журнал повторного выполнения Oracle реализован в виде кольцевого буфера. В «голову» процесс LGWR пишет новые изменения в БД, а «хвост» подчищается процессом CKPT по мере того, как изменения, записанные в «хвосте» будут записаны процессами DBWn в файлы данных. «Голова» — это текущий (current) файл журнала, хвост — активные (active) файлы. Подчистка хвоста заключается в том, что журналы помечаются как пригодные к повторному использованию (inactive). Проблема состояла в том, что «подчистка» прекратилась, т.е. все файлы оперативного журнала стали активными, и экземпляру БД стало некуда записывать новые изменения.

— И что, у такой важной базы нет работоспособного резервного узла?
— Есть, но в данном случае он оказался бесполезен, т.к. все ошибки отреплицировались на резервный узел байт-в-байт. В таких случаях низкоуровневая копия (репликация на уровне СХД или standby-база) бесполезны, помочь может только прикладная репликация. Производительности IBM InfoSphere CDC for Oracle Replication не хватило, чтобы реплицировать такую базу. GoldenGate на ней пока не тестировали. Самым правильным был бы вариант, когда приложение само пишет данные в несколько баз одновременно, но много ли вы знаете приложений, способных на это?

— А почему у Сбербанка нет контракта на поддержку с Oracle?
— Контракт есть. То ли premium, то ли platinum, то ли что-то такое, круче чего только Эверест в безлунную ночь. Собственно, специалисты Oracle помогали решать проблему. Поверьте, три часа для восстановления сервиса при такой аварии — не так уж много.

— Как же так — такая база и без RAC!
— RAC — вовсе не панацея. Например, компания ЦФТ, один из ведущих производителей банковского ПО в России, адаптировала свои приложения для Exadata. При этом официально заявляется, что предыдущие версии ПО на Exadata работать не будут, т. е. ПО требует существенных доработок даже для лучшей реализации RAC, не говоря о «наколенных» сборках. ПО Way4 для RAC пока не адаптировано, хотя работы идут. И скорость этих работ зависит не только от Сбербанка.

— Наймите, наконец, нормальных администраторов!
— Администраторы в Сбербанке хорошие. Но они, увы, не волшебники.

— А вот в PostgreSQL можно было бы исправить все баги самому, не дожидаясь милости от поставщика!
— Не поверите, но настройка производительности БД, резервное копирование, сайзинг оборудования и т. д. — это совсем иной набор навыков и компетенций, чем написание достаточно низкоуровневого кода. Поэтому даже Postgres приобретается большими компаниями в виде EnterpriseDB или GreenPlum.

— На металинке давно можно найти решение любой проблемы!
— Вы никогда не обращали внимания, что описание проблемы сопровождается подробным описанием конфигурации оборудования, версии, ОС… инсталляция Oracle, используемая в процессинге Сбербанка, по-своему уникальна: серверов IBM P795 в полной конфигурации в мире не так много. Поэтому патча может и не быть. Сам сервер был выпущен только в октябре 2010 года, поэтому период «детских болезней» ещё не прошёл. Так что весьма вероятно (и есть ряд косвенных признаков, указывающих на это), что ошибка не в Oracle, а в AIX.

— Ну, заведите SR, и вам тут же выпустят патч!
— Посмотрите на том же металинке историю патчей. Когда проблема выявлена, когда подтверждена, когда решена. В 24 часа это не укладывается никогда.

— Но почему же в других банках ничего не падает!
Во-первых, в других банках вместе взятых карт почти столько же, сколько в одном Сбербанке. Поэтому процессинговые системы работают с меньшей нагрузкой на более простом оборудовании. А во-вторых, буквально на следующий день после обсуждаемого сбоя мой коллега весь день не мог совершить ни одной операции по карте банка «А...». Но кому это интересно?

— Да у Сбербанка банкоматы работают под Windows, о какой надёжности тут вообще можно говорить?
Банкоматы к процессингу не имеют вообще никакого отношения. Управление банкоматами и POS-терминалами в Сбербанке возложено на другую систему. Которая, кстати, во время пятничного сбоя продолжала работать, позволяя креативному классу отовариваться айфонами в бутиках по картам других банков. Ну, и в других банках банкоматы, очевидно, работают под управлением совсем других операционных систем. Да и сами банкоматы производятся на других заводах. Очевидно, эльфами :)

— Как-то подозрительно быстро у Сбербанка обнаружилась площадка для обсуждения причин аварии!
— Сбербанк старается следить за модными тенденциями. Сегодня «краудсорсинг», «социальные сети» и прочий «вебдваноль» для имиджа банка не менее важны, чем надёжная работа основных систем. Отсюда и готовая площадка для обсуждения.

— Видать совсем не осталось специалистов, раз обратились к «коллективному разуму». Да и кто заплатит «коллективному разуму» за решение проблемы?
— Насколько я понимаю, цель другая: специалист, увидев логи, поймёт, что имеет место действительно серьёзная проблема. Неспециалист, получив возможность высказаться, польёт Сбербанк помоями — да ради б~га, «собака лает — караван идёт». Ну, и беспокоиться о том, что в открытый доступ попадёт больше информации, чем можно, не надо. Вся информация проверяется.
@hard_sign
карма
62,0
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (126)

  • +121
    Мне нравится такой стиль изложения — «Вопрос-Ответ». Лаконично и по делу. Я не клиент Сбербанка, но прочел с удовольствием.
  • +25
    Со Сбербанком уже давно «что-то случилось». Мне кажется или фраза «собака лает — караван идёт» у них применяется повсеместно (обслуживание и его качество, техническая сторона и т.д.)?
    • +20
      Кажется. Но к предложениям типа «найти себе нормальных немытых администраторов» или «перевести процессинг на PostgreSQL» применялось и будет применяться.
      • –6
        А вот мне кажется такая категоричность и сам факт использования такой фразы очень хорошо объясняет в миниатюре почему у нас никогда не будет достойного сервиса в крупных масштабах.
      • +7
        Я думаю, что 99.9% клиентов в общем-то не интересуются, насколько серьёзные у Сбера проблемы. Они поставлены перед фактом — их карты не работают. От Сбера ожидают (как ни странно) всего-то вменяемое качество услуг. А количество обслуживаемых карт, версия оракла, отзывы специалистов или неспециалистов — это всё вторично.
        • +8
          Согласен. Но 99.99% клиентов не высказывают в интернетах «компетентного мнения», а этот пост — ответ оставшимся 0.01%
        • +3
          Большинству клиентов они этого и не говорят, ну а на Хабре подобная информация — логична.
        • +19
          >насколько серьёзные у Сбера проблемы

          у российских банков в целом и у сбера в частности единственная реальная проблема — им насрать на клиентов. Сами по себе технические сбои меня как клиента не так волнуют, идеально безотказных систем не бывает. Гораздо сильнее меня напрягают ситуации, когда после очередного сбоя приходится ехать в офис и лично писать заявление, чтобы тебе вернули твои же законные деньги или прекратили считать врагом народа злостным должником
    • +30
      Зарегистрировался на http://www.sbrf.ru/moscow/ru/yammer/ почитал, получил ответы от hard_sign и пришел к такому выводу:

      1) База застопорилась, но не упала!
      2) Сессии продолжали висеть с ожиданием «checkpoint incomplete»
      3) Вместо того, чтобы добавить еще логов и произвести корректное отключение
      проблемного экземпляра, выполнили shutdown abort — команду,
      которую oracle рекомендует выполнять в последнюю очередь.
      4) "(репликация на уровне СХД или standby-база) бесполезны" — вранье, по причине того,
      что стэндбай не работал, потому как «log_archive_dest_state_2=DEFER»
      Полагаю по этой причине и не переключались на резерв, оправдывая это какой-то глупостью.

      Эта статья — сплошное попоприкрывательство.
      • +2
        Решение, предложенное вами в комментариях ниже — интересное. Пусть будут посрамлены противники краудсорсинга.

        Standby действительно нет, репликация осуществляется средствами СХД. Помог бы standby или нет — сейчас наверняка не скажешь. Мне кажется, не помог бы.
        • +18
          1) репликация осуществляется средствами СХД
          Вот уж точно чего нельзя делать.
          Причина_1: «ошибки отреплицировались на резервный узел байт-в-байт», то есть лишили себя всякого контроля целостности. По той же причине оракл рекомендует делать бэкап с помощью rman, а не с помощью костылей.
          Причина_2: вы лишаетесь мгновенного переключения на рабочий инстанс, и прочих плюх, которые предлагает Active DataGuard.
          2) Мне кажется, не помог бы.
          Главное что? Простой базы! Это чистые деньги не считая репутации.
          Вы могли переключиться в рамках 10 минут. Это ли не помощь?
          ________________________________________________________________________________________
          Но! настройка репликации БД с помощью СХД, это самый легкий путь.
          Несколько кликов мышки.
          Отсюда вывод: делали как проще, а не так как лучше.
          Или не знали как лучше, что еще хуже.
        • +5
          >>Мне кажется, не помог бы.

          Это очень легко проверить, при использовании ADG.

          1) Останавливаем накат логов на стэндбай
          2) Переводим стэндбай в снэпшот-стендбай
          3) Проверяем
          4) Работает?
          5) Возвращаем стэнд бай в актуальное состояние
          6) Производим переключение на стэндбай
          7)?????
          8) Profit
        • +2
          стендбай как раз более живучий вариант, особенно если он не в режиме наката редологов, а катится только архивами.

          А так как в данном случае редологи застряли, то переключившись на стендбай можно было либо поднимать его с потерей редологов (если бы они были повреждены… вдруг), либо подкинуть их стендбаю и докатиться с них до актуального состояния.
      • 0
        Вы уверены что в базе, зависшей на ожидании checkpoint incomplete можно будет добавить redo-группу? по сути это как минимум модификация словаря — соответственно та же запись в redo, а писать то некуда…
        • 0
          Если мне не изменяет память, то я с таким сталкивался на одном из региональных серверов.
          Завтра на работе проверю.
          • 0
            тоже загорелся. и тоже только завтра проверю…
            • 0
              эм. немного двусмысленно — я не имею в виду, что Ваш вариант безжизненный, просто решение отложил к себе в копилку, начал проматывать — и чето как на второй взгляд не стыкуется.
          • +1
            у Вас что нить получилось? :) чето у меня фантазия кончилась, как его на тесте загнуть в требуемое положение — живучий зараза.
            • 0
              Нагрузил СХД с помощью dd в 10 потоков.
              С помощью скрипта, начал грузить данные так, чтобы у них был всегда
              log file switch (checkpoint incomplete) и log file switch (checkpoint incomplete).
              Со скрипом, но логи добавляются.
              Надо подумать как сделать так, чтобы вообще ничего не писалось наверное.
              Хотя с другой стороны, у них тоже потихоньку запись была если не ошибаюсь.
              • +1
                угу, ну и у меня теже результаты. скорее всего сбербанку добавить redo группу было бы очень проблематично.
                после падения мельком видел новость, что у сбера не получилось сымитировать сбой, может мы похожие тесты пытаемся прогнать? :)
                а что было у них — хз. мое ощущение — расслабились :))
            • 0
              Вот еще что сделал.
              Уменьшил db_recovery_dest_size, забил его до конца.
              В результате все операции в базе встали намертво с ожиданием log file switch (archiving needed).
              Добавляю еще лог, и база оживает. Затем опять заморозка, потому как некуда писать.
              Опять добавлением логов лечится.
              • +1
                ну это из совсем другой оперы. с местом (судя по выложенному alert) у них проблем не было.
                • 0
                  Ну это понятно, что из другой. Но все же любая операция в базе, которая требует некоторой redo информации блокируется, но логи продолжают добавляться.
                  Вероятно и у них бы получилось.
                  А воспроизвести это самое непростое, но и самое необходимое для них сейчас. )
      • +1
        Отличный анализ.
        Я бы попытался поменять fast_start_mttr_target — этим можно значительно повысить активность dbwr.
        Ну и ручной alter system checkpoint.
        Вообще не понятно такое снижение производительности dbwr без снижения скорости lgwr.
    • +13
      Да ладно вам, не надо все смешивать, с приходом грефа банк сильно меняется в лучшую сторону.

      Фирменный стиль стал лучше. Офисы перестраивают — ставят электронные очереди, консультантов, автоматы для приема платежей, вешают кондишники и ставят кулеры с водой.

      Я на днях заехал в сбербанк у дома родителей, так незнал отделение — все светло-прозрачное, кондишники, кулеры, нет очередей, все вежливые. Так это окраина и совсем не Москвы.
      • –10
        трололо, лучше б они ЗП поднимали простым клеркам, а не увлекались коррупционными связями с местными администрациями, и не прикрывались ребрендингом. Для того чтобы поувольнять неугодных и понаставить больше банкоматов и терминалов думаю необязательно перестраивать офисы
      • +2
        вы посмотрите какие там комиссии стали за операции со счетом ( особенно обналичивание ). Видимо не хватает оплатить специалистов Oracle?
      • +2
        За их электронные очереди, не один клиент хочет вбить им в голову пару гвоздей, я один из них. Как минимум дважды попадал, что брал талон, сидел ждал и видел, как люди пришедшие позже, начинали проходить, брал для проверки второй талон, который по очереди прошел раньше первого, первый вообще не прошел… висяк. Со слов моего окружения не один я такой везучий. Учитывая их медленную работу и хамское отношение к клиенту, данные проблемы усиливают в разы негатив которые получаешь каждый раз посещая отделения сбербанка.
        • 0
          Я так же попал. Теперь просто беру 4-5 талонов подряд, и довольный сажусь на диван книжку читать. Один талон запросто может пропасть, а вот 5 подряд — вряд ли. Особенно весело потом на лицо операционстки смотреть, когда ей ворох талонов даешь.
          • 0
            Ну по сравнению с тем что было у втб в момент введения электронной очереди — в сбере еще все терпимо.
            Я тогда был несколько опечален когда среднее время ожидания в очереди вместо 15 минут стало 40(!). Ну и зависающие талончики были, куда же без них :)
        • 0
          Да, еще хочу отметить, что электронная очередь ЗАМЕДЛЯЕТ общее продвижение за счет увеличения интервалов времени между обслуживанием клиентов. Да, общая умиротворенность увеличивается — сидишь спокойно на диванчике и ждешь свою очередь, но в сумме тратится больше времени. Лайфхак тут такой — сидишь и смотришь внимательно, когда в ответ на новый номерок никто не подскакивает — это знак. Подскакиваешь ты и идешь к окну, как будто так и надо. Этот номерок брал человек, который ушел или прощелкал свое время, поэтому для ускорения продвижения очереди нужно использовать этот таймслот.
  • +4
    Не нашёл ссылки, где можно полить помоями логи.
  • +7
    Прочитаешь и слёзы умиления наворачиваются. По факту же — этот факап один из… Просто довольно длительный. Лучше доказывайте делом, а не снобскими комментариями.
    • +13
      Хоть какие-то комментарии — уже хорошо. Да и комментарии довольно грамотные, так что не надо так категорично.

      Я являюсь клиентом Сбера довольно давно (раньше — не было выбора), и в последнее время замечаю изменения только в лучшую сторону. Как и в плане обслуживания клиентов, тарифов, так и в плане онлайн-сервиса. Пусть есть проколы, но есть и реакция на них, хотя бы ответы.
      Посмотрите на ту же Почту России — куча критики, и ноль эмоций с их стороны.

      зы: это чисто моё субъективное мнение.
      • +8
        Я плотно работаю что со Сбербанком, что с Почтой России и вынужден согласиться что вы правы. Обе конторы большие и монстроподобные, но если Сбер как-то шевелится и понемножку-помаленьку улучшает наследие прошлого, то ПР становится только хуже и хуже (хотя вроде бы уже дальше и некуда).
        • +1
          у меня пока не было случаев украденных или испорченных посылок, так что «хуже есть куда», и надеюсь, что все-таки не будет :)
          • 0
            Я отправляю посылки от 100 штук в месяц и на работу Почты насмотрелся предостаточно. Бывают и потерянные отправления, и «адресат не забрал посылку» (хотя человек ходил на почту и искал по трекинг-коду) и вскрытые. Был недавно случай когда на двух посылках перепутали ШПИ (этикетка со штрих-кодом), так одна из этих посылок три раза пропутешествовала от Москвы до Сахалина и обратно, прежде чем ее какой-то зоркий оператор наконец отдал получателю. По-моему хуже уже не стоит работать.
          • 0
            Да вот только через весь мир посылка идет 4 дня, а по России месяц.
            • +2
              Весь мир, в котором посылка идет 4 дня, уже давно ездит в поездах на скорости 300 км/час. Почта России со своей скоростью доставки во многом заложник скорости транспортного уровня. Вот если я закажу самым супер-пупер быстрым федексом доставить посылку в самый центр России — не уверен, что меньше, чем за 4 дня управятся.
              • 0
                Есть примеры, когда невозможно винить один транспорт. Вот, например, подмосковный город Мытищи непосредственно граничит с Москвой, дороги что в Москве, что в Московской области есть, тем не менее, контрольный срок пересылки писем между ними — два дня, не считая дня приема, и тот не всегда выдерживается. Более того, и контрольный срок пересылки EMS (буква E должна обозначать «express») — тоже два дня, не считая дня приема, и тоже не всегда выдерживается.
              • +2
                Да она может от центра сортировки в моем городе до моего почтового отделения неделю добираться. Тут скоростной поезд не виноват.
                • 0
                  Ну тут уже только суд, показательная порка и три года расстрела виновных.
  • 0
    Про падение процессинга у «А...» — не слышал. У одного знакомого друга моей подруги было, но это же не у всех карт банка?

    Пост читать интересно. Но выглядит он как набор «отмазок».
  • 0
    >>т.е. все файлы оперативного журнала стали активными, и экземпляру БД стало некуда записывать новые изменения.
    >>т.к. все ошибки отреплицировались на резервный узел байт-в-байт.

    Странно, сессии должны были получить wait.
    Проблема на время вероятно должна была решиться добавлением логов,
    а там можно переключаться на резерв.
    И на «праймари» продолжить изучать проблему.
    А вообще, маловато технической информации, и похоже на попытку поднять рейтинг банка.
    • 0
      В данном случае решать проблему добавления логов — всё равно, что решать проблему пробки, возникшей из-за поваленного дерева, расширением дороги. «Пусть хоть больше машин в эту пробку встанет».
      Да, все сессии получили wait. То есть экземпляр не обрушился, но и не работал.
      • +7
        Незнаю, незнаю.
        Я бы добавил логов, заморозил базу, и переключился бы на стэндбай.
        Если вы грешите на ошибки аикса в плане ввода вывода, то ситуация бы не повторилась
        на резервном сервере.
        Простой 10 минут. И куча времени для изучения в спокойной обстановке.
        • +8
          И это уж точно лучше, чем класть базу через shutdown abort.
  • +4
    >Проблема состояла в том, что «подчистка» прекратилась
    Возможные варианты(из моего давнего опыта работы, может кто поправит):
    — Увеличилось кол-во операций с бд — быстро выросли логи и не успели «зачистить»
    — Где-то в системе переключения логов произошел сбой(закончилось место куда сливать, по архивирования поймало клина, пр.)
    — Наш любимый человеческий фактор

    Хочется спросить: а где мониторинг всего этого хозяйства?
    В ростелекоме для этого специальные отделы есть, которые неусыпно глядят на огромные мониторы «а-ля ЦУП» в ожидании ошибок и предупреждений!
    • +2
      При подъёме выяснилось, что файлы обновлялись и DBWn работали нормально. Но вот журналы из active в inactive не переходили. Архивирование клина не ловило. Есть подозрение на ошибку синхронизации на уровне ОС AIX, но это всего лишь одно из многочисленных предположений.

      Мониторинг есть, меры начали принимать, как только увидели первый checkpoint not complete. Но не успели.
    • 0
      Мониторить хорошо, но это не ответит на главный вопрос, почему произошла ошибка. Оракл не продукт, собранный на детских коленках, а сложная система. Все может идти хорошо месяцами, до одного прекрасного момента, когда жуткое стечение обстоятельств приведет к сбою. Оракл очень не любит, когда часто перекомпилируются пакеты в процессе его работы или повышенной нагрузки. Останавливать процессинг ради такого никто не хотел, потери от простоя могут исчисляться сотнями миллионов, поэтому, скорее всего, обновления делались «на живую».
  • 0
    При подъёме выяснилось

    Подъем инстанса, логов?
    • 0
      Подъём инстанса. Командой startup :)
      Около 80% блоков, требующих восстановления, были восстановлены за 5 минут.
      • +3
        А далее?
      • +2
        Инстанс клали, или он сам упал?
  • +15
    Интересно было почитать, хотя в оракле — полный ноль :)
  • +8
    Непонятно, что это за текст. Кто спрашивал, кто отвечал? Почему такие дерзкие, агрессивные вопросы? Да и ответы слишком уж разбавлены шутками-прибаутками.
    Для СБ это, безусловно, шаг вперёд в рекламе. Но хабр, вроде бы позиционируется, как более серьёзный ресурс.
    • 0
      это не интервью, а метафора. возможно даже притча :)
    • +6
      «дерзкие, агрессивные вопросы» практически дословно взяты вот отсюда:
      habrahabr.ru/post/147813/
    • 0
      набор возможных вопросов и ответы на них.
  • +5
    прочий «вебдваноль» для имиджа банка не менее важны, чем надёжная работа основных систем.

    Менее. Хоть ёлкой новогодней вырядись, но основные системы обязаны работать.
  • +4
    Автор пересидел на oper.ru?
    • +2
      Стал замечать достаточно взрослых людей, которые на полном серьезе вворачивают в свою речь Гоблиновские фразы и что более печально, разделяют его взгляд на жизнь.

      Еще могу понять, когда это делают люди до 20 лет, но и своей-то головой нужно когда-то начать думать.
  • –12
    Простите, не удержался…

    — Так что же случилось со Сбербанком?
    — Он утанул (с)
    • +12
      проверочное слово «Титаник»?
  • +2
    По работе столкнулся с одним из протоколов, который они используют для взаимодействия с другими организациями. Асинхронный протокол без идентификатора запроса — это очень хорошо говорит об уровне разработчиков Сбербанка. :(
  • 0
    Должен признать, что после такого поста мое уважение к СБ заметно повысилось.

    Если его еще не роняли сами сотрудники СБ в сберкассах, очереди в них же — и вообще, то, что отличает СБ от «сферического банка в вакууме».

    В любом случае, за стиль изложения спасибо — как раз то, что на таком ресурсе, как этот, и необходимо.
    • +2
      Ещё очень сильно отличает совершенно невнятное время работы, вроде «отдыхаем в четверг и субботу, днём обед, и всё до 19, причём банкомат внутри» =)
  • +1
    Сбербанк сделали таки в банкоматах баланс на экран!
    • 0
      Но убрали дату образования задолженности по кредиту. Вообще.
  • +4
    > А во-вторых, буквально на следующий день после обсуждаемого сбоя мой коллега весь день не мог совершить ни одной операции по карте банка «А...».

    грязные банкирские удары ниже пояса, вау.
    • +3
      Коллега того кто это написал -> сотрудник сбербанка -> cотрудник сбера, зная компанию изнутри, предпочитает использовать другой банк.

      Сильный удар ниже пояса :D
      • 0
        Просто ответ придуманный. Ничего необычного.
      • +2
        Я тоже знаю несколько банков изнутри и всегда после знакомства возникало желание самому ими не пользоваться. Особенно после того, как узнаешь несколько историй про то, как «бизнес» откровенно накосячивший с чьим-нибудь вкладом\кредитом начинает чесаться только после скандала самого клиента заподозрившим неладное. Или после того, как увидишь что коллега программист, откровенно некомпетентный, что-то там правит в операции выдачи кредита и т.п. Да, после этого страшно пользоваться услугами и кажется, что у других все не так устроено, но боюсь это проблема большинства банков, а не именно Сбера.
        • 0
          Тут можно сказать «человек, знакомый с производством колбасы, никогда не будет ее есть». Поэтому я не хочу знать, как делают колбасу :)

          Да, в большинстве банков, включая крупнейшие, IT часть хромает на обе ноги. Тем не менее, в общем и целом они работают, и шанс потерять деньги на самом деле мизерный.
        • 0
          Пусть правят. Все юридически значимые параметры того же кредита обозначены в бумажном договоре. Даже если они что-то накосячат в свою сторону — у вас есть подписанный обеими сторонами договор. Накосячат в вашу — вам печенька. У меня так было в одном из банков — в системе неправильно исправили процентные ставки, в результате чего в договоре было указано на 0.5% меньше. Подписали, стал платить. Когда выяснилось — было поздно, договор подписан, ставки зафиксированы. Ничего не смогли сделать, хоть и грозили недостачами, долгами, процентами и пенями.
  • НЛО прилетело и опубликовало эту надпись здесь
    • +8
      Кинули в сбере… Комиссию взяли за перевод? Операционист-лизбиянка? Мне продолжать делать предположения или все же вы расскажите?
      • +15
        Меня, например, «кинули» так… Привязали мой мобильный банкинг (и онлайн банк, в придачу) к чужому номеру телефона (причем, находящийся в другом городе)… Я, естественно, не получал никаких уведомлений на телефон и подумал, что просто забыли привязать (опция мобильного банкинга указывается в анкете на получение карты). Привязал сам, вручную, в банкомате… Причем, все привязалось! Т.е. привязка работала на оба (sic!) номера! Я, естественно, даже и не подозревал о том, что все мои отчеты о транзакциях помимо моего номера параллельно уходят и на чужой номер, вместе с личными данными и т.д. Так бы и жил в неведении, если бы человек с другого номера не оказался порядочным и не сообщил мне об этом… Причем, номер мой (чтобы сообщить) он не мог узнать ровно до тех пор, пока я не осуществил пополнение баланса телефона через мобильный банкинг по смс… Отчет вместе с моим номером пришел и ему. Это я еще молчу о том сколько я потратил времени и нервов делая звонки и бегая по отделениям сбера для решения проблемы, а так же, сколько неудобств было доставлено и этому человеку.

        Так оно и есть

      • НЛО прилетело и опубликовало эту надпись здесь
        • 0
          Вам хоть пересчитали, мне предложили купить билет за ~40к рублей в одну сторону при ожидаемой компенсации порядка 10к.
        • +1
          вы про вклады до 89-го года? У вас был давний вклад… вам было 20 лет… и у вас был давний вклад… интересно…
          Этак всех кинули в 89, и как вы верно заметили кинуло государство, и процент там был не рандомный. Я вам больше скажу, в 89 Россия кинула всех. По ГКО заплатили 1%. Вам выплатили менее 1%?
          И речь не о том, что вас кинули, а о том, что звучит это как «петя козел» или «жизнь говно, и жать я вам не советую», без контекста это можно произнести только в шутку и только в кругу друзей.
          • 0
            98 конечно.
      • 0
        Отказались дополнительно компенсировать вклад в 7000 рублей СССР, обуславливая это тем, что я не помню ни номера, ни отделения (на Камчатке не устроило), ни года открытия (конец 70-х-начало 80-х не устроило) счёта моего деда, который я унаследовал. Сказали ехать на Камчатку. Совет обратиться за компенсацией, кстати, на Хабре дала их сотрудница, если мне память не изменяет, со ссылкой на закон и позже нашёл на сайте Сбера что-то вроде регламента работы по таким обращениям.

        Пойдёт за «кидалово»?
  • +2
    >инсталляция Oracle, используемая в процессинге Сбербанка, по-своему уникальна
    Мало того, она еще и не оттестирована в такой конфигурации.

    Мне кажется, что уперлись всё-таки I/O. Косвенно это подтверждается тем, что при первой выкатке на последнем REDO-логе всё вновь встало. При отключении многопоточности же выкатилось как по маслу.
    Так же на это указывает то, что, насколько мне известно, на запасном сервере с меньшим количеством камней проблема не воспроизводится.
    • 0
      На это еще указывает то, что судя по логам время отклика КХД в это время ухудшалось в десятки и сотни раз.
  • 0
    Во-первых, в других банках вместе взятых карт почти столько же, сколько в одном Сбербанке. Поэтому процессинговые системы работают с меньшей нагрузкой на более простом оборудовании.

    Боюсь, что тут вы ошибаетесь — у некоторых банков несколько стран на одном оборудовании процессится. И карт там больше, чем у Сбера будет.
    • 0
      Заметил, что когда _сотрудникам_ сбера, начинаешь выкатывать притензии по работе со счетами, картами или переводами, любимейшая их отмаза как раз такая: «Ну, а что вы хотите у нас столько отделений, столько клиентов, мы такие большие и пухлые.»

      То что Citibank или BSG врядли меньше сбера, это конечно же не аргумент.
      • 0
        Кстати, да! Я когда разбирался с ними насчет привязки моей карты к чужому номеру телефона и узнавал почему у них нет элементарной проверки принадлежности привязываемого номера владельцу карты, отмазки были примерно такими же, типа, вы представляете сколько у нас таких как вы каждый день и это нереально каждого проверять…
  • 0
    Где связь между P795 в полной набивке и версией AIX? Точней зачем вообще указывается, что используются серверы в полной набивке (и да, есть конечно и такие, но не все), и неужели была поставлен AIX 7 с последним TL'ом (да, это безусловно хорошо), но неужели Сбербанк не стал ставить версию AIX'а «проверенную временем»?

    Может быть количество карт, выпущенных сбером > чем суммарно выпущено остальными банками, но это совершенно не означает, что у них не используются те же самые P795. Пусть даже и с меньшей нагрузкой, но это не отменяет вероятности возникновения такой же «досадной ошибки», которые почему-то у них не возникают :)

    Пишу не из-за того, что являюсь держателем карты сбера (упаси бог :))), а из-за того, что все вышеописанное похоже на заси*ание мозга для обывателей.
    • 0
      Связь есть: AIX 6 не поддерживает больше 128 ядер. Кроме того, существует вопрос сертификации конкретной версии Oracle RDBMS под конкретную версию ОС. Возможно, работать будет и так (можно, например, на сайте Oracle найти «полуофициальные» рекомендации по установке СУБД на Ubuntu, хотя сертифицироване RHEL, OEL и SUSE), но поддерживаться Ораклом не будет.

      Под «остальными банками» имеются в виду, конечно же, российские банки. В зарубежных есть и бОльшая нагрузка. Но там используется не Oracle, а HP NonStop. Наконец-то HP начал как-то двигать свою СУБД и в России, и даже есть наш, советский процессинг на NonStop: www.bpc.ru/press-center/press-release/2565/

      А насчёт «упаси бог» — это вы зря. Не надо думать, что в остальных банках всё сильно по-другому :)
      • 0
        В других банках бывает все намного хуже чем в сбере.
  • 0
    Может я не туда пишу, но все-же…

    Где аккуратность, где внимание?
  • +2
    По поводу краудсорсинга :-D

    Я бы уже на месте СБ уже стоял с цветами и чемоданом денег у госоподина gotozero с глазками как у того котика из Шрека и фразой «Иди к нам работать» :-D
  • 0
    Вот что хотите со мной делайте, но по-моему главным показателем стабильности системы является далеко не крутизна железа и не суммы отбитые на софт и массовку за мониторам. Вот если бы за все время работы системы никто и никогда не узнал на чем она работает и какой софт там стоит, то это был бы показатель. Именно никто и именно никогда. В противном случае идеологи системы должны были, как честные люди, застрелиться, а массовка строем уйти в охрану. Вместо этого наблюдаются унылые отмазки и не верится в способность сделать выводы из.
  • +1
    Мне нравится данная статья. Смотрите: Сбербанк покупает самое крутое железо, самый дорогой софт, самую дорогую поддержку… Ну и работают там высокооплачиваемые профессионалы, я не сомневаюсь ( посмотрите на сколько ЗП больше у Oracle специалистов ). Все должно работать, т к заплачено за все это немерено, а вот оно взяло и сломалось. И кто в этом виноват? Конечно не самые дорогие специалисты или самая дорогая поддержка, а бедные юзеры которые предпочитают открывать карточки в сбербанке. И кто все это должен чинить? Те самые дорогие специалисты или оплаченная техподдержка? Нет, оказывается чинить должны энтузиасты за бесплатно. И самое забавное заключается в том что несмотря на кучу денег, потраченную сбербанком на это все никто ни зачто после этого сбоя отвечать не будет. ( ни производитель софта/железа, ни техподдержка Oracle ).
    Ну не позорьтесь перед людьми.
    • +2
      Хотел бы я оказаться тем энтузиастом, который смог устранить такую проблему забесплатно.

      Есть мнение, что банкиры не оставят такого специалиста без внимания: рекомендации, бонус и рост зарплаты — не заставят себя ждать.

      Всем остальным, кто не обладает временем, знаниями и желанием работать на репутацию — остается только сидеть и завидовать. :)
      • 0
        >>>Есть мнение, что банкиры не оставят такого специалиста без внимания: рекомендации, бонус и рост зарплаты — не заставят себя ждать.

        Рядовые сотрудники сбербанка ( всякие инспектора, операционисты и прочее ) получают довольно среднюю ЗП по рынку. Не думаю что есть исключения для IT специалистов.
        • 0
          www.cnews.ru/news/top/index.shtml?2011/11/16/464816

          Но: www.cnews.ru/reviews/index.shtml?2012/02/17/478137_5
          Люди у нас работают на износ. И будут продолжать работать шесть дней в неделю по 15 часов в сутки
          Подробнее: www.cnews.ru/reviews/index.shtml?2012/02/17/478137_5
          • 0
            по первой ссылке: думаю что ТОПы получают много. А вот средние IT специалисты коих большинство — как и везде.
            По второй — больше похоже на правду.
            • 0
              думаю что ТОПы получают много.

              Тут речь не про топ-менеджеров, а про вполне обычных IT специалистов.
              (не многоруких админов в конторе на 20 человек само собой)
  • 0
    А сессии постоянно отстреливаете или это только в момент аварии делали?
    • 0
      Вот этого не знаю. Думаю, что в обычной ситуации такое не практикуется.
  • 0
    Неплохо чел все парировал. Зачод. Только с кадрами вот немного слукавил: специалистов там действительно мало, т.к. кадровая политика совковая — в основном набираются по блату, а при мне и вовсе был случай, когда в админы брали из кассиров.
  • +1
    Согласен, что статья — это сплошное попоприкрывательство

    >> Наймите, наконец, нормальных администраторов!
    >> Администраторы в Сбербанке хорошие. Но они, увы, не волшебники.

    У вас даже стратегии резервного копирования нет. 3 часа поднимать базу — это извините что-то :( и то с помошью техподдержи Oracle.

    > — Но почему же в других банках ничего не падает!
    > Во-первых, в других банках вместе взятых карт почти столько же, сколько в одном Сбербанке.
    Это в каких банках Goldman Sachs, HBSC, Santander Consumer? Когда у них последний раз процессинг ложился?
    ДА и вообще отмазка ниже плинтуса, мол не ходите к нам клиента наш процессинг не справляется у нас слишком много карт.
    • 0
      А вы, простите, с базами какого размера имели дело? Тут вопрос даже не в размере самой базы, а количестве журналов.

      По поводу других банков — ответил чуть выше: там используется процессинг на базе HP NonStop.
      У нас тоже всё будет хорошо, мы работаем над этим :)
      • 0
        Была база в 1TB. Microsoft умудрились за 36 минут 2TB забекапить причем в территориально отдаленный датацентр. sqlcat.com/sqlcat/b/whitepapers/archive/2009/08/13/a-technical-case-study-fast-and-reliable-backup-and-restore-of-a-vldb-over-the-network.aspx
        Но это не имеет никакого отношения к стратегии резервного копирования.
        Потому что стратегия не всегда подразумевае подъем базы из полного бэкапа, но ВСЕГДА предусматривает различные ситуации выхода БД из строя и восстановления работоспособности оной в кратчайшие сроки.
        Т.е. вы должны были смоделировать и предусмотреть подобные ситуации. При этом у вас должны быть четкие инструкции, что делать по шагам, а не судорожно метаться в поисках решения проблемы.
        Судя по вашим объяснениям у вас произошел форс-мажор сродни ядерному взрыву в датацентре.
      • 0
        что по сравнению с нелюбимым вами PostgreSQL выглядит оно как-то бедновато:
        database-management-systems.findthebest.com/compare/32-43/HP-NonStop-SQL-vs-PostgreSQL
        • 0
          Извините не удержался, но выглядит это как разговор двух приятелей:

          — Мерседес гуано, вчера движок стуканул. Буду покупать астон мартин.
          — Так тыж наверное масло в двигателе забыл поменять?
          — А что его еще и менять надо?
  • НЛО прилетело и опубликовало эту надпись здесь
    • +1
      Hint: Альфа-банк — не единственный банк на «А». Да и вообще, «А» — это как «Ы», чтоб никто не догадался. Если бы я хотел назвать конкретный банк — я б его назвал.
      • 0
        Да, но почему-то у большинства «А...» ассоциируется именно с ним :)
        Тогда уж лучше «Х».
  • +1
    >>Администраторы в Сбербанке хорошие. Но они, увы, не волшебники.
    я тут недавно на ссылку наткнулся — www.sql.ru/forum/actualthread.aspx?bid=66&tid=942233,
    — Требования в идеале:
    — администрирование HP-UX, Solaris от 3-х лет
    — понимание принципов работы Oracle
    — SAN — конфигурирование сети, Fabric OS
    — железо — HP, IBM — блэйды, дисковые массивы Hitachi, HP

    — и ЗП:
    требования в идеале — 60-70 тыр
    минимум требований — от 40
    ..period…
    За скудные деньги будут работать только скудные опытом.
    Ссылка не моя, всё ИМХО, за что купил, за то и продаю…
  • +2
    Хотя Сбербанк и стал более симпотичным, более эффективным не стал. Оправданий тут нет, пост же звучит именно в стиле оправдания, а отговорки в стиле «в других банках вместе взятых карт почти столько же, сколько в одном Сбербанке», говорит лишь о раздутом самомнении и несоответствующей ей компетенции, чего как раз в других банках нет.
  • –2
    Бред и демагогия.
    Сказали «треш» — значит треш.
    И не пытайтесь оправдаться, как президент, застуканный в кабинете с проституткой.
  • +3
    Увы, но Сбербанк при всех его плюсах — это крупнейшая сеть НЕРАБОТАЮЩИХ банкоматах. Конкретный пример. Огромнейший ТЦ Мега-Белая Дача. Количество банкоматов Сбербанка там исчисляется парой десятков. При это снять деньги удалось в ОДНОМ из этой пары десятков. Пятьдесят на пятдесят — если банкомат новый (широкой такой, с кэш-ин модулем) — он просто рисовал табличку «Причем и выдача наличных на этом банкомате невозможен». Старый (узкий, более темно-зеленого цвета) — просто выталкивал карточку после 30 секунд ожидания, даже не переходя к запросу пин-кода. Зачем ставить такое количество банкоматов, если не можешь их обслужить? (скорее всего в 19-ти из 20-ти просто закончились деньги).
    • 0
      причина более тривиальна: в определенные дни месяца ( при выдаче ЗП ) наличность в банкоматах Сбербанка сметается мгновенно
      • 0
        18 числа, в среду, посередь недели? Не верю! Скорее — банальное раздолбайство.
    • +2
      Я вот не могу понять, неужели у Сбербанка нет мониторинга работы банкоматов? Такое ощущение, что они ждут, пока им пользователи о неработающем банкомате расскажут. У нас банкомат в супермаркете не работал около двух месяцев. Я пользовался другим, но когда и тот сломался, решил позвонить, а они сказали, что о пробеме ничего не знают.
      А проблемы основные бывают две:
      — банкомат совсем не работает
      — работает, но не принимает карты с чипами
      И в последнее время заметил ещё одну (не критическую, но крайне неприятную) особенность — если кто-то неправильно ввёд пин, то на этом банкомате в течении 5-10 минут не работает ни одна (по крайней мере чипованная) карта.
  • +1
    Почитав о том, что у других банков не падает потому что у сбера карт столько же сколько у всех остальных вместе взятых, возникла мысль — раздавайте столько карт сколько можете обслужить. И количество карт вас никак не оправдывает. Владельца карты не интересуют ваши объемы, он в первую очередь думает, что в банке «А», «Б», «В» думают о клиентах и все работает, а в сбере их столько, что банк позволяет забивать на их неудобства.

    — Сбербанк старается следить за модными тенденциями. Сегодня «краудсорсинг», «социальные сети» и прочий «вебдваноль» для имиджа банка не менее важны, чем надёжная работа основных систем.

    Здесь меня вообще на смех разобрало. Вы шутите или издеваетесь? Слава богу в отделениях стала появляться такая «модная» тенденция как электронная очередь, которая позволила хоть как то упорядочить ругающихся бабушек, у многих других банков она уже довольно давно применяется, а сбер все «следит за модными тенденциями». Ой, совсем забыл, у них то клиентов тьфу, не то что у сбера (выше про это написал).
    • –2
      То есть вы всерьёз предлагаете отказывать клиентам, обращающимся за картами? Вот где на смех-то разбирать должно…
      • +1
        То есть вы не менее серьезно предполагаете, что надо продолжать раздавать обязательства, которые с определенной вероятность нельзя будет выполнить? Да, я понимаю, что топ-менеджмент не волнуют проблем технического плана, им нужен рост показателей и прочая фигня, но по хорошему стоит сначала нарастить свои технические возможности как в техническом, так и в людском ресурсах, а потом дальше наращивать клиентскую базу. У вас идет судя по всему все наоборот. Я в профессиональной сфере порой общаюсь с работниками тех. отделов сбера, вы знаете не смех, а слезы скорее вызывает весь этот бардак внутри крупнейшего банка. И как по мне беда не столько в размерах банка, а в том как поставлена работа внутри структуры.
  • 0
    И этот пост и обсуждение в yammer сводят проблему к:
    — Произошла ошибка СУБД Oracle, приведшая к остановке экземпляра.
    это, конечно, верно, но не совсем :)
    Можно ковыряться в оракле и даже натыкаться там на ошибки, которые никто ещё не видел… Но вот если не утыкаться в то, что обсуждается в статье и к чему так навязчиво сводят дискуссию заинтересованные лица, то мы увидим суровый архитектурный просчет. Фактически система немасштабируема и плотно сидит на решениях одного единственного вендора. Не является она и распределённой. В общем, проблема в архитектуре, а не в каких-то там частных решениях какого-то узла, который, без сомнения, имеет полное право выйти из строя в любой момент. Суть в том, что это можно и нужно нивелировать архитектурно.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.