mshalenko Oct 24 2023 at 12:59

Переезд монолита в k8s. Делаем каршеринг cloud native

Medium

7 min

6.2K

Ситидрайв corporate blogIT Infrastructure*Cloud services*Kubernetes*

Case

+15

Comments 18

Heda Oct 24 2023 at 13:11

Куча работы еще впереди, но шаг в нужную сторону. Раз сервис так и остался частично в виде монолита, хотелось бы узнать, какие именно метрики его частей отвечают за readness/liveness. Что делать, если 1 за 10 метрик начинает моросить, хотя остальные части монолита в норме?

И еще очень болезненный вопрос для меня - секреты в волте, а как вы их безопасно вытягиваете? Те же логопассы к базам как в приклад подкладываются?

mshalenko Oct 24 2023 at 14:16

Приветствую!

Т.к livenessProbe отвечает за рестарт Pod'ов, этот хелсчек дёргается наиболее часто. Логика его работы на данный момент проста - мы проверям работоспособность веб-сервера в целом и отвечаем 200.

readinessProbe - с этим хелсчеком ситуация обстоит хитрее. Результат этой пробы говорит о том, готов или не готов Pod принимать трафик. Когда мы дёргаем его, помимо работы веб-сервера, мы проверяем критически важные инфраструктурные компоненты на доступность включая базы, шины данных и т.д.

Что касается самих метрик, то тут тоже всё просто. У нас заведены алерты на все критически важные для инфраструктуры и бизнеса метрики. Если что-то идёт не так, Alertmanager даст нам знать.

Секреты из Vault на данный момент доставляются в k8s с помощью gitlab-ci, но в будущем есть планы усовершенствовать этот способ, добавив монтирование секретов при инициализации контейнера. Таким образом из gitlab-ci этот этап вообще можно будет убрать.

Sigest Oct 25 2023 at 13:01

Для секретов из vault - есть довольно удобный оператор vault secrets operator от самого hashicorp. Стабильная штука. Создает CRD и через эти CRD настраивается связь между развернутым приложением и Vault. Не супер секьюрно, так как secrets создаются в кубере как они есть, как если бы вы их деплоили через kubectl apply, и это на тот случай, если секреты не хочется держать в репозитории. Но и не так геморно, если вдруг надо подружить например ArgoCD с Vault через его систему плагинов.

lazy_val Oct 24 2023 at 13:24

В качестве основной системы мониторинга используем TSDB решение Victoria Metrics

Было бы интересно услышать - почему не Prometheus?

mshalenko Oct 24 2023 at 14:30

Здравствуй! На предыдущем месте работы мы с коллегами администрировали сотни кластеров Openshift. По дефолту Openshift поставляется с Prometheus. Т.к кластеры были высоконагруженные, метрик было много, Prometheus потреблял очень много ресурсов CPU, RAM, IO. В качестве эксперимента мы подняли на серверах с такими же ресурсами Victoria Metrics и сравнили их работу. Разница в потреблении была в 2-3 раза. Поэтому без лишних раздумий, в Ситидрайве выбор пал на Victoria Metrics. Помимо этого компоненты Виктории легко масштабируются.

vainkop Nov 2 2023 at 01:08

Вы забыли добавить, что VictoriaMetrics (VM) является in place replacement Prometheus'а, т.е. она практически полностью дублирует весь функционал, api и т.д Vm'а, поэтому, если вы используете Prometheus или знаете как его использовать, то с высокой долей вероятности вы можете просто заменить его на VM и остальные компоненты системы этого даже не поймут.

Более того, у VM есть отличный собственный функционал длительного хранения метрик без необходимости подключения какого-нибудь внешнего решения вроде Thanos, который для этого нужен Prometheus.

mshalenko Nov 3 2023 at 14:36

Вы правы, однако данная статья рассчитана на людей, которые уже и так знакомы с данными инструментами (их аналогами), и вникать в такие подробности - не является целью это статьи :)

puzo Oct 24 2023 at 15:36

этого признания я давно ждал "прод шатал" - где мои 800 р? когда я с не смог сдать машину?
А если серьезно, то результат супер! Сам в таком сейчас варюсь.
но про 800р осадок остался....... ((( ;)

Chernyshevskaia Oct 24 2023 at 15:57

Привет! Напиши в личные сообщения, пожалуйста, ФИО и номер телефона из приложения, а также номер авто или дату аренды, когда был сбой. Передам ответственным — всё проверим 😔

GoooodBoy Oct 24 2023 at 17:41

Вы пишите, что разработали "уникальный chart". А в чем его уникальность?

mshalenko Oct 24 2023 at 19:06

Все просто. Он написан таким образом, что подходит для всех сервисов в компании. У нас нет такого, что под каждый сервис пишется отдельный хелм чарт. Правки если и вносятся, то только в одном месте - в unique-helm-chart. Так мы его называем :)

GoooodBoy Oct 24 2023 at 19:12

Тогда я бы назвал "универсальный", а то уникальный вводит в некоторое заблуждение.

mshalenko Oct 29 2023 at 00:12

Окей, исправил.

1q2w1q2w Oct 24 2023 at 19:06

вопрос про монолит в облаке, понятно что все преимущества переезда ощущаются после распила монолита, когда можно оперировать маленькими автономными кусками приложения. Но в статье говорится что мигрировали именно монолит. Так а в чем собственно преимущества монолита в облаке если деплой по прежнему занимает много времени, скейлинг работает но требует количество ресурсов пропорциональное количеству реплик, стоимость тоже достаточно высокая, т.к. у всех провайдеров стоимость "больших" инстансов высокая (а в "маленькие" он не поместится). Если не секрет, какой примерно был размер артефактов\потребление ресурсов в кубере сразу после переезда?

mshalenko Oct 29 2023 at 01:00

Как я описал в статье, перед тем как заехать в кубер, монолит на протяжении 2-х лет дробился на части, хотя еще есть над чем работать в этом направлении, например окончательно выпилить всю статику из docker образа, из-за которого он весит примерно 2GB. Что касается бенефитов переезда, то мы ощутили их в полной мере, и в статье о них подробно говорили)

1q2w1q2w Oct 30 2023 at 08:42

кликбейт в названии детектед) переехал получается не монолит а уже пиленый сервис. Рад что вы ощутили бенефиты, мне в статье не хватило связности, но и на том спасибо

erley Oct 25 2023 at 07:39

Полезный real-life опыт, интересно почитать. И привязки к конкретным cloud-providers нет, молодцы!

mshalenko Oct 29 2023 at 00:10

Спасибо! Да, мы используем своё железо, но если вдруг будет такая потребность, заехать в cloud будет не проблема.