alexzeynikov Mar 28 2014 at 20:21

Перестройка экосистемы ЦОД

7 min

18K

Translation

Недавно Роб Обер (Rob Ober), системный архитектор LSI, дал подробное интервью китайскому журналу CEO & CIO, в котором были затронуты многие интересные вопросы. Я бы хотел представить вашему вниманию перевод ключевых моментов этого интервью, поскольку Роб очень четко описывает будущее индустрии.

CEO & CIO: В последние годы Интернет-компании строили высокомасштабируемые ЦОДы. В отличие от обычных компаний, игроки рынка ИТ берут на себя роль лидеров в разработке технологий для ЦОДов. С точки зрения индустрии, расскажите, какие три технологии являются ключевыми на рынке ЦОДов? Опишите их.

Роб: В сверхбольших ЦОДах сталкиваются индустрии программного обеспечения, производства «железа» и чисто инженерные дисциплины. Поэтому число инноваций так велико, что выбрать всего лишь три очень трудно. Я бы сказал, что наиболее важными являются инновации в аппаратном обеспечении и инфраструктуре, а если надо выбрать три, я бы отметил следующие пункты:

Автономное поведение и управление

Архитектор из Microsoft как-то сказал мне: «Если бы мы нанимали администраторов для наших ЦОДов так, как делают обычные компании, нам бы пришлось нанять всех администраторов в мире». Сейчас, в ЦОДах Microsoft насчитывается около одного миллиона серверов. Сверхмасштабируемые ЦОДы потребовали для своего расширения разработки автоматической, самоуправляемой и часто даже самовнедряющейся инфраструктуры. Сверхбольшие ЦОДы выступают пионерами в этой области, с помощью них специалисты обучаются на собственных ошибках, разрабатывают практики, позволяющие получить улучшенное соотношение работа/доллар. Речь идет об узкоспециализированных практиках, но все больше игроков ИТ-индустрии начинают их перенимать. OpenStack — лучший пример того, как специализированные знания и умения «пакуются» и распространяются широко по всей индустрии. В LSI мы работаем и с гипермасштабируемыми, и с автоматизированными решениями для создания лучшей автономной инфраструктуры.

Высокая доступность на уровне ЦОДа или отдельных машин

По мере того, как системы становятся больше, в них становится больше компонентов, больше точек отказа, и это приводит к усложнению и удорожанию поддержки их доступности. С увеличением объемов хранения диски начинают чаще выходить из строя. Их просто чаще используют. И это на фоне постоянного давления, призванного уменьшить стоимость и сложность. Со временем мега-ЦОДы очень выросли, порой в сотни тысяч серверов, часто разнесенных по разным ЦОДам, что привело к необходимости создания решений для увеличения абсолютной надежности, при том, что индивидуальные компоненты системы становились дешевле, проще и менее надежными. Все это позволило использовать недорогие компоненты в «облаках», превращая их в надежный ресурс.

Эти решения тоже появились очень вовремя, поскольку многие организации испытывали необходимость в поддержании своих данных абсолютно доступными в разных ЦОДах.

Традиционный подход, требующий доступность сервера на уровне 99.999%, уступает дорогу прагматичному подходу, состоящему в поддержании высокой доступности на макроуровне — по всему ЦОДу. Этот подход допускает сбои отдельных систем и компонентов до тех пор, пока это не угрожает всему ЦОДу. Конечно, пока этот подход еще не до конца отработан. LSI работает с мега-ЦОДами и OEM, чтоб получить улучшенные методики операционной эффективности и отказоустойчивости, что позволит минимизировать вред от сбоя отдельных компонентов, поддерживая надежный слой высокой доступности для всего ЦОДа.

Большие данные

Этот термин слишком часто используется. Сложно поверить, что еще несколько лет назад его не существовало. Hadoop стал настоящим подарком для индустрии — open source попытка скопировать Google MapReduce и Google File System — на самом деле изменила наш мир невероятно быстро. Сегодня Hadoop и другие приложения для больших данных предлагают нам поиск, аналитику, рекламу, масштабируемые надежные файловые системы, генетические исследования и многое другое, даже сервисы, подобные Apple Siri, используют Hadoop. Большие данные изменили концепцию аналитики от статистического упрощения к анализу всех данных. И это уже обеспечило множество прорывов в исследованиях, в которых закономерности и шаблоны ищутся эмпирически, а не теоретически.

Вообще, я думаю, большие данные стали одной из самых трансформирующих технологий этого столетия. Большие данные сместили фокус центров обработки данных с вычислений на хранение. Наши контроллеры жестких дисков, SAS (Serial Attached SCSI) адаптеры и RAID-контроллеры оказались в центре этой эволюции. Следующим ее шагом станет широкое распространение аналитики графов, которая позволит анализировать отношения между данными, а не только данные сами по себе.

CEO & CIO: В связи с широким распространением облачных вычислений, мобильной связи и больших данных, традиционная ИТ-экосистема в производстве изменяется. Какие три главных изменения в текущем взаимодействии LSI с экосистемой? Как в LSI видят изменения различных связей в традиционных экосистемах? Какие новые связи стоят внимания? Приведите, пожалуйста, примеры.

Роб: Облачные вычисления и доступность данных с мобильных устройств уже значительно изменили и продолжат менять нашу индустрию и экосистему. На самом деле, корпоративный рынок (клиенты, OEM, технологии, приложения и области применения) оставались достаточно стабильными на протяжении 10 – 20 лет, но, как только облачные вычисления стали значительной частью серверного рынка, это сразу же повлияло на участников экосистемы, таких как LSI.

Время: Уже недостаточно следовать за отлаженным, как часовой механизм, продуктовым портфелем Intel. Раньше циклы разработки решений для ЦОД составляли от 3 до 5 лет. Но эти циклы становятся короче. Сейчас потребность в решениях приближается к 6 месяцам, вынуждая поставщиков «железа» работать с такими короткими циклами разработки.

Мега-ЦОДы также нуждаются в возможности быстрого наращивания ресурсов в соответствии с потребностями клиентов. В результате, именно в ЦОДы внедряются новые архитектуры, решения и спецификации без традиционной привязки к роадмапу Intel. Это также нарушает экосистему.

Конечные пользователи: гипермасштабируемые ЦОДы теперь играют значительную клиентскую роль в экосистеме. Иногда их одиночный заказ может составлять до 5% серверного рынка. Несмотря на то, что OEM все еще невероятно важны, они уже не выполняют таких больших внедрений и развиваются не так быстро. Это приводит к тому, что зачастую в финансовом плане выигрывают поставщики отдельных компонентов или подсистем, если они способны предложить уникальное (или хотя бы эффективное) решение реальной проблемы. Это приводит к тому, что основная прибыль перемещается от крупных OEM к сильным, быстрым инноваторам. Потенциально это может привести к уменьшению объемов прибыли для всей экосистемы, что станет угрозой для роста скорости инноваций и реинвестирования.

Новые игроки: традиционно, несколько OEM-поставщиков и несколько поставщиков ПО практически единолично владели рынком ЦОДов. Тем не менее, цепочки поставки гипермасштабируемых облачных компаний изменили это. ЦОДы лидеров рынка разработали, специфицировали и даже построили (как в случае с Google) свою собственную инфраструктуру, хотя часть мега-ЦОДов продолжает опираться на апробированные решения от Dell и HP.

Все чаще и чаще ЦОДы строятся по спецификациям от поставщиков типа Quanta. Новые поставщики сетевого оборудования, такие как Arista, наращивают свою рыночную долю. Растут и поставщики гипермасштабируемых решений, такие как Nebula.

Программное обеспечение значительно сдвинулось в сторону open source с платной поддержкой — модель, разработанная изначально RedHat, сейчас взята на вооружение Cloudera, Mirantis, United Stack и другими.

Открытые инициативы: да, мы уже видели Hadoop и производные, внедряемые везде, даже в традиционных отраслях промышленности: нефтегазовой, фармацевтической, генетических исследованиях и т.п. И мы наблюдали за тем, как открытые базы данных теснят традиционные решения (например, Casandra). Но сейчас мы видим новые инициативы, такие как Open Compute и Open Stack. Конечно, они полезны для гипермасштабируемых ЦОДов, но они также помогают более маленьким компаниям и университетам разворачивать инфраструктуру, схожую с гипермасштабируемой, и получать тот же уровень автоматизированного контроля, эффективности и затрат, что и у «больших игроков» (конечно, они не используют того уровня возможностей, но они очень к этому близки). В будущем этот тренд способен очень сильно повредить традиционным бизнес-моделям OEM и поставщиков ПО и перекроить рынки в пользу новых игроков, как мы уже видим на примере Quanta, TYAN, Foxconn, Wistron и других, только выходящих на рынок благодаря новым, открытым инициативам.

Новые архитектуры и алгоритмы: сейчас наблюдается явное движение в сторону технологий, основанных на пуле ресурсов. Разработка таких решений стала возможна благодаря партнерству между компаниями типа Intel и LSI и архитекторами самых больших ЦОДов. Традиционно новые подходы в архитектуре диктовались OEM, но последнее время это не так. Мы можем наблюдать все большее распространение решений, нацеленных на использование масштабируемой стоечной архитектуры (rack-scale architecture, RSA): кремниевая фототоника, пулы хранилища, программно-определяемые сети, а вскоре мы увидим и пулы ОЗУ и новые виды энергонезависимой ОЗУ.

Кроме того, мы можем наблюдать, как новые процессорные архитектуры отвоевывают свое место в ЦОД: ARM 64 для тихих и холодных хранилищ и OpenPower P8 для мощных вычислений, многопоточных, многозадачных монстров обработки. За всем этим очень интересно наблюдать. Растет интерес к ускорению приложений: вычисления общего назначения на процессорах видеокарт, процессоры регулярных выражений для анализа потоков в реальном времени и т.д. Прямо у нас на глазах разворачивается первое поколение инструментов анализа графов.

Инновации: темп инноваций нарастает, или просто я становлюсь старше. Но с быстрыми доходами покончено. С одной стороны, ЦОДам нужен экспоненциальный рост вычислительной мощности и хранения, им нужно работать быстрее от 10 до 1000 раз. С другой стороны, память, ядра процессоров, диски и флэш-накопители растут не так быстро. Единственный способ заполнить этот провал — инновации. Так что не удивительно, что много интересных вещей сейчас происходит у OEM, поставщиков ПО, производителей чипов и готовых решений, а также в open source сообществе и стартапах. Вот то, что делает настоящее время таким интересным.

Сдвиг потребления: мы видим спад в поставках ПК и ноутбуков, спад, который привел к снижению спроса на хранилище в этом сегменте. Ноутбуки все чаще переходят с HDD на SSD, что неплохо для LSI, так как наш вклад в мобильные HDD был невелик, в то время как на рынке SSD компания играет большую роль. Смартфоны и планшеты привели к росту потребления облачного контента, траффика и зависимости от облачных хранилищ. Мы видим значительный рост спроса на большие HDD для облачных решений, этот тренд набирает скорость, и мы думаем, что рынок «облачных» HDD будет чувствовать себя хорошо, и мы увидим появление новых, оптимизированных для «облаков» HDD, сильно отличающихся от существующих и разработанных для тихого хранения с низким тепловыделением.

В облачных хранилищах растет спрос на PCIe SSD карт, которые используются для баз данных, кэшей, виртуальных машин и других приложений, требующих низкий уровень задержек. Многое из того, что мы принимаем как данность, было бы невозможно без этих флэш-продуктов с большой емкостью и низкими задержками. Очень немногие компании могут предложить жизнеспособные системы хранения, построенные на флэш-технологиях, по приемлемой цене. Это открывает дорогу стартапам, экспериментирующим с различными решениями.

Tags:

Hubs:

Computer hardware