Стандарт операционной устойчивости от Uptime Institute

ОПЕРАЦИОННАЯ МОДЕЛЬ

Под операционной моделью понимается некое абстрактное описание того, каким образом организация осуществляет свою деятельность, включая реализуемые процессы, с учетом используемых ресурсов и технологий. Нас, в частности, будет интересовать операционная модель деятельности по эксплуатации дата-центра.

Как уже отмечалось, техническая эксплуатация инженерных систем дата-центра – деятельность сложная, имеющая различные аспекты и взаимосвязи. Ее наиболее крупной и значимой областью является собственно техническое обслуживание оборудования и систем, в широком смысле включающее и плановый ремонт.

Необходимость регулярного технического обслуживания дата-центра обусловлена практически теми же причинами, которые побуждают нас заниматься регулярным техобслуживанием автомобиля. Благодаря техобслуживанию мы получаем возможность поддерживать ЦОД в состоянии постоянной готовности, выявляя и устраняя дефекты еще до того, как они приведут к поломке, а также сохранять гарантию производителя. В целом, текущее обслуживание систем дата-центра (включая их плановый ремонт) – это основная, наиболее трудоемкая и ответственная задача эксплуатации. При ее качественном выполнении почти не остается причин для другой, гораздо чаще упоминаемой и более критичной задачи – устранения аварий (сбоев, существенного снижения производительности и т.п.).

К сожалению, полностью избежать аварий невозможно. Поэтому надо быть к ним готовыми. То есть в случае возникновения аварии персонал эксплуатирующей организации должен не пребывать в растерянности, а без промедления приступить к мероприятиям, позволяющим восстановить работоспособность пострадавшей системы в кратчайшие сроки, уменьшая тем самым отрицательное влияние и последствия аварии. Причем вне зависимости от масштаба аварии и других ее характеристик персонал в любых обстоятельствах должен знать, что ему следует делать. В противном случае ситуация станет неуправляемой.

Таким образом, две важнейшие области деятельности службы эксплуатации – это текущее обслуживание и устранение аварий. Операционная модель эксплуатации дата-центра должна описывать действия в рамках решения этих задач по всем системам дата-центра, а также необходимые для их решения ресурсы. Это тот минимум, без которого говорить об эксплуатации бессмысленно. Но, конечно, не следует забывать и про остальные задачи. Например, про необходимость управления мощностями дата-центра. Или про взаимодействие с внешними поставщиками, которых можно привлекать для исполнения отдельных работ, особенно если своих ресурсов недостаточно. А еще – о плановой замене оборудования, о капитальных ремонтах, о финансовом обеспечении…

Возникает закономерный вопрос: неужели нет единой модели, которая учитывала бы все необходимые для правильной эксплуатации дата-центра элементы? Если бы ответ был отрицательным, мы не стали бы его задавать. Итак, встречайте:

Стандарт операционной устойчивости от Uptime Institute

Сегодня наиболее известным и популярным документом из разработанных Uptime Institute является Data Center Site Infrastructure Tier Standard: Topology (Стандарт на топологию) – методологическая основа для сравнения функциональных и мощностных характеристик, а также ожидаемых уровней доступности и производительности ЦОДа исходя из топологии их инженерной инфраструктуры. На основании этого стандарта Uptime Institute осуществляет сертификацию инженерных решений и построенных ЦОДов, присваивая им определенный уровень – Tier – от I до IV в зависимости от полноты соответствия описанным в стандарте критериям.

К сожалению, в последнее время соответствие дата-центра требованиям Стандарта на топологию возведено в абсолют. При этом упускаются из виду ключевые замечания, сделанные как в самом стандарте, так и в комментариях к нему и сопутствующих документах: соответствие объекта изложенным в стандарте требованиям является лишь указанием на принципиальную возможность обеспечить некоторый уровень надежности функционирования инфраструктуры дата-центра. И не более! Никаких гарантий того, что ЦОД, построенный и сертифицированный в соответствии со Стандартом на топологию, например, на уровень Tier IV, в принципе окажется работоспособным и тем более обеспечит доступность не ниже 99,99%, никто не дает! Причина этому простая, и любой специалист ее хорошо знает: как бы ни была надежна техника, она может давать сбои. А уж если в цепочке появляется человек, о котором, кстати, нигде в Стандарте на топологию ничего не говорится, то гарантировать что-либо в принципе невозможно. А поскольку без службы эксплуатации дата-центр работать не может, то…

Для того чтобы разрешить эту коллизию, специалисты Uptime Institute подготовили новый стандарт – Data Center Site Infrastructure Tier Standard: Operational Sustainability (Стандарт операционной устойчивости). Актуальная версия документа доступна для скачивания на сайте этой уважаемой организации.

Предполагается, что стандарт разработан для идентификации основных элементов модели эксплуатации и требований к их реализации с целью обеспечить качественное функционирование дата-центров с учетом заложенных в инженерных решениях возможностей. Как заявляют в Uptime Institute, он предоставляет владельцам, операторам и менеджменту дата-центров приоритизированный набор активностей и рисков, характерных для обеспечения текущего функционирования объекта.

Документ в целом носит концептуальный характер, задает принципы и ограничения верхнего уровня. В нем рассмотрены три составляющие, способные оказать существенное влияние на качество эксплуатации дата-центра:

· операционная модель;

· характеристики зданий;

· расположение площадки.

В приложениях к стандарту перечисляются элементы модели и ожидаемая их реализация (ожидаемое поведение эксплуатирующей структуры, если речь идет об операциях) и указывается, для какого уровня (Tier) дата-центра они необходимы, а для какого – нет. Проводится также оценка рисков местоположения ЦОДа и изучается влияние характеристик здания на возможность и качество исполнения операций. К слову, приложения таким образом оказались наиболее интересным и информативным разделом документа. Отметим также непривычную логику отнесения тех или иных требований в конкретный раздел. Здесь, скорее всего, сказываются новизна и пока не слишком большой опыт применения документа (короткий список сертифицированных по стандарту ЦОДов – тому подтверждение).

Кроме того, стандарт описывает три уровня сертификатов операционной устойчивости – золотой, серебряный и бронзовый. Бронзовый – это минимально допустимый уровень качества, при котором эксплуатируемый дата-центр будет работать все же предсказуемо; серебряный – уровень эксплуатации в принципе нормальный, но есть что улучшать; золотой – это идеал, к которому всем следует стремиться. Причем в отличие от сертификатов на соответствие Стандарту на топологию сертификат операционной устойчивости действует ограниченное время. Бронзовый – один год, серебряный – три, золотой – пять. Это вполне логично, поскольку основной вклад в оценку соответствия вносит операционная модель, а она подвержена риску деградации в существенно большей степени, чем техника. Так что проверять надо регулярно…