В последние годы в вычислительной технике все чаще употребляется термин "системы высокой готовности" (High Availability Systems). Все типы систем высокой готовности имеют общую цель – сокращение времени простоя. Имеется два типа времени простоя компьютера: плановое и неплановое. Минимизация каждого из них требует различной стратегии и технологии. Плановое время простоя обычно включает время, принятое руководством, для проведения работ по модернизации системы и для ее обслуживания. Неплановое время простоя является результатом отказа системы или компонента. Хотя системы высокой готовности возможно больше ассоциируются с минимизацией неплановых простоев, они оказываются также полезными для уменьшения планового времени простоя.
Существует несколько типов систем высокой готовности, отличающиеся своими функциональными возможностями и стоимостью. Стоимость систем высокой готовности намного превышает стоимость обычных систем. Вероятно, поэтому наибольшее распространение в мире получили кластерные системы, благодаря тому, что они обеспечивают достаточно высокий уровень готовности систем при относительно низких затратах. Термин "кластеризация" на сегодня в компьютерной промышленности имеет много различных значений. Кластером называется группа соединенных между собой серверов, которые функционируют как единое целое и работа которых координируется для решения поставленной задачи. Результатом создания кластера может стать, например, обеспечение высокой доступности информационного сервиса (так называемые кластеры высокой доступности, или HA-кластеры – от англ. high availability) или распараллеливание процесса решения сложной вычислительной задачи. Современное кластерное ПО позволяет избежать длительного простоя системы в случае сбоя или выхода из строя оборудования, ошибки в программе или ошибочного действия обслуживающего персонала при условии, что не произошло разрушения данных. Восстановить разрушенные данные кластер не может, что делает необходимым создание высоконадежной системы хранения данных , включающей подсистему резервного копирования.
Рис.1. Организация кластера
Кластер состоит из аппаратной и программной частей. Аппаратная часть помимо узлов кластера, т. е. самих объединенных серверов, включает среду их взаимодействия – heartbeat, реализуемую с помощью либо обычного Ethernet, либо специальных высокоскоростных сред передачи данных с низкой латентностью, таких, как SCI, HP HyperPlex, Sun WildCat. Для того чтобы все узлы кластера могли обеспечить работу одного информационного сервиса, они должны иметь доступ к общему дисковому пространству. Оно реализуется созданием общих для узлов кластера томов на одном отказоустойчивом дисковом массиве (или двух зазеркалированных дисковых массивах ), подключенном ко всем узлам кластера. Для кластера, состоящего из многих узлов, наилучшей инфраструктурой доступа серверов к общему дисковому массиву является сеть хранения данных (SAN), поскольку протокол SCSI не обеспечивает устойчивой работы шины более чем c двумя инициаторами.
Высокая доступность информационных сервисов, предоставляемых узлами кластера, обеспечивается кластерным ПО. Это ПО с помощью специальных сервисов или скриптов отслеживает работоспособность информационных сервисов, выполняемых узлами кластера. В случае сбоя, вызванного отказом диска, сетевого интерфейса или самого приложения, кластерное ПО переносит соответствующий сервис на другой узел. Под переносом здесь понимается следующее: остановка приложения (если оно еще работало) на первом узле, размонтирование общих дисковых томов, монтирование их на втором узле, перенос IP-адреса (алиаса) с первого на второй узел, запуск приложения. Если в кластере больше двух узлов, то информационные сервисы вышедшего из строя узла переносятся на другие узлы в зависимости от правил, либо заданных администратором, либо определенных самим кластерным ПО на основе данных о загрузке работоспособных узлов.
Указанный механизм работы используется в кластерах высокой доступности. Ряд производителей ПО для таких кластеров встраивают в свои продукты функции распределения нагрузки между узлами, выполняющими одно и то же приложение и работающими при этом с общей копией данных. Однако реализация этой возможности существенно зависит от приложения. В настоящее время кластерное ПО способно обеспечивать работу с общей файловой системой и с общей базой данных СУБД Oracle (Oracle Parallel Server, Real Application Cluster).При решении вопроса о создании кластера необходимо оценить три основных критерия: возможный ущерб для предприятия от простоя критичных информационных сервисов, среднее время восстановления работоспособности этих сервисов без применения кластера и стоимость реализации кластера. Следует также учесть, что доступность как критичных, так и вспомогательных информационных сервисов зависит от производительности системы. При низкой производительности время отклика сервиса может превысить допустимый предел, что также следует рассматривать как недоступность сервиса.
Инженеры компании Server Unit готовы на основании предоставленных заказчиком исходных данных выполнить наладку кластерной системы на площадке заказчика по завершении ее физической инсталляции. Специалисты подразделения помогут заказчикам грамотно спроектировать кластерную систему высокой готовности от первого до последнего шага, изучив особенности его предметной области, проблематику решаемых бизнес-задач, существующую ИТ-инфраструктуру и множество других первостепенных и менее масштабных, но столь же значимых аспектов, и подобрав на основе этих данных оптимальное решение.