воскресенье, 13 мая 2012 г.

RPO и RTO (перевод из книги CISA)

Допустимая точка восстановления (RPO) определяется допускаемым уровнем потери данных в случае прерывания операций. Она показывает точку во времени, с которой можно восстановить данные. Например, если процесс может предоставить данные за последние 4 часа до происшествия, то последняя резервная копия должна быть сделана не позднее 4-х часов назад. Вначале восстанавливаются данные из резервной копии, затем добавляются данные за последние 4 часа. Таким образом, RPO определяет количество данных, которые могут быть потеряны, т.к. их всегда можно восстановить.

Допустимое время восстановления (RTO) определяется количеством времени неработоспособности сервиса в случае прерывания операций. Оно показывает раннюю точку времени, после которой операции могут быть продолжены. Обе концепции основываются на временных параметрах. На рисунке показаны взаимосвязи RPO и RTO.

Маленькое время до точки восстановления означает высокую стоимость реализации стратегии по резервированию. RPO равное нескольким минутам влечет применение отказоустойчивых кластерных технологий (дублирование / зеркалирование).

Маленькое время восстановления может означать необходимость иметь альтернативный Hot-Site, т.е. выделенные помещения с проложенной ЛВС, установленным и настроенным оборудованием и ПО. Маленькое RTO означает низкую толерантность к происшествиям. Толерантность к происшествиям означает интервал времени, в течение которого могут быть недоступны IT-сервисы и который может принять бизнес.

Кроме RPO и RTO существуют несколько важных дополнительных параметров, которые необходимо учитывать в стратегии восстановления. Они включают:

• окно недоступности сервиса (Interruption window) – ожидаемое время от начала происшествия до восстановления сервиса;

• уровень предоставления сервиса (Service delivery objective, SDO), который может быть достигнут на альтернативном оборудовании до возврата на основное. (одно из бизнес требований);

• максимальное альтернативное время (Maximum tolerable outages) – время, в течение которого возможна работоспособность сервиса на альтернативном оборудовании. После этого времени, возможно возникновение проблем, особенно если альтернативный уровень SDO ниже основного.

Вопросы:

А. Зеркалирование данных должно использоваться в качестве стратегии восстановления когда:

А1. допустимая точка восстановления маленькая;

А2. допустимая точка восстановления большая;

А3. допустимое время восстановления большое;

А4. толерантность к происшествиям высокая.

Б. При разработке плана непрерывности бизнеса для определения допустимой точки восстановления нужно учитывать:

Б1. уровень потерь данных, который организация готова принять;

Б2. количество времени, в течение которого организация готова принять неработоспособность сервисов;

Б3. типы доступных резервных копий, хранимых вне основного расположения;

Б4. типы ИТ-платформ, поддерживающих критические для бизнеса функции.

Комментариев нет:

Отправить комментарий