Лекция 6.ppt
- Количество слайдов: 19
Отказоустойчивые компьютерные системы. Методы введения и использования избыточности в компьютерных системах Лекция 6
Отказоустойчивость. Основные понятия Отказоустойчивая система (fault-tolerant system) – компьютерная система, которая при возникновении отказа сохраняет свои функциональные возможности в полном (fail-sale) или уменьшенном (fail-soft) объеме. Отказоустойчивость обеспечивается сочетанием избыточности системы и наличия процедур обнаружения и устранения ошибок. При возникновении отказа: • Отказобезопасная система (fail-sale system) работает правильно (безопасно); • Система с амортизацией отказов (fail-soft system) – работает с пониженным качеством – находится в состоянии постепенного снижения эффективности 2
Отказоустойчивость. Основные понятия По способу реализации: 1)Активная отказоустойчивость базируется на следующих процессах: • обнаружение отказа при помощи средств контроля • локализация отказа при помощи средств диагностирования • автоматическая реконфигурация в реальном масштабе времени – перестройка структуры системы т. о. , чтобы отказавшие части были устранены от участия в работе. 3
Активная отказоустойчивость • • Особенности: Экономный расход аппаратных средств Потери времени при восстановлении Возможны потери данных Реализуема и применяется в многопроцессорных системах 4
Отказоустойчивость. Основные понятия По способу реализации: 2) Пассивная отказоустойчивость: • Отказ не обнаруживается, а маскируется системой • Увеличение количества аппаратуры в несколько раз • Гарантирует практически безостановочную работу системы и сохранение всей информации Пример: мажоритарные системы, логика с переплетением. 5
Меры отказоустойчивости: 1) Коэффициент разрежения потока отказов – - вероятностная мера, показывающая, какая доля из всех отказов элементов системы влечет за собой отказ системы: Где с – интенсивность отказов системы э – суммарная интенсивность отказов всех элементов 2) d - устойчивость - детерминированная мера – максимальное число d элементов системы, отказ которых еще не влечет за собой отказ системы. 6
Избыточность. Основные понятия Избыточность (redundancy) – введение в систему дополнительных компонентов сверх минимально необходимого их числа с целью повышения надежности. Виды избыточности: 1) Параметрическая - облегчение режимов работы элементов с целью повышения их надежности 2) Временная – наличие дополнительного времени для решения задачи – в случае возникновения сбоев или ошибок они исправляются путем повторения вычислений – повышение отказоустойчивости ПО 7
Избыточность. Виды избыточности 3) Алгоритмическая (программная) – способ реализации временной избыточности, применение таких алгоритмов, которые обеспечивают удовлетворительные результаты в случае наличия или возникновения ошибок в процессе вычислений (итерационные алгоритмы) 4) Структурная – наиболее эффективный вид избыточности – наличие дополнительных элементов в структуре системы, предназначенных для автоматической замены отказавших элементов. 8
Принцип N – версионного проектирования Аппаратные и программные избыточные средства являются не идентичными копиями, а независимо разработанными средствами, удовлетворяющими требованиям к системе. N – версионное программирование – частный случай, N версий программ, разработанных разными программистами по разным принципам. 9
Особенности N – версионного проектирования • Для исключения общих ошибок разработки в разных версиях необходимо использовать методы независимого проектирования и реализации: различные алгоритмы, языки программирования, трансляторы, средства автоматизации. • Большую роль играет алгоритм принятия решений при обнаружении ошибок разработки. • N – версионное проектирование выполняет роль верификации проекта – повышение стоимости разработки компенсируется сокращением затрат на верификацию. 10
Процессы восстановления в отказоустойчивых системах 6 1 8 9 2 3 10 16 14 4 15 11 11 12 12 13 7 13 13 10 11 12 5 11
Процессы восстановления в отказоустойчивых системах 1 – появление ошибки; 2 – ошибка обнаружена аппаратными средствами контроля; 3 – ошибка обнаружена программными средствами контроля ; 4 – ошибка не обнаружена, произошел отказ системы 5; 6 – пассивная отказоустойчивость, ошибка замаскирована, вычислительный процесс продолжается без задержки 7; 8 – ошибка вызвана сбоем, последствия которого исчезли при повторении операции, вычислительный процесс продолжается; 9 – устойчивая ошибка в аппаратуре, не устраняется при повторении операции; 10 – автоматическая реконфигурация (замена отказавшей подсистемы резервной либо ее отключение (постепенная деградация)); 12
Процессы восстановления в отказоустойчивых системах 11 – возврат к контрольной точке; 12 – восстановление информации; 13 –повторение вычислений; 14 – тестирование; 15 – тесты подтверждают наличие устойчивого отказа; 16 – тесты подтверждают отсутствие устойчивого отказа, автоматическая реконфигурация не требуется. Восстановление может оказаться безуспешным в случаях: • наличия ошибки в программах • потери информации в контрольных точках • исчерпания резервов при активной отказоустойчивости • снижения производительности ниже допустимого уровня при пассивной отказоустойчивости 13
Дублированные системы. Эволюция 1) Система из двух автономных – основной и резервной. Недостаток – необходимость переноса данных при отказе 2) Введение общего поля памяти на ВЗУ и адаптеров канал – канал 3) Введение межпроцессорной сигнализации и общего поля оперативной памяти 4) Дублированная система из двух двупроцессорных систем – имеет максимальную надежность 14
Алгоритм функционирования дублированной системы. Выходная информация Сравнение результатов Основная система Резервная система Входная информация 15
Алгоритм функционирования дублированной системы. Системы подключены к общей шине и выполняют вычисления с аппаратурным или программным сравнением результатов. При несовпадении результатов неисправная система может быть выявлена: 1) Тестированием основной системы либо обеих систем; 2) Средствами самоконтроля, однозначно определяющими неисправность; 3) С помощью охранных таймеров – основная система при нормальной работе периодически сбрасывает таймер; при отказе таймер срабатывает по переполнению и передает управление резервной системе. 16
Мажоритарные системы - это системы, в которых для определения правильных данных используется восстанавливающий орган (ВО), данные на выходе которого определяются по большинству совпадающих данных, подаваемых на его входы. Простейшая мажоритарная система – троированная (ТМС) ВО 2/3 17
N – ированная система (NМС) - наиболее общий случай мажоритарной структуры. При нечетном числе блоков N = 2 n+1 система сохраняет работоспособность при отказе n блоков. Для повышения эффективности вводятся адаптивные ВО, изменяющие свой 1 порог по мере ВО выхода подсистем 2 из строя. 3 Пример: NМС « 3 из 5» … Отказ 2 подсистем N = 2 n+1 Адаптивный ВО: NМС « 2 из 3» 18
Вероятность безотказной работы мажоритарной сиcтемы где РВО, Р – соответственно ВБР мажоритарного органа и подсистемы Для троированной системы (N=3) 19
Лекция 6.ppt