Достоверность функционирования информационной системы
Раздел 3. Технические средства информационных технологий
Лекция № 9. Информационные основы контроля работы цифровых
Автоматов
1 Основные характеристики надежности ЭВМ. Функции систем
Контроля и диагностирования.
Систематические коды. Контроль по четности, нечетности, по Хеммингу.
Литература: 1. Каган Б.М. Электронные вычислительные машины и
системы: Учеб. Пособие для вузов. – 2-е изд., перераб.
и доп. – М.: Энергоатомиздат, 1985.
1 Основные характеристики надежности ЭВМ.
Функции систем контроля и диагностирования
Среди основных показателей качества информационных систем можно выделить надежность, достоверность и безопасность.
Безопасностьинформационной системы (ИС) характеризуется способностью системы обеспечить защиту информации от несанкционированного доступа с целью ее раскрытия,изменения или разрушения. Названный показатель не является предметом обсуждения данной лекции. Вопросы обеспечения безопасности информационных систем будут изучаться в дисциплине «Методы и средства защиты компьютерной информации».
Характер и важность задач, решаемых ИС, предъявляют высокие требования к таким их показателям, какнадежностьидостоверность функционирования. Рассмотрим эти показатели более подробно.
Надежность информационной системы
Под надежностью понимается свойство изделия (элемента, узла, устройства, машины, системы) выполнять заданные функции, сохранять свои характеристики в установленных пределах при определенных условиях эксплуатации.
Надежность – комплексное свойство системы. Оно включает в себя более простые свойства, такие как безотказность, ремонтопригодность, долговечность и др.
Безотказность – свойство системы сохранять работоспособное состояние в течение некоторого времени.
Одним из основных элементов любой информационной системы является ЭВМ. В процессе функционирования ЭВМ в ней могут возникать отказы.
Под отказом понимается событие, заключающееся в полной или частичной утрате машиной (системой) работоспособности.
Отказ ЭВМ — это такое нарушение ее работоспособности, для восстановления которой требуются определенные действия обслуживающего персонала по ремонту, замене и регулировке неисправного элемента, узла или устройства. Безотказность может измеряться средним временем наработки машины на один отказ.
Отказы бывают:
внезапныеипостепенные;
зависимые и независимые;
полныеи частичные;
устойчивые и самоустраняющиеся;
аппаратные, программные и т.д.
Ремонтопригодностьесть степень приспособленности машины или системы к предупреждению, обнаружению и устранению отказов.
Ремонтопригодность определяет потерю работоспособности машины вследствие необходимости производить устранение неисправностей и может измеряться средним временем устранения неисправности.
Достоверность функционирования информационной системы
Работа ЭВМ заключается в выполнении преобразований информации, основными из которых являются передача информации в пространстве (между отдельными блоками и устройствами машины), хранение информации (передача информации во времени), арифметические и логические преобразования. В силу указанной специфики рабочего процесса очень важной характеристикой ЭВМ является достоверность ее функционирования.
Достоверность функционированияесть свойство машины (системы), определяемое безошибочностью производимых машиной (системой) преобразований информации и характеризуемое закономерностями появления ошибок из-за сбоев.
Сбоемназывают кратковременное самоустраняющееся нарушение нормального функционирования машины.Сбои имеют случайный характер и могут возникать даже тогда, когда машина совершенно исправна. Например, при резких колебаниях температуры в помещении происходит деформация печатных плат, что может вызвать кратковременное нарушение контакта. Сбои могут возникать под влиянием внешних электромагнитных импульсов, при резких колебаниях напряжения сети и т. д. После сбоя машина длительное время может работать нормально.
Сбой сопровождается искажением информации при операциях ее передачи, хранения или обработки. Следовательно, если не устранить последствия сбоя, то задача может оказаться неправильно решенной из-за искажений в данных, промежуточных результатах или в самой программе.
Сбой является частным видом отказа. Однако если при отказе для восстановления работоспособности машины или системы необходимо устранить неисправность в аппаратуре, то при сбое требуется восстановить лишь достоверность информации, что хотя и связано с потерями рабочего времени ЭВМ (например, на повторный пуск программы или ее части), но не требует ремонта или регулировки аппаратуры. В силу этого восстановление достоверности функционирования сравнительно легко может быть автоматизировано.
Достоверность функционирования ЭВМ можно оценить средним временем наработки машины на один сбой. Для более полной оценки достоверности функционирования вводят в состав характеристик надежности ЭВМ среднее время восстановления достоверности информации после сбоя.
Для уменьшения вероятности сбоев принимаются меры для уменьшения помех в цепях электронных схем: согласование нагрузок электронных схем, специальные методы монтажа и выполнения заземлений схем.
Пользователь должен быть уверен в правильности производимых машиной расчетов, особенно при работе ЭВМ в реальном времени с выдачей управляющих воздействий на объект управления.
Если вычислительная машина не обеспечивает пользователя средствами контроля достоверности ее функционирования, он вынужден непроизводительно затрачивать машинное время на двойной просчет, решение контрольных вариантов и т. д.
Выбор методов повышения надежности ЭВМ и их эффективность в значительной мере зависят от того, является вычислительная машина восстанавливаемой или невосстанавливаемой, обслуживаемой или необслуживаемой системой.
Система называется восстанавливаемой, если во время эксплуатации может производиться ремонт для устранения возникающих отказов. Система считается обслуживаемой, если допускается периодическое проведение профилактических испытаний для выявления элементов и узлов, параметры которых близки к предельно допустимым. Целью профилактических испытаний является увеличение среднего времени наработки на отказ в период между профилактическими работами.
Профилактическое обслуживание связано с потерями рабочего времени машины и затратами труда обслуживающего персонала. Эти потери по своему характеру близки к потерям, связанным с устранением отказов, и они должны учитываться наряду с показателями надежности устройств машины при назначении периодов и объема профилактического обслуживания.
Очевидно, что чем выше надежность ЭВМ, тем больше может быть период между профилактическими работами. Чем меньше тратится машинного времени и квалифицированного труда на профилактические работы и устранение неисправностей, тем выше степень обслуживаемости ЭВМ, т. е. степень приспособленности машины к процессам обслуживания.
1.3 Функции систем контроля и диагностирования
Чтобы уменьшить потери от сбоев и отказов, порождающих ошибки, надо предотвратить распространение ошибки в вычислительном процессе, так как в противном случае существенно усложнятся и удлинятся процедуры проверки правильности работы программы, определения и устранения искажений в программе, данных и промежуточных результатах. Для этого необходимо обнаруживать появление ошибки в выполняемых машиной преобразованиях информации возможно ближе к моменту ее возникновения. С этой целью надо иметь систему автоматического контроля правильности работы ЭВМ, которая при появлении ошибки в работе машины немедленно приостанавливает выполнение программы. Наличие такой системы освобождает пользователя от забот по контролю достоверности и снижает связанные с этим потери (на двойной просчет задачи, прогон контрольных вариантов, работу схем контроля и т.д.).
Для уменьшения времени восстановления достоверности информации после очередного сбоя следует иметь систему автоматического восстановления вычислительного процесса, распознающую характер (сбой или отказ) ошибки и при сбое автоматически восстанавливающую достоверность информации и выполнение программы, а при отказе – извещающую обслуживающий персонал о необходимости ремонта машины.
Для повышения комплексного коэффициента использования ЭВМ необходимо повышать обслуживаемость машины и добиваться уменьшения потерь времени на устранение отказов (повышение ремонтопригодности) и на проведение профилактических работ. Эти потери времени в таких сложных объектах, как ЭВМ, в первую очередь связаны с поиском места неисправности. Важнейшим средством уменьшения указанных потерь и повышения обслуживаемости ЭВМ является система автоматического диагностирования, позволяющая локализовать неисправность.
Обнаружение ошибок должно производиться в машине непрерывно и, следовательно, не должно вызывать заметного снижения быстродействия машины. Поэтому эта функция возлагается обычно на быстродействующие аппаратурные средства контроля, которые позволяют почти полностью совместить во времени выполнение основных и контрольных операций.
Для снижения затрат машинного времени и труда на профилактические испытания следует снабжатьЭВМ аппаратурно-программными средствами автоматизации контроля.
Продукция вычислительной машины — информация – не имеет своего эталона, т. к. машина решает задачу вычисления заранее неизвестных величин. Это условие определяет свои особые формы контроля, в основе которых лежитиспользование избыточной информации в процессе работы машины.
При использовании аппаратурных средств автоматизации контроля речь идет об аппаратурной избыточности, сущность которой можно охарактеризовать следующим:
- все операции выполняются параллельно на одинаковых компонентах системы, а результаты их работы затем сравниваются, что позволяет выявить ошибки;
- в случае выхода из строя какого-либо компонента его резервные аналоги продолжают работу без остановки, а отказавший компонент заменяется на работоспособный.
Программная избыточность предусматривает:
- последовательное во времени выполнение одних и тех же информационных процессов и дублирование данных;
- автоматическое восстановление отказавших операционных систем, программ-приложений и искаженных данных.
Кпрограммным средствамотносятся такжеконтрольные программыили специальные приемы программирования, позволяющие проверять правильность работы ЭВМ. Контроль может быть произведен с помощью программ тестовых задач (т. е. задач с известным решением), пропускаемых перед решением основной задачи. При правильном решении тестовых задач имеется определенная вероятность, что в течение некоторого ближайшего промежутка времени машина будет работать правильно.
Контроль во время решения основной задачи осуществляется путем введения в выполняемую программу специальных контрольных процедур, позволяющих установить достоверность решения всей задачи или ее части. Для этого проводят двойной просчет для одной и той же программы с последующим сравнением результатов. Иногда используют проверку вычислений по неиспользованным в основном алгоритме соотношениям, например, проверка правильности вычисления SIN(x) и COS(x) по формуле SIN2 Х + COS2 Х = 1 и т.п.
2 Систематические коды. Контроль по четности,
нечетности, по Хеммингу
При контроле передачи информации наибольшее распространение получили методы информационной избыточности, использующие коды с обнаружением и коррекцией ошибок.
Если длина кода п разрядов, то таким двоичным кодом можно представить максимум 2п различных слов. Если все разряды слова служат для представления информации, код называется простым (неизбыточным). Коды, в которых лишь часть кодовых слов используется для представления информации, называются избыточными. Часть слов в избыточных кодах является запрещенной, и появление таких слов при передаче информации свидетельствует о наличии ошибки.
Принадлежность слова к разрешенным или запрещенным словам определяется правилами кодирования, и для различных кодов эти правила различны.
Различают коды равномерные и неравномерные. В равномерных кодах все слова содержат одинаковое число разрядов. В неравномерных кодах число разрядов в словах может быть различным. В вычислительных машинах применяются преимущественно равномерные коды.
Способность кода обнаруживать или исправлять ошибки определяется так называемым минимальным кодовым расстоянием.
Кодовым расстоянием между двумя словами называется число разрядов, в которых символы слов не совпадают. Если длина слова п, то кодовое расстояние может принимать значения от 1 до п.
Минимальным кодовым расстоянием данного кода называется минимальное расстояние между двумя любыми словами в этом коде. Если имеется хотя бы одна пара слов, отличающихся друг от друга только в одном разряде, то минимальное расстояние данного кода равно 1.
Простой (неизбыточный) код имеет минимальное расстояние dmin = 1. Для избыточных кодов dmin > 1. Если dmin ³ 2, то любые два слова в данном коде отличаются не менее чем в двух разрядах, следовательно, любая одиночная ошибка приведет к появлению запрещенного слова и может быть обнаружена.
В общем случае, чтобы избыточный код позволял обнаруживать ошибки кратностью r, должно выполняться условие
Действительно, одновременная ошибка в r разрядах слова создает новое слово, отстоящее от первого на расстоянии r. Чтобы оно не совпало с каким-либо другим разрешенным словом, минимальное расстояние между двумя разрешенными словами должно быть хотя бы на единицу больше, чем r.
Для исправления r -кратной ошибки необходимо, чтобы новое слово, полученное в результате такой ошибки, не только не совпадало с каким-либо разрешенным словом, но и оставалось ближе к правильному слову, чем к любому другому разрешенному слову. От правильного слова новое отстоит на расстоянии r. Следовательно, от любого другого разрешенного слова оно должно отстоять не менее чем на r + 1, а минимальное кодовое расстояние должно быть не менее суммы этих величин: