Контроль технического состояния АСОИУ в процессе эксплуатации

Одним из основных факторов, влияющих на надежность АСОИУ, является контроль состояния системы. В сочетании с методами по включению резерва, ремонта отказавшей аппаратуры и корректировке ошибок ПО контроль является одним из самых эффективных средств повышения надежности АСОИУ.

Под контролем АСОИУ понимаются процессы, обеспечивающие обнаружение ошибок в работе автоматизированной системы, вызванных отказами или сбоями аппаратуры, ПО или ошибками человека – оператора [1.7].

Важным показателем качества контроля является полнота контроля. Количественно полнота контроля оценивается отношением, показывающим относительное число элементов схемы (количество команд программы), охваченных данным способом контроля.

По типу применяемых средств контроль АСОИУ разделяется на аппаратный, программный и смешанный, осуществляемый совместно аппаратными и программными средствами.

Аппаратный контроль отличается большим быстродействием, но требует дополнительной аппаратуры.

Программный контроль требует дополнительного объема памяти для размещения программ контроля и связан с некоторым расходом дополнительного процессорного времени для выполнения программ контроля. Как правило, программный контроль обладает большей полнотой, чем аппаратный.

По выполняемым функциям контроль делится на оперативный и тестовый.

Оперативный контроль осуществляется в ходе решения функциональных задач АСОИУ и позволяет немедленно обнаруживать ошибку в ее работе. Оперативный контроль в принципе не является полным.

Тестовый контроль осуществляется в специально отведенные промежутки времени при помощи специальных тестовых задач. Он основан на тестах, которые могут обеспечить полный контроль объекта (элементов аппаратуры или команд программы) за минимальное время. Недостаток тестового контроля – потеря процессорного времени, расходуемого на тесты. Тестовый контроль, как правило, не позволяет обнаруживать сбои аппаратуры в процессе ее эксплуатации, так как обычно к моменту проведения теста имевший место сбой спонтанно исчезает.

По способу организации различают контроль прямой, обратный, смешанный.

При прямом контроле основной вычислительный процесс О с определенными исходными данными Хсопровождается параллельным процессом П.В случае безошибочной работы системы результаты этих процессов должны совпадать (это определяется сравнивающим устройством М). Метод позволяет выявить отказы и сбои аппаратуры, если процессы О и П выполняются по одной и той же программе. Если эти процессы выполняются с помощью разных программ, то можно определить ошибки и в программах (см. п. 6.5.2). Основной недостаток прямого контроля – большая трата аппаратных средств (обычно его проводят на резервированной аппаратуре). Если же процессы О и Пвыполнять последовательно, то потребуется избыток времени, при этом будут выявлены только сбои аппаратуры.

Для некоторых задач, характеризуемых взаимно однозначным соответствием между исходными данными и результатами, эффективнее применять обратный контроль. При таком контроле параллельный процесс П1с исходными даннымиУ и результатом Хосуществляет обратное преобразование контролирующего процесса О. Например, если осуществляется операция извлечения квадратного корня, то проще осуществить контроль возведением полученного результата в квадрат и сопоставлением его с исходной величиной. Недостатком обратного контроля, кроме ограниченности класса решаемых задач, является расход дополнительного времени.

Иногда используется смешанный контроль, при котором как исходные данные, так и результаты подвергаютсянекоторым преобразованиямП2 и П3 ,подобранных так, чтобы в случае безошибочных результатов процессов получались сопоставимые данные.

По объекту контроля различают контроль аппаратуры, программного обеспечения и человека-оператора.

В качестве оперативных методов контроля аппаратуры используется кодовый контроль, который основан на том факте, что коды, циркулирующие в ЭВМ, во многих случаях могут быть разделены на допустимые (правильные) и неправильные. Так можно выявить недопустимые коды операций, адресов. Для несложных цифровых устройств применяется также контроль по модулю [1.7]: числовой и цифровой, которые позволяют выявить ошибки в работе аппаратуры преобразования данных, например, сумматоров и ошибки аппаратуры передачи и хранения данных (при этом методе на уровне интегральных схем вводятся дополнительные схемы контроля). Эти виды контроля не являются полными. Полный контроль возможен при дублировании аппаратуры (см. п. 4.4). Тогда необходимо использовать схемы сравнения на выходе дублированной структуры.

Для оперативного программного контроля в АСОИУ, где выполняется ограниченное число функциональных программ, как правило, используется программно-логический контроль: контроль длительности выполнения программ, последовательности выполнения, метод контрольных функций и т.д. (см. п. 6.5.2).

Тестовый контроль аппаратуры обеспечивает проверку правильности работы аппаратуры при помощи специальных тестовых последовательностей, записываемых на внешних накопителях ЭВМ вместе с правильными результатами. Расхождение между записанными и полученными результатами тестов являются признаками отказов.

В настоящее время, учитывая широкое использование в аппаратуре АСОИУ больших интегральных схем (БИС и СБИС), получили распространение вероятностные методы тестирования, при которых проверка правильности работы аппаратуры достигается с большой долей вероятности. К таким методам относятся методы компактного тестирования (например, сигнатурного анализа). При компактном тестировании на вход схемы подается некоторая последовательность тестов. Выходные сигналы необходимо сравнивать с эталонными последовательностями. Чтобы сократить объем запоминаемой информации, в качестве результата тестирования используется не вся выходная информация, а некоторая «сжатая» характеристика, например, число единиц или число переходов 0-1 и 1-0 в последовательности. Такая «сжатая» характеристика называется сигнатурой.

При мажоритарном резервировании аппаратуры ( см.п.4.4) может быть применен метод сравнения с эталоном [1.7].