Методы диагностирования можно классифицировать по нескольким признакам (рис. 13).
По способу диагностирования различают тестовое и функциональноедиагностирование (соответственно ТД и ФД). Системы ТД предназначены для проверки исправности объекта и поиска неисправностей, нарушающих его работоспособность. Отличительной особенностью ТД является возможность подачи на объект специальных тестовых воздействий. В большинстве случаев объект не применяется по прямому назначению. Если же объект функционирует по назначению, то тестовые воздействия могут быть только такими, которые не влияют на нормальное функционирование системы управления. Системы ФД предназначены для проверки правильности функционирования объекта и обнаружения неисправностей, нарушающих его нормальное функционирование. Системы ФД работают при применении объекта по назначению, когда на объект поступают только рабочие воздействия.
Развитие встроенных систем диагностирования идет по пути создания самотестируемых и самопроверяемых систем. В частности, в самотестируемых системах применяется метод расширяющихся областей, когда относительно небольшое «ядро» объекта считается работоспособным, а уже оно тестирует все остальные части, причем протестированные «присоединяются» к ядру для дальнейшего развития процесса самотестирования. Целесообразно ядро спроектировать самопроверяемым.
Схема является самопроверяемой, если для определенного класса неисправностей она при каждой неисправности, во-первых, формирует на выходе либо правильный сигнал, либо сигнал ошибки на всех допустимых комбинациях входных сигналов, а во-вторых, для нее существует хотя бы одна допустимая комбинациях входных сигналов, которая приводит к появлению на выходе сигнала ошибки.
При функциональном диагностировании перспективным средством повышения контролепригодности цифровых, в том числе микропроцессорных, систем ЖАТ является придание им свойства самопроверяемости.
Реконфигурация. Процесс изменения структуры системы при обнаружении неисправностей или в соответствии с изменением функциональных задач есть реконфигурация.
Реконфигурация системы при обнаружении отказа какого-либо элемента системы (одного или нескольких) проводится по инициативе системы диагностирования и необходима для сохранения максимально возможной при имеющихся отказах эффективности функционирования системы.
Реконфигурация при изменении состава функциональных задач применяется для достижения наибольшей эффективности в каждом из режимов:
решение задачи с высокими требованиями к безотказности, достоверности и безопасности;
решение задачи с повышенной точностью;
распараллеливание задачи для повышения производительности системы;
решение задачи с низкими требованиями к надежности и времени решения.
Восстановление. Применительно к управляющим вычислительным системам восстановление имеет два аспекта. Во-первых, это восстановление резерва, которое осуществляется вручную с использованием вспомогательных технических средств. Во-вторых, это восстановление вычислительного процесса (также встречаются термины «самовосстановление» и «рестарт»), которое выполняется автоматически самой системой.
Восстановление резерва может являться одной из следующих процедур: замена отказавших элементов на исправные; профилактическая замена элементов; ремонт элементов.
Отказавшие элементы заменяют на исправные по результатам функционального диагностирования, т.е. по факту отказа. Тем самым кратность резервирования доводится до первоначальной. В отличие от этого профилактическая замена проводится после истечения срока службы элемента или межремонтного срока. Отличительной особенностью здесь является то, что такая замена выполняется независимо от всех других мероприятий по обеспечению отказоустойчивости. Профилактическая замена позволяет поддерживать некоторое постоянное значение интенсивности отказов элементов. Что касается ремонта элементов, то можно отметить, что здесь эффективно применение средств тестового диагностирования.
Процедура восстановления вычислительного процесса проводится: после обнаружения ошибки функционирования системы; при введении в работу отремонтированного резерва (если резерв нагруженный).
В первом случае средствами технического диагностирования зафиксировано отклонение каких-либо параметров системы от нормы, например несоответствие результатов вычислений различных каналов обработки информации. Сначала необходимо классифицировать ошибку как сбой или катастрофический отказ. Для этого при наличии резерва времени повторяется эта же программа всеми каналами, причем возврат (рестарт) может быть к началу либо программы, либо программного модуля, при выполнении которого был зафиксирован отказ, либо команды программы, осуществлявшейся в момент возникновения ошибки или до нее. Если неисправность проявляется повторно, делается вывод о факте катастрофического отказа и проводится реконфигурация. В противном случае, т.е. при успешном повторном выполнении, предполагается, что имел место сбой и работа системы управления продолжается, а факт сбоя может быть зафиксирован для последующей статистической обработки.
При отсутствии резерва времени на обработку отказов элементов системы обычно имеют дело с маскирующими отказ решающими элементами, например мажоритарными. В таком случае тип ошибки определяется средствами встроенного тестирования отказавшего канала. Если эти средства сигнализируют о катастрофическом отказе, то также выполняется реконфигурация, если же речь идет о сбое — синхронизация работы каналов, т.е. отставший канал пытается догнать остальные, работающие синхронно. Для этого он инициирует обмен между всеми каналами для выравнивания данных, после чего проводится синхронный старт.
При введении в работу отремонтированного канала процедура восстановления вычислительного процесса аналогична: обмен между каналами для выравнивания исходных данных, синхронный старт.
Оценка отказоустойчивости. Рассмотренные способы создания отказоустойчивых систем требуют количественной оценки эффективности их применения. Для оценки эффективности возможны два подхода. При первом качественно оценивается возможность достижения отказоустойчивости благодаря:
оперативному обнаружению ошибок с одновременной их классификацией (сбой или отказ);
оперативному устранению ошибки, вызванной сбоем или отказом.
Второй заключается в количественной оценке отказоустойчивости: определяется число отказавших элементов, при котором система продолжает функционировать.
Показатель степени отказоустойчивости
где:
— интенсивность отказов элементов системы, которые не приводят к нарушению функционирования системы; — интенсивность отказов системы (интенсивность отказов элементов, приводящих к нарушению функционирования системы).Показатель эффективности введения мероприятий по отказоустойчивости
где: Точ— время наработки на отказ системы, обладающей отказоустойчивостью; То— время наработки на отказ системы, не обладающей отказоустойчивостью.
Безопасность МП систем ЖАТ. В отличие от релейных элементов МП при отказе не переходят в защитное состояние, если не использовать специальные меры по контролю правильности их функционирования. Поэтому для синтеза МП систем ЖАТ требуется разрабатывать новые методы обеспечения безопасности, отличные от методов с использованием элементов с несимметричной характеристикой отказов.
Наиболее часто для обеспечения безопасности МП систем ЖАТ используют структурное резервирование, реализуемое аппаратными или программными средствами, т.е. применяют способ параллельной обработки информации в нескольких микроЭВМ или с использованием нескольких программ в одной микроЭВМ.
Для контроля правильности работы каналов обработки информации аппаратно или программно сравнивают результаты выполнения отдельных команд или решения отдельных задач.
Программные методы резервирования и контроля требуют большего (чем аппаратные) времени обнаружения отказов и при их использовании трудно обеспечить требование независимости отказов в различных программах обработки информации. Поэтому в большинстве существующих МП систем ЖАТ используются программно-аппаратные методы контроля правильности функционирования n-кратно резервированных вычислительных каналов, выходные сигналы которых формируются по мажоритарному или конъюнктивному закону.
Резервированием, контролем функционирования и реконфигурацией обеспечивается безопасность МП систем ЖАТ при отказах внутренних элементов микроЭВМ, но необходимо обеспечить также безопасное управление исполнительными объектами при повреждении выходных элементов.
Для количественной оценки безопасности используют вероятностные показатели, определенные ОСТ 32.17—92:
вероятность безопасной работы за время t
где
— функция распределения наработки до опасного отказа; вероятность опасного отказа