«100+»:18 аспектов аварий сложных систем. Как «падают» системы

100+  Современные программно-аппаратные комплексы, созданные на базе информационных технологий, относятся к классу так называемых сложных человеко-машинных систем. Устойчивость таких систем к сбоям является важнейшей задачей на всем их жизненном цикле. Ричард И. Кук, Лаборатория когнитивных технологий (США, Чикаго), предлагает новый взгляд на безопасность сложных систем. Он дает свое видение того, как определить сбой, как он соотносится с непосредственной его причиной — эти и другие аспекты  природы   технических   сбоев   приводятся в данной статье  

 1. Сложные системы по своей природе являются рискованными системами

Интересующие нас системы (напри мер, транспорт, здравоохранение, энергетика) неизбежно являются опасными по своей сути. Частота подверженности опасности может меняться, но процессам, задействованным в системе, самим по себе свойственно быть неизменно опасными. Именно наличие этих опасностей обусловливает создание средств защиты, с учетом характерных особенностей каждой из систем.

2. Сложные системы в значительной степени успешно защищены от сбоев

Серьезные последствия сбоев приводят с течением времени к построению нескольких уровней защиты от них. Средства защиты включают очевидные технические компоненты (например, системы резервного копирования, «защитные» характеристики оборудования) и человеческие компоненты (например, обучение, знания), а также целый ряд организационных, институциональных и нормативных средств защиты (например, политики и процедуры, сертификация, правила работы, обучение групп). Действенность этих мер заключается в предоставлении ряда щитов, которые обычно предотвращают аварии операций.

3. Катастрофа требует нескольких сбоев – единичного отказа недостаточно

Набор средств защиты работает. Системные операции, как правило, успешны. Явный катастрофический внезапный сбой происходит тогда, когда небольшие и, по-видимому, безобидные отказы объединяются и создают возможность для системной аварии. Каждый из этих мелких отказов необходим, чтобы вызвать сбой, но только их сочетание является достаточным для начала катастрофы. Иными словами, должно случиться много сбоев, чтобы произошла авария системы. Большинство первоначальных сценариев отказов блокируются разработанными элементами защиты системы. Сценарии, достигающие операционного уровня, тоже в основном блокируются, как правило, персоналом.

4. Сложные системы содержат изменяющиеся сочетания скрытых сбоев

Сложность систем делает невозможным избежать присутствия множества недостатков. Так как по отдельности их недостаточно, чтобы вызвать сбой, они рассматриваются как второстепенные факторы во время работы системы. Ликвидация всех скрытых сбоев ограничена, прежде всего, экономическими затратами, а также тем, что трудно предвидеть, как такие сбои могли бы привести к аварии. Сбои постоянно меняются из-за изменения технологий, организации труда и усилий по их устранению.

5. Сложные системы работают в режиме деградации функциональности

 Следствием предыдущего пункта является то, что сложные системы работают как системы с нарушением функциональности. Система продолжает функционировать за счет избытка персонала, который вручную может выполнять некоторые ее функции, устраняя имеющиеся недостатки. После аварии в обзорах почти всегда отмечается, что система имеет свою предысторию аварий, которые привели к катастрофе. Аргументы, что ухудшение работоспособности следовало обнаружить до явной аварии, как правило, основаны на наивном представлении о производительности системы. Системные операции являются динамическими, их компоненты (организационные, человеческие, технические) подвержены сбоям и постоянно меняются.

6. Катастрофа всегда совсем рядом

Сложные системы предрасположены к катастрофическому сбою. Персонал постоянно находится в физической и временной близости к потенциальному сбою системы – опасность, ведущая к катастрофе, может возникнуть в любое время и практически в любом месте. К тому же отличительной чертой сложных систем является масштабность последствий аварии. И устранить возможность такого катастрофического внезапного отказа невозможно, потому что потенциал для него всегда присутствует в самой природе системы.

7. Поставарийное определение «основной причины» в принципе невозможно

Потому что явный сбой требует множественных неисправностей. Нет отдельной «причины» аварии, есть множество ее составляющих, каждая из которых сама по себе не является достаточной для аварии. Только совокупность этих причин создает необходимые условия для нее. Таким образом, никакого выделения «основной причины» аварии быть не может. Оценки, основанные на таких рассуждениях, как выделение «основной причины», не отражают технического понимания природы аварии, но, скорее, выявляют социальную, культурную потребность найти виновных среди персонала или сослаться на специфические условия.

8. Необъективность поставарийной оценки действий сотрудников

Осознание последствий создает впечатление, что события, приведшие к ним, должны были казаться более важными для персонала, чем это было на самом деле. Это означает, что после аварии анализ деятельности людей является неточным. Знание о результате аварии ухудшает способность расследующих ее экспертов воссоздать видение персонала до выявления аварийных факторов. Кажется, что персонал «должен был знать», что определенные факторы «неизбежно» приведут к аварии. Поставарийная необъективность остается основным препятствием для расследования аварии, особенно когда вовлечен эксперт по оценке качества работы персонала.

9. Две роли персонала: вызывает сбой и предотвращает его

Персонал системы, с одной стороны, управляет ею с целью производства требуемого продукта, с другой – работает, чтобы предотвратить аварию. Это динамическое качество персонала, балансировка между заказами на производство и возможностью начинающегося сбоя неизбежна. Постороннему трудно понять двойственность этой роли. В неаварийное время преобладает роль производства, а после аварии – роль защиты от сбоя. Посторонний человек не понимает, что в любое время оператор одновременно выполняет обязанности по этим ролям.

10. Все действия персонала являются рискованными

После аварии явный сбой часто кажется неизбежным, а действия персонала ошибочными, преднамеренными, умышленными и несерьезными в свете приближающейся угрозы сбоя. Но на самом деле все действия персонала являются рискованными, то есть такими, которые предпринимаются в условиях, когда их последствия точно не известны. Степень неопределенности может меняться. То, что действия  персонала являются рискованными, становится ясно только после аварии. В общем, поставарийный анализ рассматривает эти рискованные действия как негативные. При этом обратное мнение о том, что успешные последствия также являются результатом рискованных действий, как правило, не учитывается.

11. Действия во время критической ситуации разрешают все двусмысленности

Организации неоднозначно понимают, часто намеренно, отношения между производственными заданиями, эффективным использованием ресурсов, экономикой и затратами на операции, и приемлемые риски во время аварий с низким и высоким уровнем последствий. Вся неоднозначность разрешается действиями персонала во время критической ситуации. После аварии его действия можно рассматривать как «ошибки» или «нарушения», но эти оценки сильно необъективны и игнорируют другие факторы, особенно «давление» производства.

12. Персонал как адаптирующий элемент в сложных системах

Операционный персонал и его руководство активно приспосабливают систему к максимальной производительности и минимальным сбоям. Такая адаптация системы проводится время от времени. Она включает, например, следующее: (1) реструктуризацию системы в целях уменьшения подверженности сбоям уязвимых частей; (2) сосредоточение критических ресурсов в местах ожидаемой наибольшей потребности в них; (3) обеспечение возможностей избежать ожидаемых и неожиданных неисправностей или восстановить работоспособность системы; (4) создание средств для раннего выявления изменений в работе системы с целью обеспечения возможности постепенного сокращения производства или других средств повышения отказоустойчивости.

13. Человеческий опыт, используемый в сложных системах, постоянно меняется

Для эксплуатации сложных систем и их управления требуется значительный человеческий опыт. Характер этого опыта меняется по мере изменения технологий, но также в связи с необходимостью замены персонала. В любом случае, обучение и совершенствование навыков и опыта работников является частью функции самой системы. Это значит, что в любой момент в сложной системе работают как опытные специалисты, так и стажеры, имеющие разный уровень знаний. Важнейшие вопросы, связанные с опытом работников возникают из необходимости (1) восполнять дефицит знаний и опыта, являющихся ресурсом для самых сложных и требовательных производственных нужд и (2) развивать опыт для будущего использования.

14. Изменения привносят новые формы сбоев

Редкость явных аварий в надежных системах может повлечь изменения (особенно при использовании новых технологий), направленные на уменьшение количества малозначительных, но часто повторяющихся сбоев. Эти изменения могут создать возможности для новых, редко повторяющихся, но очень значительных сбоев. Когда новые технологии используются для устранения широко распространенных системных сбоев или для получения большой производительности, они часто привносят новые пути возникновения крупномасштабных катастрофических сбоев. Не удивительно, что эти новые, редкие катастрофы имеют даже более тяжелые последствия, чем те, которые были устранены с помощью этой новой технологии. Эти неизвестные ранее формы сбоев трудно предугадать; внимание уделяется в основном предполагаемым полезным свойствам изменений. Так как эти новые, значительные аварии случаются редко, многие изменения в системе могут произойти до аварии, из-за чего трудно распознать роль новых технологий в произошедшем сбое.

15. Видение «причины», ограничивающей эффективность защиты от будущих событий

 Поставарийные средства для предотвращения «человеческой ошибки», как правило, основываются на ограничении той деятельности, которая является «причиной» аварии. Эти окончательные меры мало чем могут помочь в уменьшении вероятности дальнейших аварий. В действительности, вероятность идентичной аварии чрезвычайно низка, поскольку картина скрытых сбоев постоянно меняется. Вместо повышения безопасности, поставарийные средства обычно повышают сложность и связанность элементов системы. Это увеличивает потенциальное количество скрытых сбоев, а также усложняет обнаружение и блокирование сценария развития аварии.

16. Безопасность – это характеристика систем, а не их компонентов

Безопасность это внутреннее свойство систем; оно не присуще отдельному человеку или устройству, равно как не присуще и подразделению организации или компоненту системы. Безопасность не может быть куплена или изготовлена, потому что она не является свойством, отделенным от других компонентов системы. Это означает, что с безопасностью нельзя работать, как с исходным материалом или сырьем. Состояние безопасности в любой системе всегда динамично, непрерывные си стемные изменения приводят к постоянному изменению самих угроз и рисков и управления ими.

17. Люди непрерывно создают безопасность

Бесперебойная работа – результат деятельности людей, работающих, чтобы сохранить систему в пределах допустимой производительности. Эта деятельность в основном является частью нормальной работы и на первый взгляд не вызывает затруднений. Но, поскольку работа системы никогда не бывает беспроблемной, необходимость постоянной адаптации системы к изменяющимся условиям фактически меняет и безопасность. Эта адаптация системы часто достигается только выбором режима работы из имеющегося списка, а иногда, однако, адаптация представляет собой ранее не известные комбинации или вновь созданные новые подходы.

18. Безаварийное функционирование системы требует опыта работы со сбоями

Чтобы остаться в рамках допустимых границ производительности, распознавание опасностей и успешное управление системными операциями, требует хорошего «знакомства» со сбоями. Более надежная производительность, вероятно, возникнет в системах, где операторы смогут распознавать критические моменты. Это когда производительность системы начинает ухудшаться, ее становится трудно прогнозировать и невозможно легко восстановить. В опасных системах от операторов ожидают обнаружения и оценивания опасностей таким образом, чтобы, избегая их, можно было прийти к требуемой производительности. Повышение безопасности зависит от предоставления операторам проверенной информации об опасностях. А также от обеспечения проверки того, насколько их действия продвигают производительность системы ближе или дальше от критических точек.

Мнение редакции

Данная статья является своеобразным кратким руководством по природе сбоев. И хотя в инженерных дисциплинах излагаются курсы по надежности систем, тем не менее, приведенная в этом руководстве природа сбоев, их жизненного цикла и сопутствующие им типичные обстоятельства позволяют под новым углом зрения взглянуть на безопасность сложных систем.

Перевод Аллы Беляченко , ИТМ №4/2013