Qualquer que seja o serviço fornecido por um sistema informático, é essencial que os utilizadores tenham confiança no seu funcionamento para poder utilizá-lo em boas condições. O termo “segurança de funcionamento” caracteriza o nível de confiança de um sistema informático.
Uma insuficiência corresponde a um disfuncionamento do serviço, ou seja, um estado de funcionamento anormal ou mais exactamente não conforme às especificações. Do ponto de vista do utilizador, um serviço possui dois estados:
Uma insuficiência é imputável a um erro, ou seja, um disfuncionamento local. Os erros não conduzem necessariamente todos a uma insuficiência do serviço.
Existem vários meios para limitar as insuficiências de um serviço:
Chama-se “elevada disponibilidade” (em inglês “high availability”) a todas as disposições destinadas a garantir a disponibilidade de um serviço, ou seja assegurar, o bom funcionamento de um serviço 24/24.
O termo “disponibilidade” designa a probabilidade de um serviço estar em bom estado de funcionamento a um momento dado.
O termo “fiabilidade”, às vezes igualmente utilizado, designa a probabilidade de que um sistema esteja em funcionamento normal num período dado. Fala-se assim “de continuidade de serviço”.
A disponibilidade exprime-se na maior parte do tempo sob a forma de taxa de disponibilidade, expressa em percentagem, mostrando o tempo de disponibilidade sobre o tempo total. O quadro seguinte apresenta o tempo de indisponibilidade (em inglês downtime) na base de um ano (365 dias) em função da taxa de disponibilidade:
| Taxa de disponibilidade | Duração de indisponibilidade |
|---|---|
| 97% | 11 dias |
| 98% | 7 dias |
| 99% | 3 dias et 15 horas |
| 99,9% | 8 horas et 48 minutos |
| 99,99% | 53 minutos |
| 99,999% | 5 minutos |
| 99,9999% | 32 segundos |
Com efeito, a avaria de um sistema informático pode causar uma perda de produtividade e de dinheiro, ou mesmo perdas materiais ou humanas, em certos casos críticos. É assim essencial avaliar os riscos ligados a um disfuncionamento (erro) de um dos componente do sistema de informação e prever meios e medidas que permitem evitar ou restabelecer em tempos aceitáveis qualquer incidente.
Como se sabe, os riscos de avarias de um sistema informático em rede são numerosos. A origem dos erros pode ser esquematizada da seguinte maneira :
O conjunto destes riscos pode ter diferentes causas como as seguintes:
Dado que é impossível impedir totalmente as avarias, uma solução consiste em instalar mecanismos de redundância, duplicando os recursos críticos.
A capacidade de um sistema para funcionar apesar de uma insuficiência de um dos seus componente chama-se tolerância às avarias (às vezes, tolerância aos erros em inglês fault tolerance).
Quando um dos recursos avaria, os outros recursos tomam a retransmissão a fim de dar o tempo aos administradores do sistema para remediar avaria. Em inglês, o termo de “Fail-Over Service” (notado FOS) é assim utilizado.
Idealmente, no caso de uma avaria material, os elementos materiais defeituosos deverão poder ser “retirados a quente” (em inglês “hot swappable”), ou seja, poder ser retirados e seguidamente substituídos, sem interrupção de serviço.
No entanto, a instalação de uma arquitectura redundante permite apenas garantir a disponibilidade dos dados de um sistema, mas não permite proteger os dados contra os erros de manipulação dos utilizadores ou contra catástrofes naturais como um incêndio, uma inundação ou ainda um tremor de terra.
É por conseguinte necessário prever mecanismos de salvaguarda, de preferência em sites distantes, a fim de garantir a perenidade dos dados.
.