venerdì 19 settembre 2008

Spegni e riaccendi



Lavorando ormai da più di 8 anni nel mondo dell'IT la vecchia regola del Spegni e Riaccendi per far funzionare le cose è entrata di diritto nei miei circuiti mentali.

Trovare però scritto nero su bianco che la mitica AT&T utilizzava tale regola in maniera sistematica per far funzionare i propri commutatori nella rete telefonica non mi era mai passato per la testa.

Ed invece leggendo il libro di Bruce Sterling "Giro di vite contro gli hacker" (qui su Anobii) leggo il seguente brano dove si racconta quello che è accaduto nel 1990 e che ha portato ad un blackout parziale della rete telefonica:

"...commutatori 4ESS incorporavano un difetto piccolo ma fatale.
Per mantenere la rete i commutatori devono controllare la condizione delle macchine a loro equivalenti, verificando se sono pronte e funzionanti, se sono temporaneamente bloccate, se sono sovraccariche o se hanno bisogno d'aiuto.
Il nuovo sw aiutava a eseguire queste funzioni di supervisione monitorando le informazioni sullo stato degli altri commutatori.
A un 4ESS che abbia dei problemi occorrono solo sei secondi per sbarazzarsi di tutte le sue conversazioni, scollegarsi temporaneamente e reinstallare il nuovo software.
Ricominiciare in questo modo di solito libera il commutatore da ogni problema software che possa essersi sviluppato durante il funzionamento del sistema: tutto questo processo spazza via gli eventuali inconvenienti.
E' una idea astuta e questo processo di reboot automatico è considerato come la normale routine per eliminare gli errori.
....
Non appena si fermavano a registrare che il loro collega era OK, diventavano anch'essi vulnerabili alla remota eventualità che due chiamate telefoniche li raggiungessero nel giro di un centesimo di secondo l'una dall'altra.
... verso le quattordici e venticinque di lunedì 15 gennaio 1990, undo dei sistemi di commutazione 4ESS della AT&T collocati a NY incontrò un piccolo problema di routine.
Cominciò le procedure di riparazione dell'errore, annunciò mi sto scollegando e poi sono tornato, sono OK.
...
Ma tre commutatori (Atlanta, StLouis e Detroit) ebbero meno fortuna e collassarono. Ritornarono quasi immediatamente al lavoro ma cominciarono a trasmettere il messaggio fatale, OK,
In questo modo attivavano il difetto del software che era in attesa negli altri commutatori.
Via via che un numero sempre maggiore di macchine collassava, il traffico delle chiamate si concentrò sui commutatori funzionanti ... ci vollero 10 minuti perchè la reazione a catena paralizzasse la rete.
... Alcuni milioni di chiamate non andarano a buon fine."

Insomma d'ora in poi quando dovrò riavviare il mio PC non mi sentirò più triste di fronte all'informatica ed ai suoi falsi misteri!

Nessun commento: