Resilienza Olistica

Governare le fasi di O&M delle infrastrutture Mission Critical

  • Dicembre 14, 2022
  • 152 views
  • Resilienza Olistica
    Resilienza Olistica
  • Resilienza Olistica
    Resilienza Olistica
  • Resilienza Olistica
    Resilienza Olistica
  • Resilienza Olistica
    Resilienza Olistica
  • Resilienza Olistica
    Resilienza Olistica
  • Resilienza Olistica
    Resilienza Olistica
  • Resilienza Olistica
    Resilienza Olistica
  • Resilienza Olistica
    Resilienza Olistica

Introduzione

Il sistema critico (critical system) è un generico sistema che, in caso di mancato funzionamento, può provocare danni inaccettabili. Nel mercato attuale, l’interazione e la gestione dei dati in tempo reale tra clienti, fornitori e persino macchine, sono elementi essenziali per la creazione di valore digitale.

Le infrastrutture coinvolte nella gestione di sistemi critici, sono normalmente definite Infrastrutture Mission Critical (MCI). Ogni infrastruttura critica è concepita e studiata nei minimi dettagli per garantire la continuità operativa ed evitare disservizi, erogare servizi con un elevato livello di efficienza, garantire la massima affidabilità impiantistica e strutturale, nonché essere correttamente localizzata al fine di essere considerata inattaccabile da fattori esogeni.

I maggiori rischi di una MCI, come per esempio i datacenter, sono da associare a fattori esogeni ed endogeni all’infrastruttura fisica e ai processi di funzionamento, ma certamente quelli più elevati, che causano l’88% dei guasti e disservizi inaspettati, sono da collegare a fattori umani e di funzionamento delle macchine.

Rischi prevalenti ed interruzioni inaspettate

Secondo un'indagine sulla resilienza dei Data Center effettuata nel 2022 da Uptime Institute, negli ultimi tre anni l'80% dei gestori e degli operatori di Data Center ha subito interruzioni inaspettate. Oltre il 60% dei guasti comporta almeno 100k $ di perdite (39% nel 2019) e oltre il 15% di perdite superiori a 1 mio $ (11% nel 2019).

I problemi legati all'alimentazione (43% delle interruzioni significative), alle interruzioni di rete (causa principale di downtime dei servizi IT) e a interruzioni importanti degli operatori pubblici sono ulteriori aspetti critici da considerare. Ma l’elemento più significativo sul quale è possibile operare direttamente con strategie di mitigazione del rischio, riguarda l’errore umano.

La stragrande maggioranza delle interruzioni dovute a errori umani riguarda procedure ignorate o inadeguate. Quasi l'85% degli incidenti deriva dal mancato rispetto delle procedure da parte del personale o da difetti nei processi e nelle procedure stesse.

In altri casi ci si affida all’esperienza e alla conoscenza da parte del personale che vi opera, tralasciando il fatto che il know how non dev’essere solamente appannaggio di pochi, non rappresenta una conoscenza individuale e personale, ma un valore e un elemento patrimoniale dell’azienda. Tutte le informazioni, le conoscenze e le modalità operative devono essere descritte in modo chiaro, esaustivo ed esauriente; informazioni che devono diventare un bene economico e come tale dovrebbero assumere un ruolo chiave all’interno delle organizzazioni e costituire un patrimonio di utilità aziendale.

Sicuramente ogni operatore e gestore di Data Center cerca di affidare le attività di O&M al personale migliore, più affidabile e maggiormente preparato, ma l’adozione di adeguati processi e procedure per queste fasi, concepite con l’obbiettivo di ridurre i rischi e gli errori, applicando corrette sequenze operative e originando veri e propri automatismi che non lascino libera interpretazione agli addetti, sono uno degli elementi essenziali per poter garantire l’efficienza e la continuità dei propri asset.

Determinare ed organizzare i processi di O&M

Una valutazione oculata e una conduzione organizzata dei processi di Operation & Maintenance sono aspetti fondamentali che permettono di ridurre i disservizi, evitare i maggiori rischi operativi, gestire in modo ordinato e metodico tutte le attività di manutenzione, nonché i possibili scenari di emergenza e di guasto per ogni singolo fattore che possa mettere in crisi il dato custodito all’interno del Datacenter.

Dotarsi di un sistema strutturato e organizzato composto da piani, programmi, standard e procedure SOP / MOP / EOP, elementi essenziali nella gestione e nel controllo dei processi di Maintenance, Operation ed Emergency, garantisce l’ottimizzazione delle attività di Facility Management e permette di supportare adeguatamente le attività di controllo di tutti gli operatori del team di facility con l’obbiettivo specifico di interrompere la catena dell’errore e quindi di ridurre al massimo i rischi prevalenti.

Ulteriori elementi, determinanti per l’ottimizzazione dei processi di O&M, sono da individuarsi nell’organizzazione e nella gestione del magazzino, aspetto essenziale per evitare rischi connessi con le tempistiche di approvvigionamento del materiale sul mercato, nella valutazione costante del ciclo di vita delle apparecchiature critiche nonché nella gestione di un capacity plan che possa evitare, in caso di nuove installazione di server ed apparati, il sovraccarico dell’intera infrastruttura elettrica e di condizionamento.

Grazie all’adozione del sistema MMS – Maintenance Management System –, strutturato e derivato dalle più moderne best practice internazionali, è possibile concentrare il focus sulla preparazione tecnica, sulla formazione continua, sulla certificazione delle competenze e sui controlli di campo del team dedicato alle fasi di O&M di un Data Center.

Negli ultimi anni, Istituti di rilevanza internazionale, come ad esempio Uptime Institute, hanno definito best practice le fasi di gestione e manutenzione di infrastrutture mission critical che, anche grazie all’evoluzione crescente del mercato, hanno portato alla definizione di standard, linee guida e certificazioni dei processi. Alla certificazione dei processi sono state affiancate quelle del personale che opera presso i Data Center con il fine di creare modelli riconoscibili e condivisi di valutazione del relativo livello qualitativo. 

Esperienza e competenza del team di facility management

Il fattore umano, circa il 30% dei rischi di interruzione nelle MCI, è certamente uno dei fattori più complessi sui quali è indispensabile concentrare i propri sforzi. 

Le fasi e le attività di O&M di un Data Center devono essere affidate a tecnici adeguatamente formati, competenti e con nozioni specialistiche multidisciplinari, che siano in grado di operare autonomamente su tutti gli impianti (meccanici, elettrici, speciali, ecc.) e i sistemi (Sicurezza, BMS, EMS, ecc.), e che siano costantemente aggiornati rispetto alle tecnologie, anche innovative, che si trovano a gestire.

Il monitoraggio costante, l’adozione di un metodo di gestione dei processi e la formalizzazione di procedure e specifiche, permettono di porre in atto azioni di mitigazioni, pianificazioni, valutazioni predittive, prevenzione di guasti e programmazioni accurate che consentono di simulare scenari futuri al fine di compiere azioni tempestive ed efficaci che riducano e mitighino problematiche nel medio e lungo periodo.

I tecnici del team di Facility Management devono essere abilitati a operare all’interno dei data center, dedicati full time alle attività e preferibilmente certificati da associazioni internazionali riconosciute dai settori specialistici dove operano (es. Uptime Institute, ANSI/TIA 942, ecc.).

Considerando la specializzazione necessaria, le competenze multidisciplinari richieste nonché la specifica congiuntura di mercato che vede, in Italia, un aumento sensibile delle infrastrutture Mission Critical da gestire e manutenere, la disponibilità effettiva di personale specializzato è un elemento molto critico da valutare attentamente per poter garantire nel tempo la continuità dei servizi erogati, i KPI e gli SLA richiesti agli operatori del settore.

Innovazione e digitalizzazione dei processi potrebbero essere i driver corretti per garantire l’ottimizzazione e l’automazione delle fasi esecutive e a minor valore aggiunto, permettendo quindi al personale di concentrare al massimo impegno e sforzi sui temi maggiormente critici e sulle attività di controllo puntuale in campo.

Innovazione e digitalizzazione

Innovazione, revamping tecnologico e digitalizzazione dei processi sono i driver sui cui basare l’ottimizzazione delle fasi di O&M delle infrastrutture Missioni Critical.

Adottare soluzioni IT evolute basate sui paradigmi del gemello digitale (Digital Twin), sul controllo e la misura in campo attraverso piattaforme e sensoristica IoT e, soprattutto, sulle logiche del machine learning e della manutenzione predittiva, permette di agevolare notevolmente lo sviluppo delle attività di facility, concentrando il focus sulla pianificazione degli interventi, sulle attività di controllo mirato in campo e sulla gestione dei potenziali scenari di guasto ed emergenza, apportando quindi sensibili riduzioni alle interruzioni inaspettate dei servizi.

Grazie a queste tecnologie, inoltre, è possibile governare tutti gli aspetti connessi con la gestione dell’edificio (Building Management), la sostenibilità e l’efficienza energetica (Energy Management), nonché la sicurezza fisica e dei lavoratori (Security & Safety Management).

Personale esperto e competente, che opera in base a processi chiari e basati su best practice internazionali, adottando sistemi e soluzioni IT innovative; può essere la formula di successo per un modello evoluto di gestione e manutenzione.

Conclusioni

L’operatività di un Data Center molte volte è data per scontata; la sua manutenzione è affogata all’interno di contratti globali in quanto gestita insieme a quella di uffici ed impianti secondari. La consistenza e la solidità del servizio di manutenzione, spesso demandato a contratti in outsourcing, emergono solo a seguito di guasti o disservizi.

La tipologia di contratti, i modelli di gestione e controllo delle attività affidate all’esterno, nonché i costi a budget per le fasi di O&M sono spesso inadeguati.

La spesa sostenuta per la gestione della manutenzione viene vista come un costo da sostenere e non come un investimento rivolto al futuro. Così come vengono curate nei minimi dettagli le fasi di analisi, ideazione, progettazione e realizzazione dell’infrastruttura, la manutenzione dovrebbe essere pensata, pianificata, programmata, organizzata e monitorata anche nell’ottica di individuare le idonee tecnologie che nel tempo possano migliorare l’efficienza e l’affidabilità dell’infrastruttura stessa.

Ma qual è il reale costo di un disservizio, sia in termini di penali per il mancato rispetto di KPI e SLA, sia, in particolare, in termini di immagine e reputazione?

In un mercato in crescita come quello Italiano che vede, per altro, un aumento sensibile di infrastrutture nuove e maggiormente efficienti, quanti clienti potrebbero scegliere il Data Center più efficiente e dotato di processi O&M certificati?

C’è l’impellente necessità di stimolare un cambio di mentalità che rimetta in primo piano le azioni utili a garantire la continuità operativa di tali infrastrutture.

La Resilienza Olistica, applicata ai processi di gestione e manutenzione di infrastrutture Mission Critical assume un valore determinante, riposizionando al centro il capitale umano e le competenze del personale, sfruttando al massimo l’innovazione delle tecnologie e delle soluzioni IT come elemento di reale ottimizzazione di tutti i processi di controllo e conduzione dei propri asset.

Diventano quindi prioritarie la sicurezza, l’efficienza e le tecnologie predittive nel campo della manutenzione di un Datacenter, sempre più elemento strategico in un mondo digitale che raccoglie e custodisce il patrimonio informatico di Clienti, Enti e Istituzioni.

Alessandro Conte, KEYPERS s.r.l., CEO

Marco Spelta, KEYPERS s.r.l., Head of Sales

Marco Paccagnan, KEYPERS s.r.l., Head of Operations