Dai primi bit ai Big Data, come sono cambiati il calcolo e le reti

20 Settembre 2023 | Alessandro Brunengo | Protagonisti

Articolo letto 1359 volte

di Alessandro Brunengo Presidente della Commissione Calcolo e Reti dell’INFN

Ricordo che è iniziato tutto un po’ per caso, come molto spesso accade.Mi sono laureato in fisica all’Università di Genova con un gruppo che si occupava di fisica sperimentale. Nella fase del post-laurea, proprio il giorno in cui ero andato nel laboratorio per portare via le mie cose, sono stato informato che era stato emesso un bando per una borsa di studio sulle reti e trasmissione dati al servizio calcolo della sezione INFN di Genova. Decisi quindi di parlarne con l’allora responsabile del servizio Corrado Salvo. Quella chiacchierata la ricordo ancora, una lezione affascinante sulle reti di trasmissione dati. L’argomento mi appassionò da subito e decisi di concorrere per questa borsa di studio, finalizzata alla configurazione del protocollo DECnet fase V su INFNet, la rete che all’epoca connetteva le sedi dell’INFN. Vinsi la borsa e nel 1992 cominciai a lavorare in questo settore.

Terminata la mia borsa di studio, ottenni un contratto a tempo determinato per l’INFN. Cominciammo a lavorare su alcuni protocolli di rete molto innovativi e sulla loro implementazione, in stretto contatto con i colleghi del CNAF ed in particolare con Enzo Valente, Antonia Ghiselli, Davide Salomoni e Cristina Vistoli. In particolare con Cristina ho lavorato sull’implementazione dei protocolli Frame Relay e ATM sui link di INFNet, con l’obiettivo di valutarne funzionalità e prestazioni.

È stata una fase molto interessante e formativa dal punto di vista tecnologico, che si è conclusa con la progettazione e l’implementazione di un collegamento ATM via ponte radio dei Laboratori Nazionali di Frascati con la sezione INFN di Roma 1. Questa soluzione si era resa necessaria per poter raggiungere i laboratori con un link a 34 Mbps, dato che in quel periodo i gestori della infrastruttura fisica non erano in grado di supportare tale esigenza. E’ stato un lavoro molto interessante e complesso, che ha incluso la valutazione di planimetrie ed altimetrie per la verifica della visibilità ottica per il link, l’analisi della frequenza delle piogge per stimare l’assorbimento della potenza del segnale, l’analisi della occupazione spettrale in prossimità delle antenne, ignota agli uffici ministeriali, ed un estenuante lavoro di ottimizzazione del puntamento ottico a 16 km di distanza.

Dalla rete al calcolo

Negli anni seguenti ho cominciato a fare attività a supporto al servizio calcolo e quindi a occuparmi della gestione dei mainframe e delle workstation, della configurazione dei sistemi di calcolo, dello sviluppo della rete locale, che ha avuto un’evoluzione molto legata all’evoluzione dell’hardware disponibile e conseguentemente dei modelli di calcolo locali.

Ho vissuto l’ultima fase in cui il calcolo veniva fatto in grossi mainframe, ospitati nella sala CED, a cui si accedeva attraverso dei terminali, se così vogliamo dire “privi di intelligenza” e quindi con limitate esigenze di banda verso il CED. Con la comparsa delle workstation, calcolatori discretamente potenti che permettevano al ricercatore di poter fare analisi usando la propria risorsa di calcolo, la potenza di calcolo ha cominciato a distribuirsi negli uffici e nei laboratori e ha portato alla naturale esigenza di avere una banda a più alta velocità e distribuita più capillarmente. L’Ethernet su cavo coassiale è stato rimpiazzato dalle tecnologie più performanti, come FDDI e Fast Ethernet switched, ed il bus soppiantato da topologie ad albero. Altro cambiamento importante in prospettiva è stato l’introduzione nel nostro ambiente del sistema operativo Unix, supportato dall’hardware dei maggiori produttori di calcolatori, il che permetteva di non essere più legati al vendor da cui l’hardware veniva acquistato. La conseguenza epocale di cio’ si è concretizzata quando questo sistema operativo è stato portato sui personal computer.

Dai personali computer ai centri di calcolo

Il personal computer, pur disponendo di una potenza di calcolo limitata rispetto a workstation e mainframe, era così poco costoso che acquistare tanti personal computer e organizzarli come un’unica risorsa di calcolo era diventata la soluzione più conveniente. Questo ha riguardato non solo il calcolo nella Fisica, ma in tutti i settori, ed ha spinto i produttori a sviluppare le tecnologie introdotte nei PC verso soluzioni oggi chiamate server, sempre compatibili con i PC a livello di processore, ma di notevole potenza di calcolo e elevate prestazioni di connettività’ di rete, e sempre a costi relativamente bassi. Tutto questo ha portato la necessità di evolvere la rete, sia a livello di banda che di complessità’ per connettere un numero di calcolatori molto più’ elevato, nuovamente concentrati nelle sale CED, e di andare dunque verso lo sviluppo dei grossi centri di calcolo che abbiamo oggi, tutti costituiti da centinaia o migliaia di server. Si tratta di macchine individualmente già molto potenti e che, messe insieme, forniscono una potenza di calcolo elevatissima.

Arrivano i big data

Un altro cambiamento di grande impatto è stata l’evoluzione di molti degli esperimenti di interesse per l’INFN, realizzati con apparati sperimentali che hanno cominciato a produrre enormi quantità di dati e che, di conseguenza, richiedevano un enorme sforzo per acquisire i dati, archiviarli e processarli. In particolare, quando è stato progettato LHC, è stato a tutti subito chiaro che ci sarebbe stata un’enorme quantità di dati prodotti a un elevato rate e che quindi ci sarebbe stata la necessità di sviluppare un computing model adeguato per supportare questa esigenza. Il progetto Monarc, collaborazione internazionale che ha coinvolto tutti i maggiori laboratori e istituti di ricerca della comunità di High Energy Physics, è stato essenziale per progettare un nuovo modello di calcolo e arrivare all’idea della struttura a Tier e del paradigma di calcolo Grid, che ha supportato inizialmente gli esperimenti di LHC, ma a seguire molti altri. E’ stata un’interessante attività di progettazione che mi ha visto partecipare per fare misure, test e validazione di idee e proposte fino ai primi anni del 2000. E’ cominciata quindi l’attività di organizzazione di sviluppo di questo modello di calcolo attraverso l’implementazione della infrastruttura del WorldWide LHC Computing Grid, che ha visto l’INFN in prima linea nella sua progettazione, e delle infrastrutture sottostanti che per l’INFN prevedeva la realizzazione del principale centro di calcolo nazionale, il Tier 1 del CNAF, ed i Tier 2 per il calcolo a livello regionale presso numerose sedi e laboratori dell’INFN. La distribuzione dei dati progettata dal modello di calcolo ha comportato l’esigenza di sviluppare un’architettura di rete nuova, e da lì è iniziato un importante lavoro in collaborazione con GARR e GEANT per realizzare la rete che ha supportato con successo questo modello. Ma le sfide non sono affatto finite, perché l’oggi è già un occhio verso il futuro.

Il Tecnopolo di Bologna

La crescita di esigenze presenti e future ma anche le esigenze di contenere i costi ha richiesto una riprogettazione del centro di calcolo nazionale del CNAF, orientata a soluzioni anche economicamente sostenibili. In quest’ottica si è sviluppata una sinergia con il CINECA che ha portato alla progettazione del Tecnopolo di Bologna, un nuovo centro di calcolo che ospita il nuovo supercalcolatore Leonardo del CINECA e, a breve, l’evoluzione del Tier1 dell’INFN, sfruttando sinergie, razionalizzando le infrastrutture, e permettendo l’interoperabilità’ dei due centri. Un progetto che garantisce scalabilità e sostenibilità del calcolo INFN per il prossimo decennio.

Il futuro è già oggi

Sta arrivando, infatti, LHC ad alta luminosità e questo porterà a una crescita molto elevata della quantità di dati che verranno prodotti. Ciò avverrà non solo nell’ambito della fisica delle particelle nucleari e subnucleari, ma anche nell’ambito di altre discipline, come ad esempio l’astrofisica, che cominciano ad avere esigenze di trattare grandi quantità di dati. Questa sfida richiede strumenti di calcolo oggi non disponibili.

Grazie ai finanziamenti del PNRR, è stato possibile ideare quello che è il progetto più grande in cui l’INFN si è impegnato dal punto di vista della creazione e implementazione, ovvero quello del Centro Nazionale HPC, Big Data e Quantum Computing. Si tratta di un progetto che vede in prima linea INFN, GARR e Cineca, e che coinvolge numerose altre istituzioni ed Università, che ha l’obiettivo di costruire, partendo dal Tecnopolo, un grande centro nazionale non soltanto per la ricerca INFN, delle università o degli altri enti di ricerca, ma per la ricerca tutto il sistema paese, inclusa la ricerca industriale. Sarà finalizzato a creare un importante strumento per fare calcolo e per gestire dati, accessibile e gestito secondo il paradigma cloud. GARR-T costituisce il perno fondamentale su cui si disegnerà e costruirà questo centro nazionale, che sarà sostanzialmente costituito da risorse distribuite in diversi centri, configurate in un Data Lake per la distribuzione, gestione ed accesso ai dati, e in centri di computing, dove saranno allocate le CPU si cui verranno eseguite le applicazioni di ricerca. Si tratta di una sfida importante, visto che stiamo realizzando qualcosa di nuovo e che sostanzialmente non esiste nella modalità in cui lo vogliamo sviluppare. Componente critica è lo sviluppo del middleware necessario a gestire e ad accedere a tutte queste risorse attraverso meccanismi di federazione e gestione delle autorizzazioni che permetteranno ai ricercatori di utilizzarle in maniera trasparente. Il progetto ha un respiro di tre anni, ma l’infrastruttura che verrà realizzata sarà mantenuta e sviluppata negli anni a seguire per soddisfare le future necessita’ della ricerca.

L’allargarsi della Comunità

L’INFN ha sempre avuto collaborazioni internazionali, ma solo da un certo punto in poi ha avuto bisogno di coordinarsi con altre Istituzioni per mettere a fattor comune le risorse computazionali. Questo allargamento di orizzonti sta continuando e si sta espandendo con la creazione del centro nazionale, che vedrà l’INFN in prima linea nella sua implementazione utilizzando in parte risorse proprie, in parte risorse di altri, federate e rese disponibili ad una comunità molto ampia.

Tutto ciò sarà possibile grazie alla grande esperienza che ha l’INFN sul calcolo distribuito, ed alla capacità di sviluppare tecnologie che possono poi essere messe a disposizione di tutta la comunità scientifica ed oltre, in uno scambio sinergico, aperto e fruttuoso per tutte le parti coinvolte.