Reti della ricerca e HPC: un connubio sempre più stretto

03 Agosto 2022 | Federica Tanlongo | Internazionale

Articolo letto 1478 volte

Con la domanda di calcolo scientifico in continua crescita, il modello HPC tradizionale cambia. E la rete evolve con esso

Massimo Carboni è Chief Technical Officer al GARR

Fino a pochi anni or sono, i casi d’uso dell’High Performance Computing nel calcolo scientifico erano relativamente pochi, con la fisica delle alte energie, LHC a fare da capofila. Oggi invece sono sempre di più i domini scientifici che producono e gestiscono grandi quantità di dati e hanno esigenze di calcolo ad alte prestazioni. Questa molteplicità di casi d’utilizzo da un lato e l’evoluzione tecnologica dall’altro stanno cambiando anche il modello di calcolo e l’architettura di rete destinata a servirlo. Ne abbiamo parlato con Massimo Carboni, Chief Technical Officer al GARR.

Come sta evolvendo l’HPC all’interno della comunità scientifica?

Cominciamo col dire che, quando oggi parliamo di HPC, in realtà stiamo riferendoci a qualcosa di molto meno monolitico di un tempo: la distinzione tra High Performance Computing tradizionale e High Throughput Computing va infatti progressivamente sfumando sia per l’evoluzione tecnologica sia per la crescita dei casi di utilizzo e la varietà delle discipline coinvolte.

Ci stiamo sempre più discostando dal vecchio modello di calcolo LHC-centrico tipico del Worldwide LHC Computing Grid (WLCG), per andare verso un concetto molto più ampio conosciuto col nome di “Science DMZ”. “DMZ” sta per demilitarised, ovvero “scienza demilitarizzata” e non fa riferimento alla geopolitica ma al fatto che l’attività di calcolo scientifico si svolge in un perimetro protetto, al cui interno sono presenti meno restrizioni, in modo da garantire basse latenze e alto throughput.

Cosa caratterizza questo nuovo modello?

Storicamente, le macchine dedicate all’HPC e all’HTC erano diverse e di conseguenza la scelta tra uno dei due modelli la si faceva all’origine, in base alle proprie esigenze. Oggi però i sistemi basati su CPU x86, GPU e networking a elevato throughput sono più versatili e possono essere integrati in una infrastruttura “ibrida” che unisca il modello HPC-supercalcolo tradizionale con quello HTC, allargando di molto la platea dei possibili utilizzatori.

Questo modello di calcolo ibrido converge verso il concetto di “data lake” e l’utilizzo di risorse di calcolo opportunistiche. Il data lake è un livello di astrazione dei dati, che da fuori vediamo come un oggetto unitario (in pratica, una specie di gigantesco hard disk esterno) e si relaziona con una parte computazionale composta in modo sempre più tecnologicamente agnostico da elementi che possono variare nel tempo, in base alle esigenze e alla disponibilità di risorse.

Come cambia il ruolo della rete?

Con lo spostamento verso il modello ibrido cresce l’importanza della rete ad alta capacità e ad alto throughput. Nel modello HPC tradizionale la rete altro non era che il veicolo con cui i dati di input arrivavano al sistema di calcolo, mentre in questo nuovo modello è all’interno di tutte le fasi del processo. Con la dispersione delle risorse di calcolo a livello geografico e la divisione tra queste e la componente di storage rappresentata dal Data Lake, viene meno la distinzione netta tra LAN e WAN e la rete entra dentro al modello di elaborazione, diventando l’elemento cardine che coniuga l’informazione con la capacità di elaborazione.

Grazie a questa evoluzione è possibile portare capillarmente non solo infrastruttura dati (nella forma di servizi a pacchetto e affini), ma anche ottica. Le tecnologie che stanno alla base delle reti di ultima generazione permettono di offrire un accesso non mediato all’infrastruttura fisica, quindi non solo offrire maggiore capacità e prestazioni più elevate ma anche servizi innovativi. Ad esempio, si può fornire in modo nativo il servizio di cifratura dei dati, sia a livello hardware che, in un prossimo futuro, quantistico.

Nel contesto Science DMZ, la sicurezza scaturisce dal modello fiduciario. Dentro al perimetro siamo per così dire tra amici e non abbiamo bisogno di barriere per garantire la sicurezza

Come si conciliano le alte prestazioni e le basse latenze con gli aspetti di sicurezza?

Fare sicurezza ad altissima banda ha costi estremamente elevati, genera complessità e soprattutto limita le prestazioni: l’approccio Science DMZ è una soluzione pragmatica a questi problemi, senza la quale oggi è virtualmente impossibile immaginare scenari sostenibili in vista di una exascale science. Nel contesto Science DMZ, la sicurezza scaturisce dal modello fiduciario. Nonostante si tratti di un modello promiscuo, nel senso che ne fanno parte tutti gli elementi che entrano a diverso titolo nella filiera di produzione ed elaborazione del dato, infatti, tutti i membri della collaborazione abilitati a operare nel perimetro sono per definizione “trusted”. I membri infatti acconsentono a sottostare a delle regole di partecipazione comuni - tra cui anche il fatto di gestire con la massima priorità eventuali incidenti di sicurezza, mitigandone o annullandone gli effetti in modo immediato. Dentro il perimetro siamo per così dire tra amici, quindi non abbiamo bisogno di creare delle barriere per garantire la sicurezza, perché gli amici si tengono al sicuro a vicenda.

Quali sono le sfide insite in un modello simile?

Tanti sono gli aspetti da valutare: in primo luogo la sicurezza e la privacy, la data preservation e la resilienza dell’infrastruttura e l’esigenza di deduplicare i dati in un’ottica di contenimento delle risorse. In particolare, la deduplicazione rappresenta un’esigenza fondamenta*le del calcolo scientifico oggi, visti gli elevati volumi di dati trattati da molte discipline e la loro crescita costante. Da un lato questa esigenza è legata alla sostenibilità, sia nel senso della gestione dell’aumento nel tempo dei dati grezzi e di quelli generati dall’attività di elaborazione, che in quello della loro conservazione nel lungo periodo. Ma la deduplicazione è anche legata a doppio filo al tema della resilienza dell’infrastruttura, perché se non esistono più copie di un certo dato questo deve essere al sicuro, sempre disponibile e la sua integrità deve essere garantita.Un ultimo aspetto è quello della fiducia nella bontà del dato: ad esempio se pensiamo ai dati di un sistema come Copernicus è evidente che non ci devono essere dubbi sulla loro trustfulness.

Qual è il ruolo della rete della ricerca?

Science DMZ è in fondo un sistema chiuso, limitato alle NREN e alla comunità della ricerca, ma che deve potersi relazionare con il resto del mondo. Dal punto di vista delle reti della ricerca, la sfida ancora tutta da giocare è quella di sviluppare un’architettura almeno a livello europeo, se non globale, che permetta di renderlo un sistema sicuro senza chiuderlo eccessivamente ai vari attori esterni: sia i consumatori di dati della ricerca, come imprese e pubbliche amministrazioni, sia fornitori di servizi come le grandi cloud commerciali.

Se la chiusura può esser vista come garanzia di (relativa) sicurezza, un suo eccesso é una debolezza e va contro lo spirito stesso della nostra comunità. È importante quindi considerare il trade-off tra questi due aspetti e trovare un bilanciamento. In uno slogan: tutto quello che è fuori dal perimetro fiduciario va gestito, non respinto.

Il tema principale qui è il livello di controllo che possiamo stabilire sull’infrastruttura ed è pacifico che questa misura di controllo non è mai totale: sono dunque necessari modelli di gestione e di monitoring, ma soprattutto ci deve essere una sostanziale fiducia nella propria supply chain. Se questa viene a mancare, è il momento di averne una nuova: qui come altrove, la sicurezza va dunque intesa come un processo vivo e non come un risultato ottenuto una volta e per sempre.

Il problema non è principalmente di natura tecnologica, si tratta soprattutto del valore strategico da dare all’informazione, tener conto del suo valore, nonché della sua affidabilità, proprietà intellettuale e (relativa) apertura. Per questo bisogna definire modelli diversi del consumo di dati a seconda dei livelli fiduciari e di livelli di prestazione necessari, anche attraverso un uso mirato della AAI.

Le nuove tecnologie, però, possono aiutare...

La possibilità di andare oltre il modello internet commodity con le sue limitazioni, utilizzando le possibilità offerte dal controllo dei livelli inferiori della infrastruttura, è fondamentale per supportare i nuovi modelli di calcolo. Inoltre, l’evoluzione verso una architettura a microservizi, oltre al miglioramento della riusabilità delle componenti, offre l’intrinseca possibilità di “spezzettare” i problemi, supportando sia la valorizzazione del dato che la sua protezione. Ad esempio, disaccoppiare front-end e back-end permette di assicurare l’integrità del dato pur presentandolo verso l’esterno e garantire all’utente o all’applicazione un accesso commisurato al suo livello di autorizzazione.

Detto questo, il vero cambiamento resta culturale: il nostro modello digitale ha un limite, quello di evolvere in tempo reale, forzandoci a far crescere di conseguenza le nostre competenze e negoziare continuamente nuovi modelli. È a questa agilità che dobbiamo soprattutto puntare al di là della soluzione del momento.