Skip to main content
La Big Science? È alla portata di tutti
La Big Science? È alla portata di tutti

La Big Science? È alla portata di tutti

| Luciano Gaido, Davide Salomoni | La nuvola della ricerca e istruzione

Articolo letto 4435 volte

Con INDIGO-DataCloud arriva una suite di servizi open source dedicata a gestori di risorse e comunità di ricerca grandi e piccoli

Nel mondo dei servizi cloud, ci sono innumerevoli offerte a livello di IaaS; tuttavia, molte comunità scientifiche incontrano serie difficoltà a sfruttare efficacemente i servizi cloud a livello PaaS e SaaS. Il progetto INDIGO-DataCloud, finanziato dalla Commissione Europea nell’ambito del programma Horizon 2020 e coordinato dall’INFN, è stato concepito per venire incontro a queste esigenze, in particolare su cloud e data centre eterogenei. Il progetto, iniziato ad aprile 2015 e con fine prevista a settembre 2017, si basa su una collaborazione di cui fanno parte ventidue istituzioni scientifiche europee e quattro grandi aziende ICT.

Durante la preparazione del progetto è stata eseguita una analisi approfondita dei gap tecnologici che impediscono o rallentano l’adozione e l’uso delle tecnologie del mondo cloud, raccogliendo input da diverse comunità scientifiche. Questo input ha guidato la definizione dele attività del progetto, sviluppando componenti mancanti, ove necessario, oppure migliorando quelle esistenti. Le comunità scientifiche coinvolte provengono da quattro aree tematiche: scienze mediche e biologiche, scienze sociali e culturali, scienze della Terra e dell’ambiente, fisica e astrofisica.

gaidoLuciano Gaido
INFN
Primo tecnologo
Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo.

Davide SalomoniDavide Salomoni
INFN
Dirigente Tecnologo
Questo indirizzo email è protetto dagli spambots. È necessario abilitare JavaScript per vederlo.

Per ogni comunità è stata individuata una persona di riferimento, chiamata champion, che ha definito uno o più casi d’uso rilevanti per la propria comunità e ha collaborato alla preparazione di una demo che illustra come i servizi di INDIGO possono essere utilizzati per soddisfarlo.

I SERVIZI DI INDIGO SONO SVILUPPATI CON L'INPUT DELLE COMUNITÀ DELLA BIG SCIENCE, MA SONO STUDIATI PER ESSERE ALLA PORTATA DI TUTTI

INDIGO-Datacloud sta sviluppando componenti e soluzioni per tutti i livelli dello stack cloud definito dal National Institute of Standards and Technology (NIST), ovvero IaaS, PaaS e SaaS. Il progetto sfrutta il più possibile le soluzioni open source esistenti e supportate da vaste e solide collaborazioni. Per esempio, a livello d’infrastruttura (IaaS) le soluzioni cloud di riferimento sono OpenStack e OpenNebula. Tuttavia il progetto ha un ambito più vasto perché, grazie all’aderenza agli standard esistenti (de jure o de facto), le componenti che sviluppa consentono l’interoperabilità con cloud pubbliche, fornite da operatori commerciali a livello internazionale, con cloud ibride pubbliche/private e anche con infrastrutture basate su tecnologie differenti, ad esempio Grid o HPC. Ad agosto 2016 è stato rilasciata la prima versione del software INDIGODataCloud, chiamata MidnightBlue, basata su un catalogo di servizi raggruppati in quattro categorie:

  • Data Centre solutions, una suite di servizi per i gestori dei Data Centre. Sono inclusi servizi di scheduling, gestione di data centre ibridi (cloud vs tradizionale sistema batch) e di infrastrutture cloud eterogenee (tramite standard TOSCA).
  • Data solutions, per facilitare la gestione e l’accesso a dati distribuiti geograficamente. Include servizi di supporto per calcoli scientifici dataintensive, e di allocazione flessibile delle risorse di storage (con protocollo standard CDMI).
  • Automated solutions, per l’automazione di procedure complesse per l’accesso e l’analisi dei dati. Per esempio un orchestrator a livello PaaS configurabile con il linguaggio standard TOSCA.
  • High-level User Oriented Solutions, per facilitare l’uso di applicazioni scientifiche da parte dei ricercatori, con soluzioni che vanno da componenti per l’analisi di Big Data e l’esecuzione di container Docker su risorse che non supportano nativamente i container, ai portali scientifici e infine un mobile toolkit.

Si tratta quindi una suite completa di servizi, dal livello infrastrutturale fino a quello più visibile agli utenti finali. Sono stati inoltre estesi alcuni servizi esistenti, in particolare il supporto per la Open Cloud Computing Interface (OCCI) e alcune funzionalità relative allo scheduling, alla conformità agli standard e alle funzionalità di orchestrazione in OpenStack e OpenNebula.

LE COMUNITÀ SCIENTIFICHE

INDIGO-DataCloud è stato concepito in base alla consultazione di alcune grandi collaborazioni e infrastrutture internazionali, che fanno capo a 4 comunità scientifiche chiave:

  • Scienze mediche e biologiche: Elixir, Medical bioimaging (EuroBioImaging-BBMRI), Molecular Dynamics (INSTRUCT, WeNMR).
  • Scienze dell’Ambiente e della Terra: European Multidisciplinary Seafloor and watercolumn Observatory (EMSO), The European Network for Earth System modelling (ENES), Lifewatch.
  • Scienze Sociali e Umane: DARIAH-EU (pan-european network for arts and humanities scholars), Digital Cultural Herigate Roadmap for Preservation (DCH-RP)
  • Fisica e Astrofisica: Cherenkov Telescope Array (CTA), Large Binocular Telescope (LBT), Worldwide LHC Computing Grid (WLCG).

Tra i vari servizi rilasciati da INDIGO merita particolare attenzione la soluzione di Identity and Access Management (IAM), che consente di gestire in modo omogeneo i processi di autenticazione e autorizzazione per infrastrutture distribuite (basate su cloud, grid o altre tecnologie). Supporta tecnologie differenti (SAML, OpenID Connect e X.509) e utilizza credenziali fornite dalle federazioni di identità esistenti, come IDEM ed eduGAIN. Attraverso la sua capacità di definire politiche di autorizzazione distribuite ed il Token Translation Service, che integra diversi sistemi di autenticazione in un’unica soluzione, il servizio IAM garantisce un accesso controllato e flessibile a risorse distribuite.

Nonostante lo sviluppo delle componenti di INDIGO sia stato guidato dai casi d’uso delle comunità scientifiche, i servizi del suo catalogo sono di portata più generale e sono studiati, in particolare, per facilitare l’uso delle e-infrastrutture da parte di ricercatori appartenenti a piccoli gruppi di ricerca fino al ricercatore singolo, cioè per la realtà che viene comunemente identificata come long tail of science. Queste soluzioni sono quindi potenzialmente interessanti anche per infrastrutture di ricerca di tipo IaaS a livello nazionale. INDIGO può infatti complementare tali servizi attraverso componenti sia di ottimizzazione dei centri cloud dei grandi enti, sia con funzionalità innovative per gli utenti a livello PaaS e SaaS, realizzando inoltre una federazione di risorse di storage integrata e distribuita a livello italiano.

Il progetto INDIGO-DataCloud ha già rilasciato più di 40 componenti software di tipo open source per l’utilizzo innovativo e flessibile di risorse in infrastrutture distribuite pubbliche e private. Nella primavera del 2017 verrà rilasciata la seconda versione del software di INDIGO, con ulteriori nuove funzionalità. Sono in corso all’interno del progetto attività per massimizzare lo sfruttamento di questi servizi all’interno di infrastrutture esistenti a livello europeo ed internazionale, anche in ambito commerciale. E’ inoltre previsto il supporto del software di INDIGO oltre la conclusione del progetto, anche in relazione a nuovi bandi del programma Horizon 2020.

Auspichiamo che le collaborazioni con GARR possano continuare e crescere ulteriormente, sia per fornire servizi innovativi ai gestori di risorse e alle comunità scientifiche nazionali, sia per il possibile sviluppo di nuove soluzioni richieste dalle comunità stesse.

I componenti di INDIGO

  • Common Solutions
    • Identity and Access Management
  • Data Centre Solutions
    • Fairshare Scheduler for OpenStack
    • Partition Director Service for Batch and cloud resources
    • Cloud Provider Ranker
    • Infrastructure Manager
    • OCCI support for OpenStack and OpenNebula
    • Extended OpenStack and OpenNebula
    • Functionalities
  • Data Solutions
    • Global Data Access
    • Storage Quality of Service and Data Lifecycle support
  • Automated Solutions
    • PaaS Orchestrator
    • Core PaaS
    • QoS/SLA Management Service
  • User-oriented Solutions
    • Userspace Container Support
    • Data Mining and Analytics for eScience Server
    • Future Gateway (Programmable Scientific Portal)
    • INDIGO Plug-ins for scientific workflow systems
    • INDIGO Mobile Toolkit

I PARTNER DEL PROGETTO

indigo

Coordinato dall'INFN, il progetto comprende 26 partner tra cui alcuni tra i principali istituti di ricerca europei.

      INFN - Italia, coordinatore

  • AGH/AGH-UST - Polonia
  • ATOS - Spagna
  • CEA - Francia
  • CERN - Svizzera
  • CESNET - Repubblica Ceca
  • CIRMMP - Italia
  • CMCC - Italia
  • CNR - Italia
  • CNRS - Francia
  • CSIC - Spagna
  • DESY - Germania
  • EGI.eu - Olanda
  • IBCH PAS - Polonia
  • ICCU - Italia
  • INAF - Italia
  • INDRA - Spagna
  • INGV - Italia
  • KIT - Germania
  • LIP - Portogallo
  • RBI - Croazia
  • Santer REPLY - Italia
  • STFC - Regno Unito
  • T-Systems - Germania
  • UPV - Spagna
  • Utrecht University - Olanda
Ti è piaciuto questo articolo? Faccelo sapere!
Dai un voto da 1 a 5, ne terremo conto per scrivere i prossimi articoli.

Voto attuale:

Ultimi articoli in rubrica