LOLA: il conservatorio dà il La all’innovazione

11 Giugno 2014 | Claudio Allocchio, Federica Tanlongo | Osservatorio della rete

Articolo letto 10093 volte

Dalla collaborazione tra GARR e Conservatorio Tartini, ecco come utilizzare le reti a banda ultralarga per l'interazione real-time audio e video. In musica e non solo

Non è solo la “big Science” a creare i picchi di traffico sulla rete. Anche il mondo di musica e teatro, apparentemente così lontane da quello dell’ICT, può divenire terreno fertile per la nascita di vere “killer application”. È il caso di LOLA, strumento ormai da anni utilizzato da molte istituzioni artistiche e musicali in tutto il mondo per dar vita a lezioni remote e vere e proprie performance artistiche distribuite, con gli artisti che interagiscono in tempo reale a migliaia di km di distanza grazie ad esso.

Nato da una collaborazione ormai quasi decennale tra GARR e il Conservatorio Tartini di Trieste, LOLA, il cui nome sta per LOw LAtency audio visual streaming system, è uno strumento per l’interazione “naturale” in tempo reale in audio e video ad alta definizione attraverso una rete geografica.

Che cos’è

Concettualmente, si tratta di un sistema di videoconferenza ad altissima qualità, composto da un hardware per l’acquisizione audio-video e da un software che gestisce l’integrazione e ottimizzazione dell’acquisizione, presentazione e trasmissione dei flussi audio e video. Il contesto per il quale è stato disegnato e le soluzioni adottate lo rendono però unico rispetto ai sistemi oggi disponibili. In particolare, l’aspetto più innovativo di LOLA è l’ottimizzazione dell’elaborazione e trasmissione dei segnali, che mantiene al minimo la latenza di sistema. Questo, combinato con una rete a banda ultralarga e alta qualità, caratterizzata da bassi livelli di ritardo (delay) e sua variazione (jitter), con un round-trip time molto ridotto, fa sì che il ritardo della trasmissione tra due punti distanti migliaia di km l’uno dall’altro resti al di sotto della soglia percepita dall’essere umano (35 ms): così, oggi è possibile avere un’interazione remota veramente trasparente da due sedi qualsiasi collegate sulle reti della ricerca Europee, fossero pure Malta e Stoccolma. Le latenze inerenti ai sistemi di videoconferenza standard, da DVTS a Skype, di solito non sono inferiori a 450ms unidirezionali sia per l’audio che per il video: abbattere questo valore sotto la soglia di percezione ha fatto sì che LOLA sia stato così ben accolto dai musicisti.

PRIMA MONDIALE

LOLA è stato concepito nel 2005, sviluppato tra il 2008 e il 2010 e ufficialmente presentato per la prima volta in una performance dal vivo del duo pianistico Zaccaria-Trevisan in occasione del secondo Network Performing Arts Production Workshop europeo. Il concerto distribuito ebbe luogo tra il conservatorio ”G. Tartini” di Trieste e l’IRCAM di Parigi, dunque a una distanza di circa 1300 Km.

Oltre a rendere di fatto impossibili le performance a distanza, la “barriera del mezzo secondo” imposta dai sistemi tradizionali di videoconferenza ha finora posto severi limiti all’efficacia dell’insegnamento musicale a distanza, perché in queste condizioni l’insegnante non riesce a suonare insieme allo studente e avvalersi della comunicazione non verbale (ad esempio battendo il ritmo e suggerendo i gesti da eseguire), che invece ha un ruolo primario in questa disciplina. L’alta qualità dell’audio in LOLA permette inoltre di tener conto degli aspetti legati al timbro, mentre alta qualità del video e sincronizzazione permettono di concentrarsi sul gesto ed i suoi effetti timbrici. Tutto ciò senza contare benefici pratici quali la riduzione dei tempi e dei costi di viaggio e soggiorno, che possono avere notevole impatto sulle opportunità di insegnamento e apprendimento.

Ottimizzazione dell'elaborazione dei flussi e banda ultralarga mantengono il ritardo al di sotto della soglia di percezione

Come funziona

L’attuale release di LOLA supporta un audio a 44.100 sps (samples per second, cioè campioni al secondo) a 16 bit e sino a 10 canali indipendenti e un video 640x480 da 30 a 60 fotogrammi per secondo, sia a colori che bianco e nero. Audio e video non sono compressi per non introdurre ritardi legati al processo di codifica e decodifica. Ciò permette di raggiungere un tempo di acquisizione e rendering di sistema di 5 ms per l’audio e meno di 20 ms per il video, a cui va poi aggiunta la latenza introdotta dalla rete, stimata in meno di 1ms su una rete locale e pari a circa 1 ms per ogni 100 Km su rete geografica. L’acquisizione ultrarapida e la trasmissione dei flussi video sono realizzate combinando telecamere progressive di livello professionale e una famiglia di video grabber che offre elevate performance e librerie di programmazione molto versatili per la gestione di basso livello dell’elaborazione video. La bassa latenza dell’audio è garantita da una robusta dotazione hardware e di driver ASIO (i driver professionali utilizzati nel campo della produzione musicale, n.d.r.). L’accurata sincronizzazione dei flussi nelle fasi di acquisizione, trasmissione e rendering, è necessaria per trasmettere i dati il più velocemente possibile e lo stesso vale per la ricezione, decodifica e rendering.

Per garantire prestazioni da Formula1 anche su rete geografica, LOLA prevede un sistema di basso livello che gestisce i pacchetti in modo da evitare fenomeni di accodamento “invisibile” spesso determinati dai comuni software di rete, interagendo direttamente con i driver della scheda di rete. Inoltre è presente un meccanismo di buffering in grado di compensare gli effetti del jitter che può generarsi su reti pubbliche in conseguenza di situazioni di traffico irregolare, prevenendo così perdite di dati dovute ad oscillazioni del delay.

Gli aspetti di rete

Circolo vizioso

Durante lo sviluppo e perfezionamento di LOLA sono stati effettuati test per valutare gli effetti della latenza introdotta dai sistemi di comunicazione a distanza sulla performance distribuita. L’osservazione più interessante è che il ritardo introdotto dal mezzo è in qualche modo amplificato nell’interazione uomo-macchina-uomo, perché se la nota suonata da uno dei musicisti viene trasmessa in ritardo, l’altro, che deve reagire a quella nota, introdurrà a sua volta un ritardo legato al proprio tempo di reazione. Questo effetto si propaga, creando un rallentando che è risultato di questo doppio passaggio e che finisce con il disgregare il coordinamento tra i due. La soglia stabilita sperimentalmente per la percezione di questa “segregazione temporale” è approssimativamente pari a 30 ms (75 sul round-trip time). Si tratta di un valore indicativo che può variare in base a una serie di fattori tra cui il tipo di strumento, il repertorio e anche l’orecchio e le capacità del musicista. In generale, mantenendosi al di sotto di questa soglia, l’elemento umano smette di sommarsi alla latenza inerente al mezzo e quindi non si viene a creare il circolo vizioso del progressivo rallentamento.

Il presupposto di LOLA dal punto di vista della rete è che essa debba essere in grado di trasmettere in modo efficiente e affidabile i dati dei flussi audio e video. In termini di utilizzo di banda, LOLA richiede almeno 100 Mbps nella sua configurazione minima, arrivando fino a 500 Mbps con una configurazione più avanzata. Inoltre, l’applicazione genera un tasso di pacchetti al secondo (PPS) molto elevato, in quanto usa pacchetti da 1 Kb: requisiti non banali che suggeriscono collegamento endto- end a 1 Gbps come configurazione minima a livello di rete geografica. Soddisfarli non è stato un problema sulle tratte a lunga distanza delle dorsali dell’università e della ricerca, come GARR e GÉANT, mentre criticità si sono talvolta manifestate a livello di rete locale: l’elevata quantità di pacchetti al secondo generata dall’applicazione può mettere in crisi alcuni tra gli apparati meno moderni della LAN, senza contare che altre applicazioni come il VoIP possono entrare in competizione con LOLA.

La soluzione ottimale per un'applicazione come LOLA è disporre di una rete overprovisioned

A livello di rete, la soluzione ottimale per un’applicazione come LOLA è poter disporre di una rete “overprovisioned”, che garantisca cioè disponibilità di banda ben superiore al traffico medio sulla rete, un dimensionamento comunemente messo in campo dalle reti della ricerca, che devono essere in grado di gestire i picchi legati alla presa dati live dei grandi esperimenti della big Science, ad esempio nella fisica delle alte energie o nell’astrofisica. All’interno di eMusic, progetto finanziato tra le attività di ricerca di GÉANT, è in corso una sperimentazione per verificare se è anche possibile utilizzare con successo l’applicazione in combinazione con tecniche di riservazione di banda quando una rete con queste caratteristiche non sia disponibile. Questa soluzione è comunque meno efficiente, dato che gli apparati di rete che gestiscono la riservazione di banda aggiungono ulteriore elaborazione ai pacchetti e quindi contribuiscono ad aumentare la latenza e il jitter.

Di contro, le sperimentazioni effettuate in questi anni dimostrano che una rete overprovisioned riduce la necessità di buffer necessari a minimizzare quest’ultimo, migliorando ulteriormente le prestazioni, perché il meccanismo di compensazione introduce a sua volta piccolo ritardo, stimato in circa 0.75 msec per singolo buffer da aggiungere per assicurare una perfetta comunicazione audio. Quando si adopera una lambda o un circuito dedicato, poi, il jitter scende al di sotto della soglia osservabile e la necessità di un meccanismo di compensazione viene a cadere.

Per molti, ma non per tutti?

Trasparenza estrema

Una dimostrazione della grande usabilità e naturalezza di LOLA è stata l’esecuzione, nell’ottobre 2011, della Passacaglia per violino e violoncello di Handel da parte di Marjorie Bagley and Cheng-Hou Lee, collegati sulla dorsale delle università statunitensi Internet2 a quasi 2.000 km di distanza l’una dall’altro. La particolarità di questa performance è consistita nel fatto che i 2 musicisti non avevano mai suonato insieme, né si erano mai incontrati prima: eppure dopo una prova di un solo giorno e senza alcun training specifico furono in grado di suonare insieme come fossero stati sullo stesso palco.

Come abbiamo visto, i requisiti di rete di LOLA sono tutt’altro che banali e il traffico generato da questa applicazione si fa notare anche su una dorsale come quella delle reti della ricerca, suggerendo l’utilizzo di un canale dedicato su fibra ottica, come soluzione ottimale. Visto però che non tutti ne hanno uno a loro disposizione, la nuova release del software viene incontro alle esigenze degli utenti con collegamenti, grazie all’introduzione della compressione veloce dei dati video. Questa nuova funzionalità permette di abbattere drasticamente il consumo di banda dell’applicazione e di utilizzare solo il 5% delle risorse di banda che sarebbero necessarie per la versione standard. Certo, questa nuova LOLA perde qualcosa in qualità, ma in compenso apre all’utilizzo di questo sistema da parte di un gran numero di utenti che finora ne erano esclusi – basti pensare alle scuole.

Verso nuove, meravigliose avventure

LOLA ha registrato un notevole interesse a livello nazionale e internazionale. È usata da decine di istituzioni in tutto il mondo e nuove richieste arrivano sempre più frequentemente. Si tratta di una comunità che non solo usa il sistema, ma contribuisce alla sua evoluzione con nuovi requisiti, idee creative e casi d'uso. Per questo, il team di sviluppo sta già lavorando alla prossima versione, che offrirà tra l’altro la possibilità di collegare più di 2 siti contemporaneamente, canali video multipli per supportare più videocamere in ogni sito e una funzionalità di regia integrata che permetterà di gestire i diversi flussi, scegliendo quale mandare alla destinazione. E c’è già chi pensa a LOLA 3D

Presenza reale.. anzi virtuale

LOLA supporta vari setup audio e video, anche in base a una serie di variabili quali il tipo di performance, gli strumenti utilizzati, il numero di elementi e le caratteristiche sonore dell’ambiente in cui si va a interagire. Per rendere più “reale” la presenza virtuale, si cerca di mantenere intatte le caratteristiche naturali del suono e minimizzare il ritorno elettroacustico, ad esempio mediante l’utilizzo di microfoni cardioidi di piccole dimensioni piuttosto vicini alla sorgente sonora. Per rendere il suono della sorgente remota viene utilizzato un cluster di altoparlanti, diretti in modo radiale rispetto alla posizione dello strumento “virtuale”, o meglio remoto. Un altro aspetto di cui tenere conto nel posizionare telecamere e schermi, è il contatto visivo tra coloro che eseguono la performance.