La Nuova Sardegna

Arcipelago Sardegna
Il focus

Le memorie in limba degli emigrati al vaglio dell’intelligenza artificiale

di Luciano Piras

	Il glottologo e linguista Simone Pisano
Il glottologo e linguista Simone Pisano

Il progetto Mànnigos: come è cambiato nel tempo il sardo della diaspora

3 MINUTI DI LETTURA





Nuoro «Il corpus di sardo della diaspora interamente lemmatizzato e annotato ha consentito di portare avanti analisi con un approccio statistico/quantitativo, fino ad ora carenti nell’ambito della linguistica sarda». Il glottologo e linguista Simone Pisano è di casa a Nuoro. È abituato a fare la spola con la Toscana, dove insegna Linguistica del contatto, all’Università per stranieri di Siena. È lui che da anni segue il progetto “Mànnigos de memòria in limbas dae su disterru” (Assaggi di memoria in lingue dalla diaspora”) ora in fase di ulteriore sviluppo. «Sì – conferma Pisano mentre in un attimo di pausa passeggia al corso Garibaldi –, ora procediamo all’informatizzazione delle memorie dei sardi emigrati nel continente italiano e francese, frutto di un lavoro di raccolta avviato negli anni 2008-2010. In quel periodo la Federazione delle associazioni sarde in Italia (Fasi) ottenne un finanziamento dalla Regione autonoma delle Sardegna per raccogliere, attraverso interviste audio e video, le memorie dei sardi dei circoli presenti in Italia e in Francia».

Il risultato di quel lavoro è una raccolta di dati davvero poderosa, di grande interesse non solo linguistico; si tratta infatti di registrazioni audio e video di parlato semi-spontaneo (ogni intervista ha una durata media di 35/40 minuti). In quell’occasione si decise anche di trascrivere il 15% delle interviste raccolte. Registrazioni e trascrizioni, pur non ancora pubblicate, sono state digitalizzate in modo da essere accessibili senza più il supporto del cd o dell’usb. Le prime ricerche hanno visto la collaborazione di Simone Pisano con Valentina Piunno (Università di Bergamo) e Vittorio Ganfi (Università di Bergamo).

Dopo la prima fase è emersa l’opportunità «di procedere a un lavoro più sistematico di informatizzazione di questi dati, fondamentali per studi teorici sul sardo, ma anche per la compilazione di lessici di frequenza e grammatiche da utilizzare a scopi didattici». Ecco perché dal dicembre 2023 la Fasi, in stretta collaborazione con l’Università per stranieri di Siena, ha attivato un assegno di ricerca (cofinanziato al 50% dalle due istituzioni) intitolato “Trascrizione, annotazione e informatizzazione dei corpora di parlato spontaneo del sardo della diaspora Mànnigos de memòria in limbas dae su disterru”. Al progetto, di cui è responsabile Simone Pisano, lavora Piergiorgio Mura, esperto di sociolinguistica (PhD presso l’Università Ca’ Foscari di Venezia, dove è tuttora docente a contratto, laurea magistrale alla University of Edinburgh).

I linguisti hanno passato al vaglio ogni parola delle interviste precedentemente trascritte, «portandone a termine la lemmatizzazione (riconduzione di una forma flessa ad un lemma generale, ossia alla sua forma base) e l’annotazione per parti del discorso (assegnazione di una categoria grammaticale)» spiega Pisano. Questo secondo processo è stato facilitato dall’utilizzo di un annotatore o tagger automatico specificamente addestrato per la lingua sarda. Uno strumento sviluppato dal team di ricercatori del Dipartimento di Matematica e Informatica dell’Università di Cagliari, esperti nell’applicazione dell’intelligenza artificiale allo studio delle lingue, che lavorano sotto la guida del professor Salvatore Carta: Manolo Marco Manca, Alessandro Giuliani e Mirko Marras.

Tramite l’utilizzo del modello Bert, implementato nell’ambito del Natural language processing, la macchina è stata addestrata – a partire da dizionari di sardo e dai dati del progetto “Mànnigos” precedentemente annotati a mano – a riconoscere le parole sarde e a capire le loro funzioni grammaticali. L’assegnazione automatica della marca morfologica avviene con un’accuratezza del 94%. Il gruppo di ricerca delle due università confidano sui dati di “Mànnigos”, in virtù della loro vastità e varietà, in termini di varietà sarde rappresentate, come base di riferimento per ulteriori sviluppi legati all’intelligenza artificiale e alla creazione di strumenti digitali in lingua sarda. «È stata così analizzata la frequenza sia di parole presenti nel lessico ereditario del sardo sia di prestiti dall’italiano e dal francese. Inoltre – chiude il professor Simone Pisano –, è stata anche studiata la presenza e la frequenza di strutture morfosintattiche più o meno resistenti all’interferenza delle lingue di Stato».

Primo piano
Ultima ora

Omicidio sulla strada tra Orune e Benetutti

Sardegna

Cagliari, recuperato il cadavere di un uomo a Cala Regina: è un sub sardo

Le nostre iniziative