Marco Tomatis, introduzione alla linguistica computazionale

Se ne parla tanto… Ma che cos’è la linguistica computazionale?

L’estate scorsa, fra speranze disattese della fine della pandemia e nuovi fronti aperti da InnovaLang sull’innovazione nel settore della traduzione, avviammo un confronto con esperti in intelligenza artificiale, traduzione automatica, sistemi di supporto alla traduzione (CAT ma non solo) e linguistica computazionale: riprendiamo il discorso proprio su quest’ultima, tramite una chiacchierata con Marco Tomatis, esperto in linguistica applicata e ingegneria linguistica, impiegato presso l’Università di Torino.

Il confronto sopracitato era mirato a stabilire una connessione fra queste aree di ricerca e di lavoro, così da porre basi teoriche e concettuali utili a sviluppare un nostro motore di traduzione automatica – Machine Translation (MT) Engine – oltre che certificare la sostanziale assenza di un “sincretismo” fra, appunto, intelligenza artificiale, traduzione automatica, sistemi di supporto alla traduzione e linguistica computazionale; e con la prospettiva a seguire di un lavoro di indagine accademica per sviluppare un punto di convergenza da formalizzare come nuovo punto di partenza teorico sull’automatizzazione dei processi di traduzione.

Marco, raccontaci qualcosa di te, prima di tutto!

Mi sono laureato in Lingue e Letterature straniere moderne all’Università di Torino nel lontano 1997 dopo un diploma tecnico in elettronica. Dopo una breve esperienza di lavoro nel campo della traduzione automatica presso il Gruppo Dima e un’esperienza più consistente presso il Centro Regionale Etnografico Linguistico di Torino, dove mi sono occupato di digitalizzazione e filtraggio di materiale sonoro originale, sempre all’Università di Torino ho ottenuto nel 2005 il dottorato in “Linguistica, Linguistica Applicata e Ingegneria Linguistica”. A seguito di ciò, ho avuto la possibilità di occuparmi attivamente di ricerca su progetti diversi riconducibili al variegato mondo del Natural Language Processing (dallo sviluppo di Corpora alla codifica di testi secondo le norme TEI), nonché di prestare servizio come docente a contratto di “Lingua Inglese”, “Informatica Applicata alla Comunicazione Multimediale” e “Linguistica Generale” presso l’Università di Torino, nonché “Linguistica Computazionale” presso l’Università degli Studi Internazionali (Unint) di Roma.

Come sei arrivato a queste competenze?

Il raggiungimento di competenze diverse, tutte appartenenti in misura diversa al mondo della linguistica e dell’elaborazione automatica del linguaggio naturale, è frutto di passione ed esperienza maturata sul campo nel corso degli anni. A tale proposito, è utile ricordare come l’evoluzione tecnologica in termini di potenza di calcolo e capacità di immagazzinamento dati ha inevitabilmente influenzato e modificato l’approccio teorico e pratico verso quegli aspetti maggiormente delicati e problematici che la progettazione di sistemi di NLP impone di affrontare. In qualità di esempio, dalla fine degli anni ’90 ad oggi, ho potuto constatare un’evoluzione dell’approccio alla traduzione automatica caratterizzato dal graduale passaggio da modelli quasi esclusivamente basati su regole attive sui vari livelli della struttura linguistica, a modelli incentrati sull’analisi stocastica dei dati oggetto di traduzione. Tale evoluzione ha ovviamente coinvolto anche la sfera dei linguaggi di programmazione utilizzati: in quest’arco temporale si è infatti potuto assistere al grande successo del Prolog, la cui impostazione basata sulla logica è stata in pochi anni soppiantata da un approccio più strettamente legato alle “regular expressions”, un sistema di rappresentazione simbolico delle sequenze di caratteri originario dell’ambiente operativo Unix ed ora comunemente implementato in tutti quei settori dell’informatica in qualche misura coinvolti nella relazione uomo-macchina.

La linguistica computazionale: come la introdurresti a chi non la conosce, ma tuttavia opera in ambiente linguistico?

La difficoltà maggiore nell’introdurre la linguistica computazionale è data dal fatto che si tratta di una disciplina ibrida e multisettoriale che per essere correttamente dominata richiede conoscenze approfondite di linguistica (in particolare l’analisi della struttura a tutti i livelli), di statistica e di informatica (sistemi operativi e linguaggi di programmazione). Purtroppo in Italia le discipline umanistiche e le scienze dure trovano difficoltà ad integrarsi e comunicare tra loro, spesso a causa di un’impostazione teorica di base divergente e incapace di superare certi rigidi schematismi tradizionalmente imposti dalla disciplina stessa. La mia esperienza, per contro, mi ha insegnato che i punti di contatto tra le discipline coinvolte sono decisamente superiori di quanto non si creda, ma è necessario operare un radicale cambiamento di prospettiva: in tale senso, le intuizioni di Noam Chomsky ne sono l’esempio più lampante. Pertanto, il mio suggerimento verso chi è interessato a muovere i primi passi in questa materia è di farsi guidare in un percorso che oltre a fornire una solida base teorica, offra anche un approccio pratico alla risoluzione di problemi elementari (seppur assolutamente imprescindibili) quali, ad esempio, il processo di tokenizzazione di un testo in formato elettronico.

Quali sono gli aspetti di questa disciplina che trovi più interessanti?

La linguistica computazionale presenta sfide accattivanti in primo luogo proprio sul piano linguistico: vi sono tutt’oggi aree problematiche dell’analisi linguistica che potrebbero trovare una soluzione proprio grazie all’utilizzo di sistemi automatici, che in quanto tali impongono una netta presa di posizione in termini di categorizzazione. Strettamente legato a questo aspetto è la possibilità dei modelli basati sull’approccio stocastico (Nota di IL: approccio matematico di individuazione delle probabilità collegato ad eventi aleatori) di “indovinare” la natura di un dato termine sconosciuto al sistema facendo semplicemente riferimento alla quantizzazione del termine stesso all’interno della porzione di testo preso in esame. Poiché approcci diversi possono produrre risultati diversi, trovo di notevole interesse la capacità di individuare il bilanciamento migliore tra l’elaborazione del linguaggio naturale attraverso regole e la sua gestione in termini statistici mediante la creazione di una base di dati quanto più ampia e completa possibile. Sotto questo punto di vista, la possibilità di migliorare le singole discipline sfruttando le potenzialità di una ricerca integrata rappresenta una sfida interessante e di sicuro impatto.

Quali sono i suoi possibili campi di applicazione?

L’elaborazione delle lingue naturali ha innumerevoli campi di applicazione. Solo per citare i più noti, passiamo dai sistemi a supporto della ricerca umanistica, nonché utili per migliorare la fruizione dei testi in formato digitale nelle biblioteche elettroniche (codifica TEI), ai sistemi di riconoscimento e sintesi vocale, ai sempre più diffusi “chat bot” per il supporto automatico agli utenti di un dato servizio, alle piattaforme di e-learning individuale e integrato, fino ai sistemi di traduzione automatica e di traduzione assistita dal computer.

Trovi che ci sia uno scostamento rilevante fra l’approccio accademico e le applicazioni pratiche?

Purtroppo ho notato un certo scollamento fra il tradizionale approccio ai problemi in voga nel mondo accademico e quello decisamente più pragmatico che caratterizza le soluzioni applicative: salvo alcuni casi, in genere la ricerca accademica ha difficoltà a rispondere alle richieste del mondo privato con soluzioni innovative capaci di risolvere in tempi brevi problematiche concrete.

Hai un aneddoto divertente da raccontarci, circa la tua attività in questo campo?

Già prima della laurea una professoressa (ormai già da alcuni anni in pensione) con cui mi sarei successivamente laureato mi chiamava “The computer man” per via dei miei interessi che andavano ben oltre i confini classici della linguistica: quando le ho presentato il progetto di tesi relativo alla creazione automatica di un dizionario macchina inglese e italiano, si è resa conto solo troppo tardi che ciò che stavo svolgendo non aveva nulla a che fare con la lessicografia in senso stretto…

Grazie, Marco!

Profilo LinkedIn di Marco Tomatis qui.

Intervista a cura di InnovaLang, agenzia di traduzioni Torino. Mettici alla prova, chiedici un preventivo!