Traduzione automatica: qualità, limiti e metodi di valutazione
La traduzione automatica risulta, in termini di costo e tempo, estremamente vantaggiosa, ma la qualità della traduzione è paragonabile a quella umana? Vediamo quali sono i principali metodi per valutarla.
I primi studi sulla traduzione automatica: intelligibilità e fedeltà
Molti studi sono stati condotti a partire dal 1996, quando l’Accademia Nazionale delle Scienze propose un esperimento basato su due criteri: intelligibilità e fedeltà. Il primo si riferisce alla capacità di comprendere facilmente un testo come se fosse stato scritto direttamente nella lingua di arrivo, mentre il secondo mette a confronto il testo originale con quello tradotto. L’esperimento, che coinvolgeva traduzioni dal russo all’inglese, risultò deludente, dimostrando che nulla era paragonabile a una traduzione umana.
Le metriche di valutazione automatica della traduzione
Dopo anni di sospensione, gli studi sulla linguistica computazionale ripresero, portando alla creazione di software per la valutazione della qualità del prodotto. I principali sono quattro.
BLEU e NIST
- BLEU (Bilingual Evaluation Understudy): confronta la traduzione automatica con una o più traduzioni umane di riferimento, segmentando il testo parola per parola e attribuendo a ogni elemento (lessicale o grammaticale) lo stesso peso.
- NIST: a differenza di BLEU, attribuisce un peso maggiore ai segmenti rari (che ricorrono meno spesso), perché ritenuti più informativi. Se l’errore riguarda un segmento raro, il punteggio cala maggiormente.
METEOR e Word Error Rate
- METEOR (Metric for Evaluation of Translation with Explicit ORdering): attribuisce un peso maggiore alle parole lessicali piuttosto che a quelle grammaticali, considerando anche sinonimi e parafrasi.
- Word Error Rate (WER): valuta il numero di parole diverse, che siano state cancellate, sostituite o inserite in aggiunta rispetto alla traduzione di riferimento.
I limiti delle metriche automatiche e il Dynamic Quality Framework
Queste metriche, però, presentano degli svantaggi: non sono sempre rapportabili tra loro e spesso non coincidono con il giudizio umano. Le critiche principali riguardano il fatto che molte metriche si basano sulla forma superficiale delle parole, trascurando aspetti come la grammaticalità, la fruibilità, il registro o lo stile. Per questo, si è tentato di sviluppare metriche più affidabili che conciliassero aspetti quantitativi e qualitativi. Un esempio è il Dynamic Quality Framework (DQF), che valuta la qualità della traduzione in rapporto agli scopi del testo di partenza e alle esigenze degli utenti finali.
Il criterio di adeguatezza
Questo criterio indica se il testo di arrivo riporta tutto il contenuto del testo di partenza. È classificabile secondo una scala di 4 parametri:
- Completamente adeguata
- Per lo più adeguata
- Poco adeguata
- Non adeguata affatto
Il criterio di fruibilità
Il secondo criterio è quello della fruibilità, che valuta la correttezza grammaticale della traduzione, la presenza di errori di ortografia e la conformità all’uso comune di termini, titoli e nomi. In pratica, misura quanto il testo tradotto sia vicino a un testo nativo. Qui abbiamo una scala di 3 valori:
- Pienamente accettabile
- Presenta degli errori
- Totalmente incomprensibile
Fonte immagine: Freepik