BLEURT: la nuova metrica di valutazione NLG

bleurt

Condividi:

Condividi su facebook
Condividi su twitter
Condividi su linkedin
Condividi su whatsapp
Condividi su telegram

BLEURT è una nuova metrica di valutazione NLG costruita da Google che è basata sulla tecnica BERT (Bidirectional Encoder Representations from Transformers – tecnica di Machine Learning per il pre-training NLP).

Ma procediamo con calma e vediamo per bene di cosa stiamo parlando.

La metrica di valutazione BLEURT serve per valutare i modelli di NLG. Per chi non la sapesse, NLG è l’acronimo di Natural Language Generation, ovvero un algoritmo in grado di generare testi e frasi con un senso.

Gli algoritmi di NLG utilizzano algoritmi di Machine Learning per apprendere dai testi scritti in rete e così da poter migliorarsi e scrivere frasi che siano più umane.

Grazie appunto al ML, questi modelli di NLG stanno migliorando di anno in anno e molte volte accade anche che non si riesca a riconoscere se il testo scritto lo ha fatto un algoritmo o un essere umano.

Un esempio molto recente è la tecnologia GPT-3 sviluppata da OpenAI.

ll problema appunto, non è questa super tecnologia che sta avanzando rapidamente bensì le metriche di valutazione che non riescono a stare al passo con il progresso di tale tecnologia.

Ad oggi la metrica di valutazione usata è stata la metrica BLEU (Bilingual Evaluation Understudy) ma questa è del tutto inaffidabile, infatti, i ricercatori preferiscono affidarsi alla metrica umana, anche se quest’ultima non è automatica.

La metrica BLEURT

L’obiettivo dei ricercatori è quello di creare una metrica che abbia le caratteristiche richieste come automatica e precisa.

Per questo nel documento proposto dai ricercatori, “Learning Robust Metrics for Text Generation” si parla proprio di BLEURT (Bilingual Evaluation Understudy with Representations from Transformers).

Questa metrica di valutazione, come già detto in precedenza, si basa proprio sul modello BERT di Google il quale ha avuto un grande successo ed è stato costruito proprio per creare queste metriche di valutazioni molto simili a quelle umane.

Come funziona e come è stata creata:

Questa nuovissima metrica è stata addestrata sul set di dati WMT Metrics Shared Task che comprende più di 260 mila valutazioni umane.

Purtroppo però, non è stato così semplice per i ricercatori perché WMT Metrics ha un limite, ovvero è basato sul campo delle notizie. E questo è un punto a sfavore perché non permette al modello di generalizzare.

Per rendere la cosa più semplice e permettere a BLEURT di apprendere nel miglior modo possibile, i ricercatori hanno utilizzato Google BERT, preparandolo prima di perfezionare il modello di valutazione.

Così è stato scelto di allenare BLEURT con coppie di frasi sintetiche per rendere questa metrica di valutazione generale, esponendola a errori e alterazioni dei set di dati.

bleurt

Questa metrica è stata perfezionata ed ora si potrà aggiungere ad una serie di altri strumenti che permettono di valutare al meglio il linguaggio umano.

Condividi su facebook
Condividi su twitter
Condividi su linkedin
Condividi su whatsapp
Condividi su telegram
Antonio Furioso

Antonio Furioso

Fondatore di Neuragate. Credo molto in quello che le immagini possono comunicare, per questo sono fortemente attratto dalla Computer Vision. Mi piace tutto quello che è nuovo. La curiosità è quella che mi spinge oltre le aspettative e a fare sempre di più.

Articoli consigliati


Iscriviti
Notificami
guest
0 Commenti
Inline Feedback
Vedi tutti i commenti
Neuragate