75f97561361cc3f191a51011fccf4ea8.ppt
- Количество слайдов: 15
Universal Dependencies e treebank Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2016 -2017
Treebank e valutazione L’esistenza di molte risorse diverse rende difficile confrontare i risultati ottenuti da diversi sistemi e la valutazione deve sempre essere fatta in relazione alle stesse risorse. Se il sistema X e il sistema Y utilizzano lo stesso corpus per apprendere, ottengono lo stesso output?
Treebank e valutazione La comunità della LC opera pertanto nella direzione di rendere confrontabili i risultati dei sistemi che svolgono lo stesso task. Questo significa ad esempio che si cerca di costruire risorse in cui si utilizza lo stesso formato di rappresentazione (standard).
Treebank e standard Per molti anni lo standard di riferimento per il formato dei treebank era il formato del Penn Treebank. Ben presto però sono emersi i limiti di questo formato soprattutto nella rappresentazione di lingue con ordine delle parole più libero dell’inglese.
Treebank e standard Soprattutto pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppati i formati a dipendenze sulla base del formato del Prague Dependency Treebank. Il panorama dei treebank è molto variegato: per alcune lingue esistono più di un treebank in formati diversi, per altre nessuno.
Treebank e standard La nozione di standard è quindi particolarmente rilevante per i treebank e ha portato alla definizione di un formato universale detto Universal Dependency. Questo processo è durato vari anni e ha comportato vari passi all’interno delle varie comunità che operano sulle singole lingue.
Treebank e standard Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank (presso l’Istituto di Linguistica Computazionale CNR di Pisa). La differenza tra i due formati ha creato problemi di compatibilità tra sistemi e risultati.
Universal Dependency
Universal Dependency L’idea è di costruire risorse per tutte le lingue che utilizzano tutte lo stesso formato e sistemi che analizzano i dati di tutte le lingue. Tutta la rappresentazione si fonda sul principio che le teste delle relazioni sono le parole di contenuto, quelle che portano un maggiore contributo semantico.
Universal Dependency Nella LC la distinzione tra parole di contenuto (content word) e altre è cruciale in vari task. Le preposizioni e gli articoli sono considerati in UD come semplici accessori delle parole di contenuto attorno a cui tutte le strutture sintattiche si concretizzano.
Universal Dependency Rispetto ad altri formati, UD è meno dettagliato e le sue relazioni in numero inferiore. Questa “sottospecificazione” consente di convertire con maggiore facilità altri formati in UD e di semplificare il parsing, anche se provoca anche una perdita di informazioni.
Universal Dependency Questo formato soddisfa l’interesse per confronti multilingui e rende possibile sia campagne di valutazione multilingui sia l’apprendimento cross-linguistco a supporto della LC per lingue per cui non esistono risorse. http: //universaldependencies. org/
Universal Dependency e TUT L’esistenza di UD ha creato le premesse per la fusione di un unico grande treebank per la lingua italiana. I due treebank precedentemente sviluppati sono stati prima convertiti in un formato comune e poi in formato UD. Più recentemente anche Par. TUT è entrato a fare parte di UD.
Universal Dependency La release attuale, 2. 0 , rilasciata il primo marzo 2017 contiene 70 treebank che rappresentano 50 diverse lingue.
Universal Dependency UDpipe è l’analizzatore morfo-sintattico che è stato costruito per il progetto. Nella versione demo online si può facilmente vedere quale output produce, addestrandolo sulla risorsa italiana o quella per altre lingue. https: //ufal. mff. cuni. cz/udpipe#online_demo
75f97561361cc3f191a51011fccf4ea8.ppt