51938dd457fbac6512905e995b6f006f.ppt
- Количество слайдов: 40
Gépi fordítás 2010. november 9. Daniel Jurafsky and James H. Martin: SPEECH and LANGUAGE PROCESSING, 2 nd editon, 2009 alapján
Gépi fordítás • Machine Translation (MT) • Teljes szövegek automatikus fordítása forrás nyelvről célnyelvre. • Computer Aided Translation (CAT) • Miért van rá szükség? – Az EU évente 1 milliárd €-t költ fordításra – Interneten elérhető információkhoz való hozzáférés (Google Translation)
„Bár a kutatók egyetértenek abban, hogy teljesen automatizált, jó minőségű MT rendszerek építése tetszőleges szövegekre lehetetlen, hosszú távra ez mégis vonzó célkitűzés. ” (S. Warwick-Armstrong)
A gépi fordításról… (Prószéky 2006) Igaz, hogy a minőség még sokszor hagy kívánnivalót, de a sebesség igen értékes tulajdonsága a MTrendszereknek. Bizonyos körülmények közt a MT minsőégi fordítást is képes produkálni: a METEO 4%-nál kevesebb kimenete igényel emberi korrekciót. A MT nem fenyegeti a fordítók munkáját. A beszéd−beszéd MT továbbra is kutatási téma. Általánosságban is igaz: sok kutatási téma van még a MT területén. A MT-rendszerek fejlesztése időigényes munka. A gyakorlatban egy MT-rendszer csak akkor tud megvalósulni, ha a felhasználó komoly munkát fektet bele az egyedi felépítésébe.
Próbáljuk ki! http: //translate. google. com/ http: //babelfish. altavista. com/ http: //www. webforditas. hu/
Alkalmazások • Ha gyors fordítás kell, de nyers elég – Információ kinyerés webről • Computer-aided human MT • Speciális szaknyelven léteznek jó megoldások – időjárás jelentések – repjegy foglalás
Problémák
Nyelvek közti különbségek • morfológia – izoláló vs. poliszintetikus – agglutináló vs. flektáló • szintaktikailag – Subject-Verb-Object, VSO, SOV – • egyéb strukturális különbségek YYYY. MM. DD. vs. MM/DD/YY
Nyelvek közti különbségek • Lexikai különbségek – red vs. vörös, piros
Problémák a MTben • Összetett szavak cross dad • Többszavas kifejezések knightly gymnastics • Idiómák as happy as dog with two tails • Stílus
Megközelítések a MT-ben • Nyelvpárok közti fordítás – Szabályalapú rendszerek • direkt • transzfer • interlingua – Statisztikai fordítás • Nyelvhalmazok közti fordítás
Szabályalapú rendszerek
Közvetlen szabályalapú fordítás • Lépései: – Morfológiai analízis – Kétnyelvű szótárban megtalálható kifejezések cseréje – Szavak sorrendjének átrendezése – Morfológiai képzés
Átrendezés
Transzfer fordítás
Transzfer
Szemantikus transzfer • Szemantikus szerep azonosítás • WSD
Interlingua • Predikátumlogika • Szemantikai reprezentációk – nyelvek közti különbségek? elder brother
A fordítási feladat „Csak kiszótárazom, lefordítom és kész” – legyen 1 mondat átlagosan 15 szó hosszú – legyen 1 szónak átlagosan 3 jelentése – 1 „mondatnak” 315 különböző fordítása áll elő – * szórendből permutációk – * extra szavak, kimaradó szavak
Statisztikai MT • Minden frázisnak több lehetséges fordítása van • Válasszuk ki a legvalószínűbb szekvenciát • Célfüggvény: – szöveghűség és – folyékonyság/érthetőség
Statisztikai MT • Fordítási modell • Nyelvi modell argmax P(M|a)=argmax P(M)*P(a|M) • „Dekóder”
Nyelvi modell • általában N-gram model 2 -gram: P(m 1, m 2…mn)=∏P(mi|mi-1) 3 -gram: P(m 1, m 2…mn)=∏P(mi|mi-1, mi-2) • egy nyelvre • bőségesen van korpusz P(mi|mi-1) becslésére
Párhuzamos korpuszok • Két vagy több nyelven elérhető, szegmenseik egymáshoz rendeltek • A szegedi angol-magyar párhuzamos korpusz ~64 ezer mondatból áll:
Mondat szinkronizáció • Dinamikus programozás • Megközelítések – hossz alapú • Egységek hossza alapján összerendelés (a cél- és forrásnyelvi egységek hosszának aránya becsült) – horgony alapú • Írásjelek, megegyező szavak – hibrid módszerek • 98%
Fordítási modell • cél: frázisokat fordítsunk • párhuzamosítani kell frázis szinten • van elég példa a párhuzamos korpuszban?
Szavak párhuzamosítása
Szavak párhuzamosítása • Minden statisztikai MT lelke • Ha van egy modell akkor – frázisok azonosítása – fordítási modell
IBM Model 1
IBM Model 1 • J: cél mondat hossza • A=(a 1. . a. J): összerendelések • I: input mondat hossza • minden hozzárendelésnek egyenlő a valószínűsége
IBM Model 1
Dekóder argmax P(M|a)=argmax P(M)*P(a|M)
MT kiértékelése • Emberi kiértékelés – érthetőség, természetesség, stílus – 1 -5 skála – Olvasás ideje – cloze teszt – információ átadási készség – utó-javítás ideje
BLUE score • A fordítás minőségének mérése • Az embernél nincs jobb kiértékelő, de az nagyon drága • Adott néhány (emberi) fordítás minden mondatra a teszt halmazon • Számoljuk meg, hogy 1, 2, 3, 4 grammok milyen fedésben vannak az emberi fordításokkal • + javítások…
BLUE
BLUE • precízió: ha a 10 szavas fordításból 6 szerepel valamelyik referenciában akkor 60%
Fordítástámogató rendszerek (CAT)
CAT formái • • • Fordító memória Szótárazás (egy- és kétnyelvű) Terminológiakezelés Szinkronizáció Helyesírás-ellenőrzés
A Fordító memóriáról… • Hosszú távon időt (pénzt) takarít meg a fordító • Fordítócsoportok munkáját segíti (központi memória, terminológia, konzisztencia) • Újrahasznosíthatóság? „a szöveg üzenetét kell visszaadni!” • Fenn kell tartani (képzések, licensz), nem garantált a minősége • Csak karakterszintű egyezés? Lehet szintaktikai relációkat keresni…
Vicces esetek… határrendőr haltartó háztűznézés hóhányás időlopás légyszem [border alphabetic order][guard] [dying holder] [house][ fire][ look] [snow][ vomit] [time][ theft] [be eye]
Vicces esetek… Vomit his dog there is the queen? (Inter. Tran) Gyermekei megy ugyanaz iskola mint bánya. (Inter. Tran) Kekszek nincsenek balra! (Meta. Morpho) Left hand Irishmen. (Meta. Morpho)
51938dd457fbac6512905e995b6f006f.ppt