Скачать презентацию Računalna metodologija za jezično istraživanje FORMALNE GRAMATIKE Regularne Скачать презентацию Računalna metodologija za jezično istraživanje FORMALNE GRAMATIKE Regularne

9ae0d19f8ea82b8ee6782c804ff36ec4.ppt

  • Количество слайдов: 60

Računalna metodologija za jezično istraživanje FORMALNE GRAMATIKE Regularne gramatike (Regular Grammars) Računalna metodologija za jezično istraživanje FORMALNE GRAMATIKE Regularne gramatike (Regular Grammars)

Konačni automat (KA) n n 1. 2. 3. Pokušajmo objasniti princip rada konačnog automata Konačni automat (KA) n n 1. 2. 3. Pokušajmo objasniti princip rada konačnog automata na primjeru automata za kavu. Karakteristike automata za kavu su: cijena kave je 2, 5 kuna jedine kovanice koje prihvaća su: p=0. 5 (pola kune); k=1 (kuna); d=2 (dvije kune) automat za kavu prihvaća bilo koju kombinaciju u bilo kojem poretku do 2, 5 kn i ne vraća višak novca

Konačni automat (KA) Konačni automat (KA)

Konačni automat (KA) n n Postave koje prepoznaje automat za kavu: kkp, kpk, dp, Konačni automat (KA) n n Postave koje prepoznaje automat za kavu: kkp, kpk, dp, ppppp, . . . PREPOZNAVANJE POSTAVA: bilo kojim putem doći od 0 do ZS (stanje s dvostrukom kružnicom).

Konačni automat (KA) n 1. 2. 3. Zadatak: Karakteristike automata za sok su: cijena Konačni automat (KA) n 1. 2. 3. Zadatak: Karakteristike automata za sok su: cijena soka je 9 kuna jedine kovanice koje prihvaća su: d=2 (dvije kune); p=5 (pet kuna) automat za sok prihvaća bilo koju kombinaciju u bilo kojem poretku do 9 kn i ne vraća višak novca

Konačni automat (KA) - rješenje Konačni automat (KA) - rješenje

Konačni automat (KA) n n n Prije nego što ubacimo bilo koju kovanicu u Konačni automat (KA) n n n Prije nego što ubacimo bilo koju kovanicu u automat, on nalazi se u početnom stanju. Ubacivanje odgovarajućih kovanica mijenja stanja automata do završnog stanja. Označavamo ga s dvostrukom kružnicom. Stroj za kavu je konačni automat, KA, (Finite State Automatom, FSA).

Konačni automat (KA) n n n Zamijenimo termine automata za kavu: Ulaz u automat Konačni automat (KA) n n n Zamijenimo termine automata za kavu: Ulaz u automat nisu kovanice nego riječi: p, k i d. Skup svih ispravnih kovanica koje prihvaća automat je alfabet (abeceda). Nizovi kovanica koje prihvaća automat su rečenice (postave). Cjelokupan skup rečenica koje prihvaća (ili prepoznaje) automat je jezik. Automat ima pravila prema kojima prihvaća rečenice, a ona su gramatika.

Konačni automat (KA) Konačni automat (KA)

Konačni automat (KA) n 1. 2. 3. 4. 5. 6. 7. 8. Koje je Konačni automat (KA) n 1. 2. 3. 4. 5. 6. 7. 8. Koje je od sljedećih rečenica moguće generirati prethodnim konačnim automatom? A happy boy eats sad ice cream. The boy eats ice cream. A boy ate dogs. A happy boy ate hot dogs. One ate candy. One happy girl eats hot dogs.

RJEŠENJE 1. 2. 3. 4. 5. 6. 7. 8. A happy boy eats sad RJEŠENJE 1. 2. 3. 4. 5. 6. 7. 8. A happy boy eats sad ice cream? The boy eats ice cream. A boy ate dogs. A happy boy ate hot dogs. One ate candy. One happy girl eats hot dogs. N Y N Y Y N

Obrada postava n n KA mogu generirati ili prepoznavati postave nekog jezika. Kad automat Obrada postava n n KA mogu generirati ili prepoznavati postave nekog jezika. Kad automat pročita posljednji simbol, izlaz je: n n n Prihvaćanje postave: ako se automat nalazi u završnom stanju, Odbijanje postave: ako automat nije u završnom stanju. (Postava se također odbija ako bilo koji ulazni simbol kojeg automat čita nije član alfabeta. )

KA - prepoznavanje prirodnoga jezika Izraditi KA koji će prepoznavati sljedeće postave koristeći vrste KA - prepoznavanje prirodnoga jezika Izraditi KA koji će prepoznavati sljedeće postave koristeći vrste riječi (POS): with sinking credit ratings about obsessive love across borders for new territorial concessions in column n

KA - prepoznavanje postava engleskoga (<PREP><A>*<N>) KA - prepoznavanje postava engleskoga (*)

ZADATAK n Izraditi KA koji će prepoznavati sljedeće postave koristeći vrste riječi (POS): are ZADATAK n Izraditi KA koji će prepoznavati sljedeće postave koristeći vrste riječi (POS): are with the overwhelming majority packaged into a collector race across the factory floor refer to the people resulted in a near total loss served in the White House

Lokalna gramatika (M. Gross) n n n Lokalna je gramatika (local grammar) konačni automat Lokalna gramatika (M. Gross) n n n Lokalna je gramatika (local grammar) konačni automat koji opisuje ispravne (wellformed) nizove u tekstu i označava ih Lokalna: često služi za opis lokalnih fenomena koji obuhvaćaju niz od nekoliko pojavnica Postavlja leksičko-sintaktička ograničenja

Lokalna gramatika n Imenska sintagma English speaking student može biti opisana konačnim automatom: Lokalna gramatika n Imenska sintagma English speaking student može biti opisana konačnim automatom:

Lokalna gramatika n na mjestu English može biti bilo koji jezik, na mjestu student Lokalna gramatika n na mjestu English može biti bilo koji jezik, na mjestu student može biti bilo koja imenica koja se odnosi na ljudsko biće, individualno (npr. child, grocer) ili grupno (npr. Parliament), riječ speaking je obavezna, isključujući slične riječi kao talking, discussing…

Lokalna gramatika: primjer 2 n Gross: jezik funkcionira spajanjem različitih lokalnih modela konačnih stanja Lokalna gramatika: primjer 2 n Gross: jezik funkcionira spajanjem različitih lokalnih modela konačnih stanja upravo preko obiteljskih nizova odnosno mehanizma lokalne gramatike

Kritika KA (1) n n n Moguće je dokazati da određeni skupovi postava ne Kritika KA (1) n n n Moguće je dokazati da određeni skupovi postava ne mogu biti prihvaćeni automatom. Na primjer, beskonačan skup palindroma {a, aba, aabaa, aaabaaa, …} ne može biti generiran automatom Chomsky: RG imaju slabi generativni kapacitet; ne mogu opisati neke jezične strukture. Npr. umetanje u sredinu (center embedding): umetanje surečnice u sredinu druge rečenice

Kritika KA (2) n n n The fact that the men know John surprises Kritika KA (2) n n n The fact that the men know John surprises Mary. KA ne može opisati ovisnosti na daljinu (long distance dependency) Slaganje ja na 2 mjesta: men know i fact suprises (slaganje subjekt-predikat). Ne postoji konačna granica koliko se duboko može ići u ubacivanju novih rečenica. KA ne mogu prikazivati ovakvu vrstu slaganja na daljinu.

Konačni automat - L={a*b*} n n Pokušaj opisa L={anbn}. Zašto nije moguć? KA nema Konačni automat - L={a*b*} n n Pokušaj opisa L={anbn}. Zašto nije moguć? KA nema mogućnost memoriranja broja prolaza kroz stanja: a q 0 n b ε q 1 L={ε, a , b, aa, ab, bb, aaa, aab, abb, …, aabb, aaab, . . . }

Beskontekstna gramatika L={anbn} n n n dovoljno izražajna za opis daljinskih ovisnosti između sastavnica Beskontekstna gramatika L={anbn} n n n dovoljno izražajna za opis daljinskih ovisnosti između sastavnica u rečenici S → a. Sb S→ε S a S b

Hijerarhija Chomskog Postave neterminala i terminala: α, β, γ, δ Neterminali: A, B, C Hijerarhija Chomskog Postave neterminala i terminala: α, β, γ, δ Neterminali: A, B, C Terminali: a, b, c n Gramatički formalizmi dovoljno snažni za opis prirodnih jezika? Gdje spadaju prirodni jezici?

FORMALNE GRAMATIKE Beskontekstne gramatike (context -free grammars) FORMALNE GRAMATIKE Beskontekstne gramatike (context -free grammars)

Beskontekstne gramatike n n n gramatike tipa 2 Pravila proizvodnje ovih gramatika imaju oblik Beskontekstne gramatike n n n gramatike tipa 2 Pravila proizvodnje ovih gramatika imaju oblik A→α Neterminal → Neterminal i/ili Terminal

Stablo parsanja (parse tree) Stablo parsanja (parse tree)

Sastavnice - engleski n n n n Sastavnica je dio rečenice koji funkcionira kao Sastavnice - engleski n n n n Sastavnica je dio rečenice koji funkcionira kao samostalna cjelina. Primjer, NP (Noun Phrase): A boy hits a ball. A boy hits a big ball. A boy hits NP. A ball hits a boy. A big ball hits a boy. NP hits a boy.

ZADATAK 1. 2. 3. 4. 5. 6. n S→NP VP NP→D N VP→V NP ZADATAK 1. 2. 3. 4. 5. 6. n S→NP VP NP→D N VP→V NP D→a|one|the|every N→boy|girl|farmer|donkey V→loves|beats|kisses|eats|sees Deriviracija rečenice: every boy kisses the girl

ZADATAK - derivacija n n n n n S→NP VP (1) →D N VP ZADATAK - derivacija n n n n n S→NP VP (1) →D N VP (2) →every N VP (4) →every boy VP (5) →every boy V NP (3) →every boy kisses NP (6) →every boy kisses D N (2) →every boy kisses a N (4) →every boy kisses a girl (5)

ZADATAK - stablo n Primjenom pravila proizvodnje izvedite još jednu rečenice koje pripadaju ovoj ZADATAK - stablo n Primjenom pravila proizvodnje izvedite još jednu rečenice koje pripadaju ovoj gramatici.

Premetanje sastavnica engleski n n n On September seventeenth, I'd like to fly from Premetanje sastavnica engleski n n n On September seventeenth, I'd like to fly from Atlanta to Denver I'd like to fly on September seventeenth from Atlanta to Denver I'd like to fly from Atlanta to Denver on September seventeenth *On September, I'd like to fly seventeenth from Atlanta to Denver *On I'd like to fly September seventeenth from Atlanta to Denver *I'd like to fly on September from Atlanta to Denver seventeenth

Hrvatski jezik - slobodan red riječi n n n n n Divove obuze strah. Hrvatski jezik - slobodan red riječi n n n n n Divove obuze strah. Strah obuze divove. Obuze divove strah. Divove strah obuze. Strah divove obuze. Obuze strah divove. broj mogućih rečenica = n!=3!=3*2*1=6 (permutacije bez ponavljanja) 6 rečenica od 3 različite riječi 15!=1. 307. 674. 368. 000

Hrvatski jezik - slobodan red riječi? n n Azijska tržišta bilježe mješovite rezultate. broj Hrvatski jezik - slobodan red riječi? n n Azijska tržišta bilježe mješovite rezultate. broj rečenica = n! 5!=5*4*3*2*1=120 rečenica od 5 različitih riječi ? ? ? Koliko iznosi n?

Hrvatski jezik - slobodan red sastavnica n n n n Azijska tržišta bilježe mješovite Hrvatski jezik - slobodan red sastavnica n n n n Azijska tržišta bilježe mješovite rezultate. SPO Mješovite rezultate bilježe azijska tržišta. OPS Bilježe azijska tržišta mješovite rezultate. PSO Bilježe mješovite rezultate azijska tržišta. POS

Hrvatski jezik - slobodan red sastavnica n n n Također potencijalno moguće: OSP SOP Hrvatski jezik - slobodan red sastavnica n n n Također potencijalno moguće: OSP SOP Ali nije moguće: Mješovite tržišta bilježe azijska rezultate. IPAK POSTOJE OGRANIČENJA NA CJELOVITOST SASTAVNICA!!! broj rečenica = n!, ALI n = 3, a NE n = 5! 3!=3*2*1=6 rečenica od 3 sastavnice

Odnosi između sastavnica n n Ideja zasnivanja gramatike na konstituentskoj strukturi (strukturi sastavnica) potječe Odnosi između sastavnica n n Ideja zasnivanja gramatike na konstituentskoj strukturi (strukturi sastavnica) potječe još od Wilhelma Wundta (1900), ali nije formalizirana do Chomskoga (1956) Opisuju se sastavnice, odnosi među sastavnicama kao i pripadnost sastavnice nadređenoj cjelini

The fact that the men know John surprises Mary. n n n The fact The fact that the men know John surprises Mary. n n n The fact that the men know John surprises Mary. Slaganje na 2 mjesta: men know i fact suprises (Subject-Verb agreement). KA “ne može” opisati ovisnosti na daljinu (long distance dependency).

The fact that the men know John suprises Mary. S→NP V NP NP→N NP→D The fact that the men know John suprises Mary. S→NP V NP NP→N NP→D N NP→NP that S

Parsanje n n Parsanje (parsing) je postupak prepoznavanja rečeničnih dijelova i opisivanje relacija između Parsanje n n Parsanje (parsing) je postupak prepoznavanja rečeničnih dijelova i opisivanje relacija između njih. Parsanjem se definira sintaktička struktura rečenice. Neophodan postupak kod provjere sintaktičke strukture, prethodi semantičkoj analizi, strojnog prevođenja itd. Jurafski Daniel, James H. Martin → poglavlje 12.

Strukturalna višeznačnost n n n Strukturalna višeznačnost (structural ambiguity) nije isto što i višeznačnost Strukturalna višeznačnost n n n Strukturalna višeznačnost (structural ambiguity) nije isto što i višeznačnost vrsta riječi (POS ambiguity)! višeznačnost vrsta riječi: kos A/N; tvrdi A/V (hrv. ) book N/V; can N/V (eng. ) Svim prirodnim jezicima inherentna je i strukturalna višeznačnost:

The boy saw the man on the hill with the telescope The boy saw the man on the hill with the telescope

The man kept the dog in the house n 1. stablo: pas je u The man kept the dog in the house n 1. stablo: pas je u kući čovjeka

The man kept the dog in the house n 2. stablo: pas je u The man kept the dog in the house n 2. stablo: pas je u psećoj kučici

Strukturalna višeznačnost n CFG gramatika G je višeznačna (ambigous) ako postoje barem dva različita Strukturalna višeznačnost n CFG gramatika G je višeznačna (ambigous) ako postoje barem dva različita derivacijska stabla za istu rečenicu u jeziku L(G). U protivnom je jednoznačna (unambigous).

Strukturalna višeznačnost n Promotrimo rezultate parsinga sa n n http: //erg. delph-in. net/logon English Strukturalna višeznačnost n Promotrimo rezultate parsinga sa n n http: //erg. delph-in. net/logon English Resource Grammar (ERG). Rečenice n n n I play basketball. I will play basketball. Colourless green ideas sleep furiously. Colourless green ideas sleeps furiously. * The boy saw the man on the hill with the telescope.

Višeznačnost pridruživanja n n n Višeznačnost pridruživanja (attachment ambiguity) → ako određena sastavnica može Višeznačnost pridruživanja n n n Višeznačnost pridruživanja (attachment ambiguity) → ako određena sastavnica može biti pridružena stablu parsanja na više mjesta. PP-prijedložna fraza → razrješavanje prijedložnih fraza veliki je problem kod parsanja (PP attachment ambiguity) Ali i drugi problemi:

Koordinacijska višeznačnost n n n Big dogs and cats must be on a leash. Koordinacijska višeznačnost n n n Big dogs and cats must be on a leash. 2 ZNAČENJA (interpretacije): 1. Big dogs and cats must be on a leash. 2. Big dogs and big cats must be on a leash. Isto u hrvatskom: Veliki psi i mačke moraju biti na uzici.

John and Jane or Tom n n n John and Jane or Tom … John and Jane or Tom n n n John and Jane or Tom … Ivan i Marko ili Tomislav vole Anu. Tko voli Anu? 1. Ivan i (Marko ili Tomislav) 2. (Ivan i Marko) ili Tomislav

Hijerarhija Chomskog Hijerarhija Chomskog

FORMALNE GRAMATIKE Kontekstne gramatike (Context-sensitive grammars) i Gramatike bez ograničenja (Unrestricted grammars) FORMALNE GRAMATIKE Kontekstne gramatike (Context-sensitive grammars) i Gramatike bez ograničenja (Unrestricted grammars)

Kontekstne gramatike tipa 1 n Pravila proizvodnje ovih gramatika imaju oblik: αAβ → αγβ Kontekstne gramatike tipa 1 n Pravila proizvodnje ovih gramatika imaju oblik: αAβ → αγβ Neterminal i/ili Terminal → Neterminal i/ili Terminal n S lijeve strane nalazi se bilo koji broj neterminala i terminala, s desne strane nalazi se također bilo koji broj neterminala i terminala. n Kontekstnima se nazivaju iz razloga što α i β definiraju kontekst u kojem se može primijeniti pravilo A → γ. n

Nizozemski n n n Postoji li neki prirodni jezik kojega nije moguće prikazati beskontekstnom Nizozemski n n n Postoji li neki prirodni jezik kojega nije moguće prikazati beskontekstnom gramatikom? L={anbn} je moguće generirati beskontekstnom gramatikom. Promotrimo primjer iz nizozemskoga: L={N 1 N 2 N 3 V 1 V 2 V 3}

Engleski – kontekstna struktura John, Rod and David love Mary, Sandra and Bev respectively. Engleski – kontekstna struktura John, Rod and David love Mary, Sandra and Bev respectively.

Gramatike bez ograničenja n n n gramatike tipa 0 Pravila proizvodnje ovih gramatika imaju Gramatike bez ograničenja n n n gramatike tipa 0 Pravila proizvodnje ovih gramatika imaju oblik: α→β bez ograničenja za postave α i β. Jednostavnije: Bilo što → Bilo što Generiraju rekurzivno prebrojive jezike Upravo ih nedostatak ograničenja čini neprikladnima za uporabu Često proizvode više interpretacija za jednu rečenicu, još sporije u obradi…

Hijerarhija Chomskog Hijerarhija Chomskog

Drugi pogled na jezičnu strukturu? n n Postoje i formalni gramatički opisi koji se Drugi pogled na jezičnu strukturu? n n Postoje i formalni gramatički opisi koji se ne zasnivaju na sastavnicama Npr. ovisnosna gramatika (dependency grammar) (Tesnière, Mel´čuk) – pokazuje koje riječi ovise (modificiraju ih ili su argumenti od) neke druge riječi n n n Proizvodi stabla ovisnosti, ne konstituentska stabla Nema sastavničkih čvorova Prikladnija za opis jezika sa “slobodnijim redom riječi”

Ovisnosna (dependency) i konstituentska struktura Ovisnosna (dependency) i konstituentska struktura

Hrvatska ovisnosna banka stabala (HOBS): http: //hobs. ffzg. hr/ Hrvatska ovisnosna banka stabala (HOBS): http: //hobs. ffzg. hr/