412273df179654bc7a1c1bf9432d2c76.ppt
- Количество слайдов: 99
6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 2. Anbiguotasunaren tratamendua: kategoria lexikala. 6. 3. Hitz anitzeko unitateak eta neurri estatistikoak. 6. 4. Dokumentuen sailkapena ML teknikak erabilita. 1
Helburuak LNPrako bi hurbilpen daudela azaltzea Hurbilpen enpirikoa zertan datzan azaltzea LNP arloan ohikoak diren hainbat metodo enpirikoen sarrera eta adibideak: metodo estatistikoak (estokastikoak) ikasketa automatikoa 2
Oinarrizko bibliografia Apunte hauen oinarria: Empirical Methods on NLP. L. Marquez, L. Padro eta G. Rigau. UPCko LSI saileko doktorego ikastaroa. http: //www. lsi. upc. es/~lluism/cursos/emnlp 2. html Metodo Estatistiko eta Induktiboak LNPrako. I. Alegria, O. Arregi, N. Ezeiza, T. Ruiz. UEUren Hiztek masterreko ikastaroko apunteak. Foundations of Statistical Natural Language Processing (4ª ed. ). C. D. Manning & H. Schütze. MIT Press. 2001. http: //www- nlp. stanford. edu/fsnlp/ Statistical Methods in NLP. P. Resnik. http: //www. umiacs. umd. edu/users/resnik/nlstat_tutorial_summer 1998/ Datuak miatzen, informazioaren bila. Yosu Yurramendi. Informatika Fakultateko apunteak. Data-Intensive Linguistics. Chris Brew and Marc Moens. www. ltg. ed. ac. uk/~chrisbr/dilbook/ 3
Sarrera adimean artifizialean bezala hurbilpen Rules enpirikoa “modan” dago eskuz egindako erregelak Ù (SHAPE=circle) Þ positive otherwise Þ negative Decision Tree datuetatik inferitutako erregelak (COLOR=red) COLOR blue red SHAPE circle positive negative triangle negative 4
ML 4 NLP “sailkapen” problemak Anbiguotasuna a. LNPrako problema nagusietako bat da, maila guztietan azaltzen dena Anbiguotasunaren ebazpena = Sailkapena He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus) 5
ML 4 NLP “sailkapen” problemak Anbiguotasun morfosintaktikoa He was shot in the hand as he chased NN NN the robbers in the back street JJ VB VB VB (The Wall Street Journal Corpus) 6
ML 4 NLP “sailkapen” problemak Anbiguotasun morfosintaktikoa : Part of Speech Tagging (kategoriaren desanbiguazioa) He was shot in the hand as he chased NN NN the robbers in the back street JJ VB VB VB (The Wall Street Journal Corpus) 7
ML 4 NLP “classification” problems Anbiguotasun semantikoa (lexikala) He was shot in the hand as he chased the robbers in body-part street the back clock-part (The Wall Street Journal Corpus) 8
ML 4 NLP “sailkapen” problemak Anbiguotasun semantikoa (lexikala) : Hitzen Adiera Desanbiguazioa He was shot in the hand as he chased the robbers in body-part street the back clock-part (The Wall Street Journal Corpus) 9
ML 4 NLP “sailkapen” problemak Egiturazko anbiguotasuna (sintaktikoa) He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus) 10
ML 4 NLP “sailkapen” problemak Egiturazko anbiguotasuna (sintaktikoa) He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus) 11
ML 4 NLP “sailkapen” problemak Egiturazko anbiguotasuna (sintaktikoa): PP-attachment disambiguation (preposizio sintagmen kokapena) He was shot in the hand as he (chased (the robbers)NP (in the back street)PP) (The Wall Street Journal Corpus) 12
Intro: E-NLP LNP enpirikoa Anbiguotasun arazoak Hitzaren hautapena (MT) Kategoria Semantika (polisemia) Modifikatzaileen lotura Erreferentziak (anaphora), etab. sailkapen arazoak LNPko azpiataza guztiak sailkapen arazo izateko bezala planteatu daitezke: testuingurua ezaugarrien bidez errepresentatu adib. kategoria: NN-2 VAUX-1 VB 0 PREP+1 DET+2 metodoren bat aplikatu hipotesi bat aukeratzeko 13
Arrazionalismo / Enpirismoa erregeletan oinarritutako metodoen mugak: erregelen kopuru amaitezina anbiguotasunari ezin aurre egin sendotasun eza: kasu bat ez bada aurreikusi ez du ezer itzultzen eskuzko lan izugarria (gainera pertsona taldeen koherentzia mantentzeko arazoa) 14
Arrazionalismo / Enpirismoa metodo enpirikoen arrakastaren arrazoiak: ahotsaren tratamenduan arrakasta handia testu kopurua asko ugaritu da (datuak) ingeniaritzaren ezaugarriak sendotasuna sistemen garapen azkarra metodo bera arlo edo domeinu desberdinetan aplikatzeko aukera aplikazio komertzialen beharra: MT, IR, IE, etab. eragozpenak sparseness (datuen gehiegizko hedapena) memoria asko eta adierazpide berriak (liburu batean hitz desberdinen artean erdia behin baino ez da agertzen) agertu gabeko kasuak (0 probabilitatea): smoothing 15
Arrazionalismo / Enpirismoa Hurbilpen enpiriko / corpusetan oinarritutakoa / data-intensive Metodoen janaria corpusak dira: testu multzo handiak (egunkaria, orekatua) ikasi nahi den informazioa eskuz etiketatua egoten da corpusetan dauden etiketak zehazten dute zer ikasi daitekeen: hitzen kategoria, adiera, zuhaitz sintaktikoa, errepresentazio semantikoa, . . . 16
Corpusak: informazio morfosintaktikoa Informazio morfologikoz eskuz etiketatutako corpusa, EEBS Egunkaria Tamaina: 28. 300 token Tamaina: 14. 800 token Lema eta kategoriaz gain hitzen egitura morfologikoa Erabilera analizatzaile morfologiko eta lematizatzailea ebaluatzeko lematizatzaileak desanbiguatzen ikasi dezan eskuzko erregelak erregela estatistikoak 17
Corpusak : informazio morfosintaktikoa /
" D: 395 "gero" ADB ADO HAS_MAI @ADLG "<, >"" src="https://present5.com/presentation/412273df179654bc7a1c1bf9432d2c76/image-19.jpg" alt="Corpusak : informazio morfosintaktikoa "
Corpusak : informazio sintaktikoa Informazio sintaktikoz eskuz etiketatutako corpusa Jatorria: morfosintaxiaz etiketatutako corpus bera Bi eredu: zuhaitz egitura dependentzien zuhaitza Erabilera: analizatzaile sintaktikoen ebaluazioa analizatzaile sintaktikoak ikasteko (txikia) azpikategorizazioa aztertzeko (txikia) 20
Corpusak : informazio sintaktikoa Edozein lotsagabek egiten du egun telebistaprograma bat. 21
Corpusak: hitzen adierak Adierak eskuz aukeratu Euskal Hiztegiaren arabera 40 hitz (izen, adjektibo, aditz) > 100 agerpen bakoitzeko Jatorria: egunkaria, EEBS (nahiko agerpen ez) Erabilera: adieren zerrenda fintzeko / luzatzeko Euskarazko hitzen “ontologia”-ren hezurdura: Eus. Word. Net adieren maiztasunak jakiteko hitzen adiera topatzen duen sistemak ikas dezan 22
Corpusak : hitzen adierak berezk. agintaritzaren ezaugarri dena. Alkatearen zumezko koroa. Urre eta diamantezko koroa. Elorrizko, arantzazko koroa. Erregeren koroa. Koroa irabazi nahi duenak.
Espainiako Koroa. Ingeles koroaren mendean.
Zerraldo gaineko lorezko koroa.
Corpusak : hitzen adierak
Corpusak: hitzen adierak Koroa: Adiera nagusia egunkarian %39 A 1. N 2 (erregetza) Adiera berriak: moneta Tentsio: Bi adiera: gatazkei lotutakoa elektrizitateari lotutakoa Adiera nagusia egunkarian, lehenbizikoa %98 Adiera nagusia EEBSn, bigarrena %72 58 agerpen (gure zatian) 25
Metodo enpirikoen sailkapena gainbegiratuak/ez-gainbegiratuak inferentzia egin ahal izateko giza-lana behar da (eskuzko desanbiguazioa normalean) sinbolikoak/numerikoak ikasitako eredua interpretagarria da (erregelak) edo ez (zenbakiak) metodo konbinatuak metodo desberdinak konbinatu daitezke bozketa bootstrapping Datu gutxirekin hasita gai izatea emaitza onak ateratzen. 26
Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa estatistikoa: Eredu estokastikoak: ikasketa bayesiarra, markoven eredu ezkutuak, etab. – Entropia maximo bidezko ereduak – • Ikasketa induktibo sinbolikoa Erabaki zuhaitzak, erabaki zerrendak – Erregelen indukzioa – – Transformation-based Error-driven Learning – Instantzietan oinarritutako ikasketa (k-nn) 27
Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa konputazionalaren teoriatik etorritakoak – WINNOW eta SNOW arkitekturak – Boosting algoritmoak Support Vector Machines – • Sailkatzaile multzoak • etab. eklektikoa 28
Arrazionalismo / Enpirismoa (ondorio gisa) azken urteetan gorakada handia izan dute hausnarketa: hurbilpen enpirikotik gertuago hurbilpen arrazionalista: erregelak? hurbilpen enpirikoa: estatistikak? ez da erabat egia: ezagumendua da oinarria ezagumendua ere probabilistikoa da hizkuntzalariak erregelak idaztetik corpusak gainbegiratzera pasa dira erregelak copusetatik erauz daitezke metodoen konbinazioa 29
6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 2. Anbiguotasunaren tratamendua: kategoria lexikala. 6. 3. Hitz anitzeko unitateak eta neurri estatistikoak. 6. 4. Dokumentuen sailkapena ML teknikak erabilita. 30
6. 2. Anbiguotasunaren tratamendua: kategoria lexikala Probabilitateen oinarrizko kontzeptuak Adibidea: Kategoria-etiketatzailea 31
Probabilitateen oinarrizko kontzeptuak: probabilitatea Zerbait gertatuko dela esateko ziurtasuna neurtzen dugu 1 -> ziur gertatuko dela 0 -> ziur ez dela gertatuko 0. 3 -> kasuetako %30 ean gertatuko dela Zorizko aldagaia Probabilitatea aldez aurretik ezaguna den multzo baten barruan balioa hartzen duen zorizko aldagai baten gainean definitzen da. Adb: Txanpona botatzean Leon ala Kastilo ateratzea. Bi gertaera posible: ALDEA=Leon eta ALDEA=Kastilo 32
Oinarrizko kontzeptuak: probabilitate-funtzioa Probabilitate-funtzio batek zorizko aldagaiaren balio bakoitzari probabilitate bat esleitzen dio. Propietateak (E aldagaia eta e 1, . . . , en balio posibleak izanik) 1 PROB(ei)>=0, i guztietarako 2 PROB(ei)<=1, i guztietarako 3 i=1, n. PROB(ei)=1 Adibidea: Induraninik 1000 lasterketetan ibili eta 200 irabazi PROB(L=Irab) = PROB(L=Gald) = edo besterik gabe PROB(Irab) = PROB(Gald) = 33
Oinarrizko kontzeptuak: probabilitateen estimazioa Datu guztiak edukita -> posibilitateak Datu asko edukita -> etorkizunerako estimazioa LNPan -> estimaziorik bai, posibilitate errealik ez. EGIANTZ HANDIENEKO ESTIMATZAILEA Lagin batean kalkulatu den probabilitatea erabili. Behar adina kasu jasoz gero estimazioak nahi bezain zehatzak dira. Problemak maiztasun gutxiko hitzekin probabilitateak kalkulatzean agerpen-kopuruari 0, 5 gehitu. Estimazioen ebaluazioa Korpuseko %10 a edo %20 a ez da erabiltzen estimazioetarako. Emaitzak ebaluatzeko uzten da. Sistema ez ebaluatu gero erabilitako korpus beraren gainean! 34
Oinarrizko kontzeptuak: Baldintzapeko probabilitateak Induraniniren 1000 lasterketa horietan: 300 aldiz eguraldi bero -> 150 aldiz irabazle 700 aldiz eguraldi hotz -> 50 aldiz irabazle Bero egin eta gainera irabazteko probabilitatea: PROB(Irab & Bero)= Bero egiten duenean irabazteko duen probabilitatea: PROB(Irab | Bero)= PROB(A | B) = PROB(A & B) / PROB(B) Bayes-en erregela: PROB(A|B) = PROB(B|A)*PROB(A)/PROB(B) 35
oinarrizko kontzeptuak: Gertaera independenteak Bietako bat gertatzeak bestea gertatzeko posibilitatean aldaketarik ez duenean. Horrelakoetan : PROB(A | B) = PROB(A) PROB(A & B) = PROB(A) * PROB(B) Adibidez: Induraninik irabaztea eta Kepak lasterketa TBn ikustea. 300 aldiz ikusi eta 60 tan irabazi PROB(Irab | Kepa. TB) = 0. 2 => independenteak Baina irabaztea eta bero izatea? 36
Kategoria etiketatzailea (1. bertsioa) Posibleena baina testuingururik gabe 10 hitzetako esaldia hitz bakoitza 2 kategoria sintaktiko posible dauka. Zenbat konbinazio? Ebazpidea: hitz bakoitzaren kategoria posibleena bakarrik. Adibidez: "flies" hitza izena (N) edo aditza (V) izan daiteke. 1. 273. 000 hitzetako corpusean: 1000 aldiz, 400 etan izena (N), 6000 etan aditza (V) 2 zorizko aldagai: C (kategoria) eta W (hitza) Zein da handiena: PROB(C=N | W=flies) edo PROB(C=V | W=flies) ? PROB(N | flies) edo PROB(V | flies) ? "flies" guztiak aditz gisa etiketatuz gero %60 an edo asmatuko litzateke 37
Kategoria-Etiketatzailea (2. bertsioa) Corpus handi batean gehien azaltzen den kategoria aukeratuz gero %90 erainoko arrakasta lortzen da. (Hitzen erdia ez da anbiguo izaten) 10 hitzeko esaldi bakoitzea errore bat!! Hobekuntza: kontutan hartu behar da testuingurua "The flies. . . " flies aditza da hemen ere? Formalizazioa: w 1. . . w. T hitz-sekuentziarako lortu eurentzako C 1. . CT kategoria-sekuentzia posibleena PROB(C 1. . CT | w 1. . . w. T) Kalkulatu behar da konbinazio guztietan! => sinplifikazioak 38
Kategoria-Etiketatzailea (2. bertsioa) PROB(C 1. . CT | w 1. . . w. T) Bayes-en erregelaz PROB(C 1. . CT ) * PROB(w 1. . . w. T | C 1. . CT ) / PROB(w 1. . . w. T) Maximoak kalkulatzeko izendatzailea kendu (konstantea da) PROB(C 1. . CT ) * PROB(w 1. . . w. T | C 1. . CT ) Bigramak erabiliz antzeko gauza bat lortu daiteke: PROB(C 1. . CT ) @ i=1, T PROB(Ci | Ci-1 ) Beste sinplifikazio bat: PROB(w 1. . . w. T | C 1. . CT ) @ i=1, T PROB(wi | Ci ) Beraz, hau kalkulatu behar da konbinazio bakoitzerako: i=1, T PROB(Ci | Ci-1 ) * PROB(wi | Ci ) 39
Kategoria-Etiketatzailea (2. bertsioa) Maximizatu i=1, T PROB(Ci | Ci-1 ) * PROB(wi | Ci ) Formula hori korpus etiketatu batean kalkula daiteke Markov-en kateak eta Markov-en eredu ezkutua erabiliz. Ikus Allen-en liburuko 7. 4, 7. 5 eta 7. 6 irudiak Edo baita Viterbi-ren algoritmoa erabiliz azkarrago egiteko. Ikus Allen-en liburuko 7. 8, 7. 10, 7. 11 eta 7. 12 irudiak Teknika hau erabiliz %95 eko arrakasta lortzen da Hitz-trigrama erabiliz doitasuna handiagoa da. 40
6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 2. Anbiguotasunaren tratamendua: kategoria lexikala. 6. 3. Hitz anitzeko unitateak eta neurri estatistikoak. 6. 4. Dokumentuen sailkapena ML teknikak erabilita. 41
Zipfen legea oinarria: maiztasuna x postua~K postua: maiztasunaren araberako ordena eskala logaritmikoan lerro baten hurbilpena, bi muturretako desbiderapen txikiarekin esfortzu txikienaren printzipioan oinarriturik esperimentuak: ingelesez euskaraz 42
Hitz anitzekoak Ardo beltza (vino tinto) Hitz egin (hablar) Pikutara bidali (mandar a paseo) Pull one’s leg (hanka sartu) Itsasora joan (ir al mar) ? ? ? Los Angeles United Nations Laser printer, two-sided laser printer Etxe gorria ? ? ? 43
Kolokazioak Sailkapen zaila: hitz bi edo gehiago collocation (kolokazioak): unitate sintaktiko edo semantikoa konposaketa hutsa ez (esanahi berezia) ordezkapenik ez (ardo zuria/horia) aldaketarik ez (ezin edozein modutan konbinatu) adib. terminologia, izen bereziak, aditz konposatuak, lokuzioak co-ocurrence (agerkidetzak): unitaterik ez testuinguru berean adib. sendagile-erizain, txalupa-kai 44
Kolokazioaen identifikazioa Hurbilpen tradizionala Linguistak eskuz bilatu Hurbilpen enpiriko Enpirikoki bilatu nola karakterizatu kolokazioak Ezaugarri linguistikoak (ize+ize, etab. ) Ezaugarri estatistikoak (elkarrekin azaltzeko joera) 45
Kolokazioen identifikazioa arazoak: jarraituak/ez (co-ocurrence? ) ordenan/ez forma/lema (lematizazioa? ) hitz gutxi egin ez egin hitzik egin ez estatistikak: iragazketa linguistikoa stop-lista, morfosintaxia, . . . elkarrekin agertzeko joera Maiztasunak, bestelako test estatistikoak askotan maiztasun minimoa esperimentuak: ingelesez 46
Mutual Information log(p(x, y)/p(x)p(y)) balioen artean, ez aldagaien artean neurri ona, baina arazoak maiztasun txikiekin P(x) = kontaketa(x)/N 47
6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 2. Anbiguotasunaren tratamendua: kategoria lexikala. 6. 3. Hitz anitzeko unitateak eta neurri estatistikoak. 6. 4. Dokumentuen sailkapena ML teknikak erabilita. 48
Dokumentuen Sailkapena Lengoaia naturaleko testuak etiketatu edo sailkatu Aurredefinituriko kategoria multzoa 80. hamarkada arte sailkatzaile automatikoak eskuz egiten ziren (sistema adituak) erregelak baldin (formula boolearra) orduan (kategoria) Eragozpena: testuingurua aldatuz gero, erregelak aldatu behar dira 90. hamarkadan ikasketa automatikoa Denbora Zehaztasuna gutxiago berdintsua 49
Dokumentuen Sailkapena Aplikazioak: Interneteko atariak: web orriak sailkatu Berri agentziak: artikuluak dagozkien sekziotan Dokumentuen iragazkia: berri-agentzia egunkaria zaborra (spammerrak) Desanbiguazioa: banku (informatika / ekonomia) 50
Dokumentuen Sailkapena Kategoriak: etiketa sinbolikoa (kultura, politika, ekonomia, legea, kirola, . . . ). Dokumentuak: hitz multzoak. Dokumentuari kategoria esleitu Kategoriak: C={c 1, . . . , cm} Dokumentuak: D={d 1, . . . , dn} Erabakia: aij={0, 1} Sailkatzailea: f: D x C {0, 1} d 1. . . dj. . . dn a 11 c 1. . . ci. . . cm a m 1 aij am 51 n
Dokumentuen Sailkapena Dokumentuari kategoria esleitu: Oinarri semantikoa (jakintza endogenoa) dokumentuaren edukia hitzak. botika, gaixo, mediku, . . . Osasuna Metadata (jakintza exogenoa) Dokumentu mota, data, argitaletxea, . . . lerro motzak, testu motzak. . . poesia 52
Dokumentuen Sailkapena Etiketa bakarra dokumentu bakoitzari kategoria bakarra di cj Etiketa anitzak (multi-label) dokumentu bakoitzari kategoria bat baino gehiago: di cj, ck, cl, . . . Adibidea: Clinton-Lewinsky - Politika - Legea - Kotileoa 53
Dokumentuen Sailkapena Kategoria bakarra dokumentua kategorikoa den ala ez di c 0 (ez) di c 1 (bai) Kategoria anitzak (multiclass) dokumentua zein kategorikoa den di c 1 p 1 c 2 p 2 c 3 p 3. . . 54
Ikasketa automatikoa dokumentuen sailkapenean Adibide osatu bat Dokumentuen errepresentazioa Pausoak Dokumentuak murriztu Ezaugarriak atera Ikasketa-fasea Sailkatzailea aukeratu Ebaluaketa-fasea 55
Adibidea: dokumentuen sailkapena Helburua: dokumentu bat emanda zein kategorikoa den esatea Ikasketa: • Eskuz sailkatutako dokumentuak (di cj) • Kategoria-multzoa Ikasia: • Kategoria bakoitzaren ezaugarriak Emaitza: • Dokumentu bat emanda, zein kategorikoa den (probabilitatea) 56
Ikasketa-corpusa SAILKATZAILEA Dok 1_kultura Dok 2_politika Dok 3_politika Dok 4_osasuna. . . Dokn_kultura Kultura: idazle, liburu, eskultura, . . . Politika: lehendakaritza, EAJ, Batasuna, . . . Osasuna: botika, gaixo, mediku, . . . Ikasia 57
Emaitza (test) Dok_t 1 Dok_t 2 Dok_t 3 Dok_t 4. . . Dok_tp Test-corpusa Kultura: idazle, liburu, eskultura, . . . Politika: lehendakaritza, EAJ, Batasuna, . . . Osasuna: botika, gaixo, mediku, . . . Ikasia Dok_t 1 kultura politika osasuna Dok_t 2 politika kultura osasuna Dok_t 3 . . . Dok_t 4 . . . Dok_tp politika kultura osasuna 0, 9 0, 6 0, 1 0, 80 0, 78 0, 1 0, 8 0, 6 0, 0 Emaitzak 58
Ebaluazioa Dok_t 1_kultura Dok_t 2_kultura Dok_t 3_politika Dok_t 4_osasuna. . . Dok_tp_politika Dok_t 1 kultura politika osasuna Dok_t 2 politika kultura osasuna Dok_t 3 . . . Dok_t 4 . . . Dok_tp politika kultura osasuna 0, 9 0, 6 0, 1 0, 80 0, 78 0, 1 Errorea 0, 8 0, 6 0, 0 Emaitzak 59
Dokumentuen errepresentazioa Testua indexatu termino pisudunen bektorea Zer da terminoa? Hitza (lema) Hitz-multzoa Bestelako ezaugarriak (exogenoak) Zein da pisua? Bitarra: 1 terminoa azaltzen da, 0 ez da azaltzen Azalpen-kopurua Formula sofistikatuagoak: tf. idf, etab. 60
tf. idf Dokumentuen berreskurapenean erabilia Hitzei esleitutako pisuak: oinarria tfij: terminoaren maiztasuna, wj hitzaren agerpenak di dokumentuan dfj: wj agertzen deneko dokumentu kopurua N: dokumentu kopurua tf. idfj: log(N/ dfj) wij= tfij *idfj 61
Dokumentuak murriztu Informaziorik gabeko hitzak kendu: . . . Egia esan, ordukoa izan da Nazio Batuek eskualde horri buruz onartutako ebazpenen artean bete den bakarra, urte hartan bertan palestinar iheslarien itzultzeko eskubideaz hitzartutakoak, 1967 ko 242 ak (Cisjordania, Gaza eta Jerusalem Ekialdeko okupazioak bertan behera uzteaz hartutakoa) edo 1973 ko 338 ak (Golango gainei buruzkoa) urte luzeak eman dituzte bete gabe. Benetan adierazgarria izan da kasu honetako abstentzio bakarra … Guztira 56 hitz, informaziodunak 16 (%28, 6) Nola aukeratu kendu beharreko hitzak? Zenbat hitz kendu? 62
Dokumentuak murriztu Nola aukeratu kendu beharreko hitzak? Zenbat hitz kendu? Hitzak kendu bere garrantzia kontuan hartuz Dokumentuen maiztasuna #Tr(tk): hitza zenbat dokumentuetan azaltzen den #Tr oso txikia edo handia bada, hitzak ez du garrantzirik Gehienez 3 aldiz azaltzen diren hitzak kendu 10 aldiz txikiagoa den dokumentua lor daiteke Eraginkortasuna ez da galtzen 63
Dokumentuak murriztu Mutual Information: Chi-square, Information gain: 100 aldiz txikiagoa den dokumentua lor daiteke Korrelazio-koefizientea, … 64
Dokumentuen ezaugarriak atera Hitzak sailkapen semantikoa mediku, botika, gaixo osasuna Entitateak (pertsona, lekua, enpresa, …) motaren araberako sailkapena web orri pertsonalak, komertzialak, ofizialak, . . . Metadata (lodiak, maiuskulak, data, …) estiloaren araberako sailkapena lerro motzak, dok. motzak, … poesia 65
Ikasketa fasea: Sailkatzailea aukeratu Sailkatzaile probabilistikoak: Naive Bayes Erabaki-zuhaitzak Erabaki-erregelak: Construe Sailkatzaile linealak: Rocchio, Winnow, Perceptron Neurona-sareak k-NN SVM Sailkatzaileen konbinazioa: Boosting 66
Sailkatzailea aukeratu Probabilistikoak: CSVi(dj) funtzioa definitzeko, dj dokumentua ci kategoriakoa izatearen probabilitatea hartzen da kontuan Bayes 67
Probabilistikoa. Adibidea: kat = osasuna P(gaixo|osasuna) = 0. 8 P(mediku|osasuna)= 0. 6 P(osasun|osasuna) = 0. 7 P(jokalari|osasuna)= 0. 2 Ci = osasuna P (ci) = P(osasuna) = 0. 5 P (d 1| osasuna) = P(w 1|osasuna) = =P(gaixo | ci) x P(mediku |ci) x P(osasun | ci) x P(jokalari | ci) = 0. 8 x 0. 6 x 0. 7 x 0. 2 = 0. 0672 P (osasuna | d 1) = 0. 5 x 0. 0672 / P(dj) = 0. 0336 / P(dj) 68
Probabilistikoa. Adibidea: kat = kirola P(gaixo|kirola) P(mediku| kirola) P(osasun| kirola) P(jokalari| kirola) = 0. 2 = 0. 4 = 0. 3 = 0. 8 Ci = kirola P (ci) = P(kirola) = 0. 5 P (d 1| kirola) = P(w 1|kirola) = =P(gaixo | ci) x P(mediku |ci) x P(osasun | ci) x P(jokalari | ci) = 0. 2 x 0. 4 x 0. 3 x 0. 8 = 0. 0192 P (kirola | d 1) = 0. 5 x 0. 0162/P(dj)=0, 0081/P(dj) << 0. 0336/P(dj) 69
SVM (Super Vector Machine) sailkatzailea banatu adibide positiboak eta negatiboak hiperplano baten bidez positiboak negatiboak i 2 dimentsio 70
Sailkatzailearen ebaluaketa Eraginkortasun-neurriak Precision (Pr): sailkatzailearen “sendotasunmaila” Recall (Re): sailkatzailearen “perfekzio-maila” TPi Pri = TPi + FPi TPi Rei = TPi + FNi TP + TN Accuracy (Ac) = TP+TN+FP+FN Error = 1 - Ac 71
Sailkatzailearen ebaluaketa Adibidea Pri = TPi + FPi Rei = TPi + FNi Pr = 30/(30+20) = 0, 6 Re = 30/(30+10) = 0, 75 Ac = (30+40)/(30+40+20+10) = 0, 7 Errorea = (20+10)/(30+40+20+10) = 0, 3 72
(bukatu da 2003/2004) 73
Erabaki-zuhaitzak Algoritmo sinbolikoak Barne-adabegiak: hitzak; arkuak: hitzaren pisua; hostoak: kategoriak Garrantzitsua da banaketa egiteko hitza ondo aukeratzea 74
Erabaki-zuhaitzak. Adibidea: osasuna partidu_ez osasun_ez jokalari_ez partidu osasun jokalari EZ BAI EZ 75
Erabaki-erregelak Erregelak: baldintzazko aginduak Testuingurua aldatzen bada, erregelak aldatu behar dira. Zuhaitzak baino konpaktuagoak Sistemak erregelak definitzeko (CONSTRUE) 76
Erabaki-erregelak. Adibidea: osasuna Baldin Bestela gaixo eta osasun orduan mediku eta erizain orduan EZ BAI 77
ikasketa d 1: gaixo, mediku, osasun, jokalari osasuna d 2: erizain, mediku, jokatu, osasuna d 3: gaixo, mediku, jokatu, jokalari kirola testa K-NN (k nearest neighbor) sailkatzailea Aldameneko gertuena: dokumentu berri bat sailkatzeko, ikasketako antzekoena bilatu eta bere kategoria esleitu. dk: mediku, osasun, gaixo, jokatu osasuna 78
Sailkatzaile linealak Kategoriaren errepresentazioak dokumentuen errepresentazio bera erabiltzen du CSVi(dj) = dokumentu- eta kategoriabektorearen barne-biderketa = Bi eredu: Batch metodo induktiboa: sailkatzailea eraikitzen da ikasketa behin eginda Rocchio On-line metodo induktiboa (inkrementala): Sailkatzailea eraikitzen da hasierako ikasketa-corpusarekin eta “hobetzen” doa dokumentu berriak aztertu ahala 79
Sailkatzaile linealak. Perceptron Hasieran, ci kategoriarako hitzen pisu guztiak berdinak: wki Ikasketa dokumentu berria (dj) datorrenean, sailkatzaileak dituen pisuekin sailkatzen du: Emaitza zuzena bada: ezer ez Emaitza okerra bada: Baldin dj ci orduan wkj : = wkj + ( >0) Baldin dj ci orduan wkj : = wkj - ( >0) Winnow ( , ) 80
Neurona-sareak. Adibidea d 1: gaixo, mediku, osasun, jokalari gaixo mediku osasun jokalari . . . osasuna 81
Sailkatzaile-multzoa Ikasketa-metodo desberdinetan oinarritutako k sailkatzaile 1, 2, . . . , k, ataza bera betetzeko erabaki dj dokumentua ci kategorikoa den ala ez emaitza k sailkatzaileen emaitzen konbinazioa Ikasketa-metodo bereko k sailkatzaile erabili. Ikasketa sekuentzialki egiten da i sailkatzaileak 1, . . . , i-1 sailkatzaileen emaitzak hartzen ditu kontutan eta gaizki sailkatutako adibideak gehiago lantzen ditu. 82
4. Adibide praktikoak Snow aplikazioa Bayes Winnow Perceptron Euskaldunon Egunkariako emaitzak 83
Adibideak Ikasketa: kirola eta osasuna d 1: arbitro, baloi, gol, partidu d 2: arbitro, baloi, partidu, saski d 3, d 4, eta d 5: gol, gol, jokalari, jokaldi, partidu, partidu d 6: gaixo, gripe, gripe, txerto d 7: ospitale, gaixo, Osakidetza d 8: ospitale, gaixo, Osakidetza, birus, 84
Testa: kirola eta osasuna d 1: arbitro, baloi, partidu, saski d 2: arbitro, gaixo, partidu, Osakidetza d 3: gaixo, gripe, txerto, Osakidetza Hiztegia Arbitro Baloi Gol Jokalari Jokaldi Partidu Saski 10 11 12 14 15 16 17 birus gaixo gripe Osakidetza ospitale txerto 21 23 24 26 27 28 85
Snow aplikaziorako sarrera-fitxategiak Ikasketa 0, 11(3), 12, 16: 0, 11(4), 16(4), 17(2): 0, 12(8), 14(4), 15(3), 16(3): 1, 23(4), 24(6), 28: 1, 27(2), 23(4), 26, 21(4): Testa 0, 11(3), 16(4), 17: 0, 10, 23(3), 16(2), 26: 1, 23(2), 24(4), 28, 26: 86
Ikasia Naive Bayes: (0. 1, 0. 5) Targets: 0 -1 target 0 -0. 470003629246 1. 000 5 23 naivebayes 0 0: 0: 10 : 2 0 -0. 9162907319 0: 0: 11 : 2 0 -0. 9162907319 0: 0: 12 : 4 0 -0. 2231435513 0: 0: 14 : 3 0 -0. 5108256238 0: 0: 15 : 3 0 -0. 5108256238 0: 0: 16 : 5 0 0. 00000 0: 0: 17 : 1 0 -1. 6094379124 0 : 110010 : 2 0 -0. 9162907319 0 : 120010 : 1 0 -1. 6094379124 0 : 120011 : 1 0 -1. 6094379124 0 : 140012 : 3 0 -0. 5108256238 0 : 0 : 150014 : 3 0 -0. 5108256238 0 : 160010 : 2 0 -0. 9162907319 0 : 160011 : 2 0 -0. 9162907319 0 : 160012 : 4 0 -0. 2231435513 0 : 160014 : 3 0 -0. 5108256238 0 : 160015 : 3 0 -0. 5108256238 0 : 170010 : 1 0 -1. 6094379124 0 : 170011 : 1 0 -1. 6094379124 0 : 170016 : 1 0 -1. 6094379124 0 : 4294967294 : 5 0 0. 00000 0. 100 0. 500 87
Ikasia target 1 Naive Bayes: (0. 1, 0. 5) -0. 980829253012 1. 000 3 17 1: 0: 21 : 1: 0: 23 : 1: 0: 24 : 1: 0: 26 : 1: 0: 27 : 1: 0: 28 : 1 : 0 : 230021 : 0 : 240023 : 1 : 0 : 260021 : 0 : 260023 : 1 : 0 : 270021 : 0 : 270023 : 1 : 0 : 270026 : 1 : 0 : 280023 : 1 : 0 : 280024 : 1 : 0 : 4294967294 : 1 3 1 2 2 1 0 0 0 1 1 1 2 2 1 1 3 Targets: 0 -1 naivebayes 0 0. 100 0. 500 -1. 0986122887 0. 00000 -1. 0986122887 -0. 4054651081 -1. 0986122887 0 -0. 4054651081 0 -1. 0986122887 0 0. 00000 88
Ikasia Naive Bayes: (0. 1, 0. 5) Targets: 0 -1 Emaitza 3 test examples presented Overall Accuracy - 66. 67% Example 1 Label: 0 0: 1 3. 2768 e-006 1: 0 1. 4415 e-098 Example 2 Label: 0 (Errorea) 1: 1 2. 5559 e-053 0: 0 4. 6911 e-060 Example 3 Label: 1 1: 1 4. 7542 e-018 0: 0 7. 8536 e-092 1. 6384 e-006* 7. 2073 e-099 1. 2779 e-053 2. 3456 e-060* 2. 3771 e-018* 3. 9268 e-092 89
Ikasia target 0 0. 6250 Winnow: (1. 35, 0. 8, 4, 2. 1) 1. 000 5 17 winnow 0 0: 0: 10 : 0: 0: 11 : 0: 0: 12 : 0: 0: 14 : 0: 0: 15 : 0: 0: 16 : 0 : 110010 : 0 : 140012 : 0 : 0 : 150014 : 0 : 160010 : 0 : 160011 : 0 : 160012 : 0 : 160014 : 0 : 160015 : 0 : 4294967294 : 2 2 4 3 3 5 1 1 0 0 0 1 2 3 3 3 2 2 4 3 3 1 0 0 0 1 1 0 0 0 5 Targets: 0 -1 1. 350 0. 800 4. 000 2. 100 2. 8350000000 2. 1000000000 2. 100000 1 2. 8350000000 90
Ikasia Winnow: (1. 35, 0. 8, 4, 2. 1) target 1 0. 3750 1. 000 3 1: 0: 23 : 1: 0: 26 : 1: 0: 27 : 1 : 0 : 260023 : 1 : 0 : 270026 : 1 : 0 : 4294967294 : 8 3 2 2 2 3 winnow 0 1 0 0 0 1 1. 350 Targets: 0 -1 0. 800 4. 000 2. 100 2. 8350000000 2. 1000000000 2. 100000 2. 8350000000 91
Ikasia Naive Bayes: (0. 1, 0. 5) Emaitza 3 test examples presented Overall Accuracy - 66. 67% Example 1 Label: 0 0: 1 3. 2768 e-006 1: 0 1. 4415 e-098 Example 2 Label: 0 (Errorea) 1: 1 2. 5559 e-053 0: 0 4. 6911 e-060 Example 3 Label: 1 1: 1 4. 7542 e-018 0: 0 7. 8536 e-092 Targets: 0 -1 1. 6384 e-006* 7. 2073 e-099 1. 2779 e-053 2. 3456 e-060* 2. 3771 e-018* 3. 9268 e-092 92
Euskaldunon Egunkariako emaitzak Corpusa: 1999 ko bi hilabete (urtarrila eta otsaila) Ikasketa 330 367 694 testa 109 123 231 Politika 1294 568 314 790 431 189 105 264 batura 4357 1452 Kategoriak Ekonomia Europa Gizartea Kirola Kultura Mundua 93
Euskaldunon Egunkariako emaitzak Egunkariako corpus osoa 94
95
Machine Learning There are many general-purpose definitions of Machine Learning (or artificial learning) “Making a computer automatically acquire some kind of knowledge from a concrete data domain” (. . . ) Many learning paradigms fit this general idea, however we will concentrate on the following aspects: IA perspective Inductive Learning Paradigm: Supervised learning (vs. unsupervised) Purpose: Learning for Classification Type of knowledge: Symbolic (vs. subsymbolic) 96
Intro: ML The Learning Problem for Feature Vector Classification An instance is a vector: x =
Intro: ML The Learning Problem for Feature Vector Classification The hypothesis space, H, is the set of functions the learner can consider as possible definitions h: X Y that h belonging to H such that for all pair
Ariketak 1. eskuz Metodo estatistiko sinple bat (eskuz aplikatu daitekeena) diseinatu euskarazko testuak identifikatzeko. hartu bosna testu labur 5 hizkuntzatan (tartean 5 euskaraz) eta aplikatu metodoa. Lortu metodoaren zehaztasuna. %80 baino txikiagoa bada, birdiseinatu metodoa (gehienez 2 aldiz). 2. perl programazioa hartu testu luze bat (edo bildu hainbat testu labur) eta kalkulatu hitzen maiztasunak egiaztatzeko ea Zipfen legea betetzen den edo ez. 3. perl programazioa Hiru hizkuntzatako testu bana hartu eta kalkulatu zenbat hitz behar diren testuen %50 estaltzeko 3 hizkuntzatan 99


