Скачать презентацию 6 ARRAZIONALISMO ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6 1 Скачать презентацию 6 ARRAZIONALISMO ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6 1

412273df179654bc7a1c1bf9432d2c76.ppt

  • Количество слайдов: 99

6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 2. Anbiguotasunaren tratamendua: kategoria lexikala. 6. 3. Hitz anitzeko unitateak eta neurri estatistikoak. 6. 4. Dokumentuen sailkapena ML teknikak erabilita. 1

Helburuak LNPrako bi hurbilpen daudela azaltzea Hurbilpen enpirikoa zertan datzan azaltzea LNP arloan ohikoak Helburuak LNPrako bi hurbilpen daudela azaltzea Hurbilpen enpirikoa zertan datzan azaltzea LNP arloan ohikoak diren hainbat metodo enpirikoen sarrera eta adibideak: metodo estatistikoak (estokastikoak) ikasketa automatikoa 2

Oinarrizko bibliografia Apunte hauen oinarria: Empirical Methods on NLP. L. Marquez, L. Padro eta Oinarrizko bibliografia Apunte hauen oinarria: Empirical Methods on NLP. L. Marquez, L. Padro eta G. Rigau. UPCko LSI saileko doktorego ikastaroa. http: //www. lsi. upc. es/~lluism/cursos/emnlp 2. html Metodo Estatistiko eta Induktiboak LNPrako. I. Alegria, O. Arregi, N. Ezeiza, T. Ruiz. UEUren Hiztek masterreko ikastaroko apunteak. Foundations of Statistical Natural Language Processing (4ª ed. ). C. D. Manning & H. Schütze. MIT Press. 2001. http: //www- nlp. stanford. edu/fsnlp/ Statistical Methods in NLP. P. Resnik. http: //www. umiacs. umd. edu/users/resnik/nlstat_tutorial_summer 1998/ Datuak miatzen, informazioaren bila. Yosu Yurramendi. Informatika Fakultateko apunteak. Data-Intensive Linguistics. Chris Brew and Marc Moens. www. ltg. ed. ac. uk/~chrisbr/dilbook/ 3

Sarrera adimean artifizialean bezala hurbilpen Rules enpirikoa “modan” dago eskuz egindako erregelak Ù (SHAPE=circle) Sarrera adimean artifizialean bezala hurbilpen Rules enpirikoa “modan” dago eskuz egindako erregelak Ù (SHAPE=circle) Þ positive otherwise Þ negative Decision Tree datuetatik inferitutako erregelak (COLOR=red) COLOR blue red SHAPE circle positive negative triangle negative 4

ML 4 NLP “sailkapen” problemak Anbiguotasuna a. LNPrako problema nagusietako bat da, maila guztietan ML 4 NLP “sailkapen” problemak Anbiguotasuna a. LNPrako problema nagusietako bat da, maila guztietan azaltzen dena Anbiguotasunaren ebazpena = Sailkapena He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus) 5

ML 4 NLP “sailkapen” problemak Anbiguotasun morfosintaktikoa He was shot in the hand as ML 4 NLP “sailkapen” problemak Anbiguotasun morfosintaktikoa He was shot in the hand as he chased NN NN the robbers in the back street JJ VB VB VB (The Wall Street Journal Corpus) 6

ML 4 NLP “sailkapen” problemak Anbiguotasun morfosintaktikoa : Part of Speech Tagging (kategoriaren desanbiguazioa) ML 4 NLP “sailkapen” problemak Anbiguotasun morfosintaktikoa : Part of Speech Tagging (kategoriaren desanbiguazioa) He was shot in the hand as he chased NN NN the robbers in the back street JJ VB VB VB (The Wall Street Journal Corpus) 7

ML 4 NLP “classification” problems Anbiguotasun semantikoa (lexikala) He was shot in the hand ML 4 NLP “classification” problems Anbiguotasun semantikoa (lexikala) He was shot in the hand as he chased the robbers in body-part street the back clock-part (The Wall Street Journal Corpus) 8

ML 4 NLP “sailkapen” problemak Anbiguotasun semantikoa (lexikala) : Hitzen Adiera Desanbiguazioa He was ML 4 NLP “sailkapen” problemak Anbiguotasun semantikoa (lexikala) : Hitzen Adiera Desanbiguazioa He was shot in the hand as he chased the robbers in body-part street the back clock-part (The Wall Street Journal Corpus) 9

ML 4 NLP “sailkapen” problemak Egiturazko anbiguotasuna (sintaktikoa) He was shot in the hand ML 4 NLP “sailkapen” problemak Egiturazko anbiguotasuna (sintaktikoa) He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus) 10

ML 4 NLP “sailkapen” problemak Egiturazko anbiguotasuna (sintaktikoa) He was shot in the hand ML 4 NLP “sailkapen” problemak Egiturazko anbiguotasuna (sintaktikoa) He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus) 11

ML 4 NLP “sailkapen” problemak Egiturazko anbiguotasuna (sintaktikoa): PP-attachment disambiguation (preposizio sintagmen kokapena) He ML 4 NLP “sailkapen” problemak Egiturazko anbiguotasuna (sintaktikoa): PP-attachment disambiguation (preposizio sintagmen kokapena) He was shot in the hand as he (chased (the robbers)NP (in the back street)PP) (The Wall Street Journal Corpus) 12

Intro: E-NLP LNP enpirikoa Anbiguotasun arazoak Hitzaren hautapena (MT) Kategoria Semantika (polisemia) Modifikatzaileen lotura Intro: E-NLP LNP enpirikoa Anbiguotasun arazoak Hitzaren hautapena (MT) Kategoria Semantika (polisemia) Modifikatzaileen lotura Erreferentziak (anaphora), etab. sailkapen arazoak LNPko azpiataza guztiak sailkapen arazo izateko bezala planteatu daitezke: testuingurua ezaugarrien bidez errepresentatu adib. kategoria: NN-2 VAUX-1 VB 0 PREP+1 DET+2 metodoren bat aplikatu hipotesi bat aukeratzeko 13

Arrazionalismo / Enpirismoa erregeletan oinarritutako metodoen mugak: erregelen kopuru amaitezina anbiguotasunari ezin aurre egin Arrazionalismo / Enpirismoa erregeletan oinarritutako metodoen mugak: erregelen kopuru amaitezina anbiguotasunari ezin aurre egin sendotasun eza: kasu bat ez bada aurreikusi ez du ezer itzultzen eskuzko lan izugarria (gainera pertsona taldeen koherentzia mantentzeko arazoa) 14

Arrazionalismo / Enpirismoa metodo enpirikoen arrakastaren arrazoiak: ahotsaren tratamenduan arrakasta handia testu kopurua asko Arrazionalismo / Enpirismoa metodo enpirikoen arrakastaren arrazoiak: ahotsaren tratamenduan arrakasta handia testu kopurua asko ugaritu da (datuak) ingeniaritzaren ezaugarriak sendotasuna sistemen garapen azkarra metodo bera arlo edo domeinu desberdinetan aplikatzeko aukera aplikazio komertzialen beharra: MT, IR, IE, etab. eragozpenak sparseness (datuen gehiegizko hedapena) memoria asko eta adierazpide berriak (liburu batean hitz desberdinen artean erdia behin baino ez da agertzen) agertu gabeko kasuak (0 probabilitatea): smoothing 15

Arrazionalismo / Enpirismoa Hurbilpen enpiriko / corpusetan oinarritutakoa / data-intensive Metodoen janaria corpusak dira: Arrazionalismo / Enpirismoa Hurbilpen enpiriko / corpusetan oinarritutakoa / data-intensive Metodoen janaria corpusak dira: testu multzo handiak (egunkaria, orekatua) ikasi nahi den informazioa eskuz etiketatua egoten da corpusetan dauden etiketak zehazten dute zer ikasi daitekeen: hitzen kategoria, adiera, zuhaitz sintaktikoa, errepresentazio semantikoa, . . . 16

Corpusak: informazio morfosintaktikoa Informazio morfologikoz eskuz etiketatutako corpusa, EEBS Egunkaria Tamaina: 28. 300 token Corpusak: informazio morfosintaktikoa Informazio morfologikoz eskuz etiketatutako corpusa, EEBS Egunkaria Tamaina: 28. 300 token Tamaina: 14. 800 token Lema eta kategoriaz gain hitzen egitura morfologikoa Erabilera analizatzaile morfologiko eta lematizatzailea ebaluatzeko lematizatzaileak desanbiguatzen ikasi dezan eskuzko erregelak erregela estatistikoak 17

Corpusak : informazio morfosintaktikoa /<Eta>/<HAS_MAI>/ C ( Corpusak : informazio morfosintaktikoa /// C ("eta" LOT JNT EMEN @PJ) ("eta" LOT MEN KAUS @+JADNAG_MP @+JADLAG_MP) /<, >// // ("azken" DET ORD + DEK PAR MG @OBJ @SUBJ) ("azken" IZE ARR + DEK PAR MG @OBJ @SUBJ) C ("azkenik" ADB ADOARR) /<, >// // C ("lurralde" IZE ARR + DEK PAR MG @OBJ @SUBJ) // ("urruti" ADJ IZO + DEK GEN NUMP MUGM @IZLG> @ @ @ @ @ @/ ("herri" IZE ARR + DEK ABS NUMP MUGM @OBJ @SUBJ @PRED) C ("herri" IZE ARR + DEK ERG NUMS MUGM @SUBJ) 18

" D: 395 "gero" ADB ADO HAS_MAI @ADLG "<, >"" src="https://present5.com/presentation/412273df179654bc7a1c1bf9432d2c76/image-19.jpg" alt="Corpusak : informazio morfosintaktikoa "" D: 395 "gero" ADB ADO HAS_MAI @ADLG "<, >"" /> Corpusak : informazio morfosintaktikoa "" D: 395 "gero" ADB ADO HAS_MAI @ADLG "<, >" PUNT_KOMA "" D: 223 "hego" IZE ARR DEK ABS NUMP MUGM @OBJ @SUBJ "" D: 16 "motz" ADI SIN ASP PART ZERO NOTDEK @-JADNAG "" D: 392 "eta" LOT JNT @PJ @SJ AORG "" "poxpolu" IZE ARR ZERO @KM "" D: 30 "kaxa" IZE ARR ZERO AORG @KM "" D: 164 "bat" DET DZH DEK NUMS MUGM DEK INE @ADLG "" D: 187 "gartzelara" ADI SIN ASP PART ASP ETOR NOTDEK AORG @-JADNAG "" D: 208 "*edun" ADL B 1 NR_HK NI_ZU NK_HU @+JADLAG "<$. >" PUNT_PUNT 19

Corpusak : informazio sintaktikoa Informazio sintaktikoz eskuz etiketatutako corpusa Jatorria: morfosintaxiaz etiketatutako corpus bera Corpusak : informazio sintaktikoa Informazio sintaktikoz eskuz etiketatutako corpusa Jatorria: morfosintaxiaz etiketatutako corpus bera Bi eredu: zuhaitz egitura dependentzien zuhaitza Erabilera: analizatzaile sintaktikoen ebaluazioa analizatzaile sintaktikoak ikasteko (txikia) azpikategorizazioa aztertzeko (txikia) 20

Corpusak : informazio sintaktikoa Edozein lotsagabek egiten du egun telebistaprograma bat. 21 Corpusak : informazio sintaktikoa Edozein lotsagabek egiten du egun telebistaprograma bat. 21

Corpusak: hitzen adierak Adierak eskuz aukeratu Euskal Hiztegiaren arabera 40 hitz (izen, adjektibo, aditz) Corpusak: hitzen adierak Adierak eskuz aukeratu Euskal Hiztegiaren arabera 40 hitz (izen, adjektibo, aditz) > 100 agerpen bakoitzeko Jatorria: egunkaria, EEBS (nahiko agerpen ez) Erabilera: adieren zerrenda fintzeko / luzatzeko Euskarazko hitzen “ontologia”-ren hezurdura: Eus. Word. Net adieren maiztasunak jakiteko hitzen adiera topatzen duen sistemak ikas dezan 22

Corpusak : hitzen adierak <entry> <form><orth>koroa</orth></form> <Gram. Grp><pos>iz. </pos></Gram. Grp> <usg type=time>1571</usg> <sense n='A Corpusak : hitzen adierak

koroa
iz. 1571 Eraztun formako apaingarria, buruan ezartzen dena, abarrez, lorez. . . egina edota metalezkoa, berezk. agintaritzaren ezaugarri dena. Ik. burestun; buruntza Alkatearen zumezko koroa. Urre eta diamantezko koroa. Elorrizko, arantzazko koroa. Erregeren koroa. Koroa irabazi nahi duenak. Erregetza. Espainiako Koroa. Ingeles koroaren mendean. Zirkulu formako gauzakia. Zerraldo gaineko lorezko koroa. 23

Corpusak : hitzen adierak <instance id= Corpusak : hitzen adierak Final gutxi baina izar asko izan ziren atzo olinpiar estadioan. Jokoetako errege-erreginen koroak janztera etorri diren atletak - Marion Jones, Maurice Green, Cathy Freeman eta Michael Johnson - atzo estreinatu ziren Sydneyko Jokoetan, ondo estreinatu ere. Guztiek erraz egin zuten aurrera euren kanporaketetan, 100 metroetakoek bi alditan, eta 400 ekoak behin. 24

Corpusak: hitzen adierak Koroa: Adiera nagusia egunkarian %39 A 1. N 2 (erregetza) Adiera Corpusak: hitzen adierak Koroa: Adiera nagusia egunkarian %39 A 1. N 2 (erregetza) Adiera berriak: moneta Tentsio: Bi adiera: gatazkei lotutakoa elektrizitateari lotutakoa Adiera nagusia egunkarian, lehenbizikoa %98 Adiera nagusia EEBSn, bigarrena %72 58 agerpen (gure zatian) 25

Metodo enpirikoen sailkapena gainbegiratuak/ez-gainbegiratuak inferentzia egin ahal izateko giza-lana behar da (eskuzko desanbiguazioa normalean) Metodo enpirikoen sailkapena gainbegiratuak/ez-gainbegiratuak inferentzia egin ahal izateko giza-lana behar da (eskuzko desanbiguazioa normalean) sinbolikoak/numerikoak ikasitako eredua interpretagarria da (erregelak) edo ez (zenbakiak) metodo konbinatuak metodo desberdinak konbinatu daitezke bozketa bootstrapping Datu gutxirekin hasita gai izatea emaitza onak ateratzen. 26

Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa estatistikoa: Eredu estokastikoak: ikasketa bayesiarra, markoven eredu ezkutuak, Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa estatistikoa: Eredu estokastikoak: ikasketa bayesiarra, markoven eredu ezkutuak, etab. – Entropia maximo bidezko ereduak – • Ikasketa induktibo sinbolikoa Erabaki zuhaitzak, erabaki zerrendak – Erregelen indukzioa – – Transformation-based Error-driven Learning – Instantzietan oinarritutako ikasketa (k-nn) 27

Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa konputazionalaren teoriatik etorritakoak – WINNOW eta SNOW arkitekturak Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa konputazionalaren teoriatik etorritakoak – WINNOW eta SNOW arkitekturak – Boosting algoritmoak Support Vector Machines – • Sailkatzaile multzoak • etab. eklektikoa 28

Arrazionalismo / Enpirismoa (ondorio gisa) azken urteetan gorakada handia izan dute hausnarketa: hurbilpen enpirikotik Arrazionalismo / Enpirismoa (ondorio gisa) azken urteetan gorakada handia izan dute hausnarketa: hurbilpen enpirikotik gertuago hurbilpen arrazionalista: erregelak? hurbilpen enpirikoa: estatistikak? ez da erabat egia: ezagumendua da oinarria ezagumendua ere probabilistikoa da hizkuntzalariak erregelak idaztetik corpusak gainbegiratzera pasa dira erregelak copusetatik erauz daitezke metodoen konbinazioa 29

6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 2. Anbiguotasunaren tratamendua: kategoria lexikala. 6. 3. Hitz anitzeko unitateak eta neurri estatistikoak. 6. 4. Dokumentuen sailkapena ML teknikak erabilita. 30

6. 2. Anbiguotasunaren tratamendua: kategoria lexikala Probabilitateen oinarrizko kontzeptuak Adibidea: Kategoria-etiketatzailea 31 6. 2. Anbiguotasunaren tratamendua: kategoria lexikala Probabilitateen oinarrizko kontzeptuak Adibidea: Kategoria-etiketatzailea 31

Probabilitateen oinarrizko kontzeptuak: probabilitatea Zerbait gertatuko dela esateko ziurtasuna neurtzen dugu 1 -> ziur Probabilitateen oinarrizko kontzeptuak: probabilitatea Zerbait gertatuko dela esateko ziurtasuna neurtzen dugu 1 -> ziur gertatuko dela 0 -> ziur ez dela gertatuko 0. 3 -> kasuetako %30 ean gertatuko dela Zorizko aldagaia Probabilitatea aldez aurretik ezaguna den multzo baten barruan balioa hartzen duen zorizko aldagai baten gainean definitzen da. Adb: Txanpona botatzean Leon ala Kastilo ateratzea. Bi gertaera posible: ALDEA=Leon eta ALDEA=Kastilo 32

Oinarrizko kontzeptuak: probabilitate-funtzioa Probabilitate-funtzio batek zorizko aldagaiaren balio bakoitzari probabilitate bat esleitzen dio. Propietateak Oinarrizko kontzeptuak: probabilitate-funtzioa Probabilitate-funtzio batek zorizko aldagaiaren balio bakoitzari probabilitate bat esleitzen dio. Propietateak (E aldagaia eta e 1, . . . , en balio posibleak izanik) 1 PROB(ei)>=0, i guztietarako 2 PROB(ei)<=1, i guztietarako 3 i=1, n. PROB(ei)=1 Adibidea: Induraninik 1000 lasterketetan ibili eta 200 irabazi PROB(L=Irab) = PROB(L=Gald) = edo besterik gabe PROB(Irab) = PROB(Gald) = 33

Oinarrizko kontzeptuak: probabilitateen estimazioa Datu guztiak edukita -> posibilitateak Datu asko edukita -> etorkizunerako Oinarrizko kontzeptuak: probabilitateen estimazioa Datu guztiak edukita -> posibilitateak Datu asko edukita -> etorkizunerako estimazioa LNPan -> estimaziorik bai, posibilitate errealik ez. EGIANTZ HANDIENEKO ESTIMATZAILEA Lagin batean kalkulatu den probabilitatea erabili. Behar adina kasu jasoz gero estimazioak nahi bezain zehatzak dira. Problemak maiztasun gutxiko hitzekin probabilitateak kalkulatzean agerpen-kopuruari 0, 5 gehitu. Estimazioen ebaluazioa Korpuseko %10 a edo %20 a ez da erabiltzen estimazioetarako. Emaitzak ebaluatzeko uzten da. Sistema ez ebaluatu gero erabilitako korpus beraren gainean! 34

Oinarrizko kontzeptuak: Baldintzapeko probabilitateak Induraniniren 1000 lasterketa horietan: 300 aldiz eguraldi bero -> 150 Oinarrizko kontzeptuak: Baldintzapeko probabilitateak Induraniniren 1000 lasterketa horietan: 300 aldiz eguraldi bero -> 150 aldiz irabazle 700 aldiz eguraldi hotz -> 50 aldiz irabazle Bero egin eta gainera irabazteko probabilitatea: PROB(Irab & Bero)= Bero egiten duenean irabazteko duen probabilitatea: PROB(Irab | Bero)= PROB(A | B) = PROB(A & B) / PROB(B) Bayes-en erregela: PROB(A|B) = PROB(B|A)*PROB(A)/PROB(B) 35

oinarrizko kontzeptuak: Gertaera independenteak Bietako bat gertatzeak bestea gertatzeko posibilitatean aldaketarik ez duenean. Horrelakoetan oinarrizko kontzeptuak: Gertaera independenteak Bietako bat gertatzeak bestea gertatzeko posibilitatean aldaketarik ez duenean. Horrelakoetan : PROB(A | B) = PROB(A) PROB(A & B) = PROB(A) * PROB(B) Adibidez: Induraninik irabaztea eta Kepak lasterketa TBn ikustea. 300 aldiz ikusi eta 60 tan irabazi PROB(Irab | Kepa. TB) = 0. 2 => independenteak Baina irabaztea eta bero izatea? 36

Kategoria etiketatzailea (1. bertsioa) Posibleena baina testuingururik gabe 10 hitzetako esaldia hitz bakoitza 2 Kategoria etiketatzailea (1. bertsioa) Posibleena baina testuingururik gabe 10 hitzetako esaldia hitz bakoitza 2 kategoria sintaktiko posible dauka. Zenbat konbinazio? Ebazpidea: hitz bakoitzaren kategoria posibleena bakarrik. Adibidez: "flies" hitza izena (N) edo aditza (V) izan daiteke. 1. 273. 000 hitzetako corpusean: 1000 aldiz, 400 etan izena (N), 6000 etan aditza (V) 2 zorizko aldagai: C (kategoria) eta W (hitza) Zein da handiena: PROB(C=N | W=flies) edo PROB(C=V | W=flies) ? PROB(N | flies) edo PROB(V | flies) ? "flies" guztiak aditz gisa etiketatuz gero %60 an edo asmatuko litzateke 37

Kategoria-Etiketatzailea (2. bertsioa) Corpus handi batean gehien azaltzen den kategoria aukeratuz gero %90 erainoko Kategoria-Etiketatzailea (2. bertsioa) Corpus handi batean gehien azaltzen den kategoria aukeratuz gero %90 erainoko arrakasta lortzen da. (Hitzen erdia ez da anbiguo izaten) 10 hitzeko esaldi bakoitzea errore bat!! Hobekuntza: kontutan hartu behar da testuingurua "The flies. . . " flies aditza da hemen ere? Formalizazioa: w 1. . . w. T hitz-sekuentziarako lortu eurentzako C 1. . CT kategoria-sekuentzia posibleena PROB(C 1. . CT | w 1. . . w. T) Kalkulatu behar da konbinazio guztietan! => sinplifikazioak 38

Kategoria-Etiketatzailea (2. bertsioa) PROB(C 1. . CT | w 1. . . w. T) Kategoria-Etiketatzailea (2. bertsioa) PROB(C 1. . CT | w 1. . . w. T) Bayes-en erregelaz PROB(C 1. . CT ) * PROB(w 1. . . w. T | C 1. . CT ) / PROB(w 1. . . w. T) Maximoak kalkulatzeko izendatzailea kendu (konstantea da) PROB(C 1. . CT ) * PROB(w 1. . . w. T | C 1. . CT ) Bigramak erabiliz antzeko gauza bat lortu daiteke: PROB(C 1. . CT ) @ i=1, T PROB(Ci | Ci-1 ) Beste sinplifikazio bat: PROB(w 1. . . w. T | C 1. . CT ) @ i=1, T PROB(wi | Ci ) Beraz, hau kalkulatu behar da konbinazio bakoitzerako: i=1, T PROB(Ci | Ci-1 ) * PROB(wi | Ci ) 39

Kategoria-Etiketatzailea (2. bertsioa) Maximizatu i=1, T PROB(Ci | Ci-1 ) * PROB(wi | Ci Kategoria-Etiketatzailea (2. bertsioa) Maximizatu i=1, T PROB(Ci | Ci-1 ) * PROB(wi | Ci ) Formula hori korpus etiketatu batean kalkula daiteke Markov-en kateak eta Markov-en eredu ezkutua erabiliz. Ikus Allen-en liburuko 7. 4, 7. 5 eta 7. 6 irudiak Edo baita Viterbi-ren algoritmoa erabiliz azkarrago egiteko. Ikus Allen-en liburuko 7. 8, 7. 10, 7. 11 eta 7. 12 irudiak Teknika hau erabiliz %95 eko arrakasta lortzen da Hitz-trigrama erabiliz doitasuna handiagoa da. 40

6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 2. Anbiguotasunaren tratamendua: kategoria lexikala. 6. 3. Hitz anitzeko unitateak eta neurri estatistikoak. 6. 4. Dokumentuen sailkapena ML teknikak erabilita. 41

Zipfen legea oinarria: maiztasuna x postua~K postua: maiztasunaren araberako ordena eskala logaritmikoan lerro baten Zipfen legea oinarria: maiztasuna x postua~K postua: maiztasunaren araberako ordena eskala logaritmikoan lerro baten hurbilpena, bi muturretako desbiderapen txikiarekin esfortzu txikienaren printzipioan oinarriturik esperimentuak: ingelesez euskaraz 42

Hitz anitzekoak Ardo beltza (vino tinto) Hitz egin (hablar) Pikutara bidali (mandar a paseo) Hitz anitzekoak Ardo beltza (vino tinto) Hitz egin (hablar) Pikutara bidali (mandar a paseo) Pull one’s leg (hanka sartu) Itsasora joan (ir al mar) ? ? ? Los Angeles United Nations Laser printer, two-sided laser printer Etxe gorria ? ? ? 43

Kolokazioak Sailkapen zaila: hitz bi edo gehiago collocation (kolokazioak): unitate sintaktiko edo semantikoa konposaketa Kolokazioak Sailkapen zaila: hitz bi edo gehiago collocation (kolokazioak): unitate sintaktiko edo semantikoa konposaketa hutsa ez (esanahi berezia) ordezkapenik ez (ardo zuria/horia) aldaketarik ez (ezin edozein modutan konbinatu) adib. terminologia, izen bereziak, aditz konposatuak, lokuzioak co-ocurrence (agerkidetzak): unitaterik ez testuinguru berean adib. sendagile-erizain, txalupa-kai 44

Kolokazioaen identifikazioa Hurbilpen tradizionala Linguistak eskuz bilatu Hurbilpen enpiriko Enpirikoki bilatu nola karakterizatu kolokazioak Kolokazioaen identifikazioa Hurbilpen tradizionala Linguistak eskuz bilatu Hurbilpen enpiriko Enpirikoki bilatu nola karakterizatu kolokazioak Ezaugarri linguistikoak (ize+ize, etab. ) Ezaugarri estatistikoak (elkarrekin azaltzeko joera) 45

Kolokazioen identifikazioa arazoak: jarraituak/ez (co-ocurrence? ) ordenan/ez forma/lema (lematizazioa? ) hitz gutxi egin ez Kolokazioen identifikazioa arazoak: jarraituak/ez (co-ocurrence? ) ordenan/ez forma/lema (lematizazioa? ) hitz gutxi egin ez egin hitzik egin ez estatistikak: iragazketa linguistikoa stop-lista, morfosintaxia, . . . elkarrekin agertzeko joera Maiztasunak, bestelako test estatistikoak askotan maiztasun minimoa esperimentuak: ingelesez 46

Mutual Information log(p(x, y)/p(x)p(y)) balioen artean, ez aldagaien artean neurri ona, baina arazoak maiztasun Mutual Information log(p(x, y)/p(x)p(y)) balioen artean, ez aldagaien artean neurri ona, baina arazoak maiztasun txikiekin P(x) = kontaketa(x)/N 47

6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6. 1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6. 2. Anbiguotasunaren tratamendua: kategoria lexikala. 6. 3. Hitz anitzeko unitateak eta neurri estatistikoak. 6. 4. Dokumentuen sailkapena ML teknikak erabilita. 48

Dokumentuen Sailkapena Lengoaia naturaleko testuak etiketatu edo sailkatu Aurredefinituriko kategoria multzoa 80. hamarkada arte Dokumentuen Sailkapena Lengoaia naturaleko testuak etiketatu edo sailkatu Aurredefinituriko kategoria multzoa 80. hamarkada arte sailkatzaile automatikoak eskuz egiten ziren (sistema adituak) erregelak baldin (formula boolearra) orduan (kategoria) Eragozpena: testuingurua aldatuz gero, erregelak aldatu behar dira 90. hamarkadan ikasketa automatikoa Denbora Zehaztasuna gutxiago berdintsua 49

Dokumentuen Sailkapena Aplikazioak: Interneteko atariak: web orriak sailkatu Berri agentziak: artikuluak dagozkien sekziotan Dokumentuen Dokumentuen Sailkapena Aplikazioak: Interneteko atariak: web orriak sailkatu Berri agentziak: artikuluak dagozkien sekziotan Dokumentuen iragazkia: berri-agentzia egunkaria zaborra (spammerrak) Desanbiguazioa: banku (informatika / ekonomia) 50

Dokumentuen Sailkapena Kategoriak: etiketa sinbolikoa (kultura, politika, ekonomia, legea, kirola, . . . ). Dokumentuen Sailkapena Kategoriak: etiketa sinbolikoa (kultura, politika, ekonomia, legea, kirola, . . . ). Dokumentuak: hitz multzoak. Dokumentuari kategoria esleitu Kategoriak: C={c 1, . . . , cm} Dokumentuak: D={d 1, . . . , dn} Erabakia: aij={0, 1} Sailkatzailea: f: D x C {0, 1} d 1. . . dj. . . dn a 11 c 1. . . ci. . . cm a m 1 aij am 51 n

Dokumentuen Sailkapena Dokumentuari kategoria esleitu: Oinarri semantikoa (jakintza endogenoa) dokumentuaren edukia hitzak. botika, gaixo, Dokumentuen Sailkapena Dokumentuari kategoria esleitu: Oinarri semantikoa (jakintza endogenoa) dokumentuaren edukia hitzak. botika, gaixo, mediku, . . . Osasuna Metadata (jakintza exogenoa) Dokumentu mota, data, argitaletxea, . . . lerro motzak, testu motzak. . . poesia 52

Dokumentuen Sailkapena Etiketa bakarra dokumentu bakoitzari kategoria bakarra di cj Etiketa anitzak (multi-label) dokumentu Dokumentuen Sailkapena Etiketa bakarra dokumentu bakoitzari kategoria bakarra di cj Etiketa anitzak (multi-label) dokumentu bakoitzari kategoria bat baino gehiago: di cj, ck, cl, . . . Adibidea: Clinton-Lewinsky - Politika - Legea - Kotileoa 53

Dokumentuen Sailkapena Kategoria bakarra dokumentua kategorikoa den ala ez di c 0 (ez) di Dokumentuen Sailkapena Kategoria bakarra dokumentua kategorikoa den ala ez di c 0 (ez) di c 1 (bai) Kategoria anitzak (multiclass) dokumentua zein kategorikoa den di c 1 p 1 c 2 p 2 c 3 p 3. . . 54

Ikasketa automatikoa dokumentuen sailkapenean Adibide osatu bat Dokumentuen errepresentazioa Pausoak Dokumentuak murriztu Ezaugarriak atera Ikasketa automatikoa dokumentuen sailkapenean Adibide osatu bat Dokumentuen errepresentazioa Pausoak Dokumentuak murriztu Ezaugarriak atera Ikasketa-fasea Sailkatzailea aukeratu Ebaluaketa-fasea 55

Adibidea: dokumentuen sailkapena Helburua: dokumentu bat emanda zein kategorikoa den esatea Ikasketa: • Eskuz Adibidea: dokumentuen sailkapena Helburua: dokumentu bat emanda zein kategorikoa den esatea Ikasketa: • Eskuz sailkatutako dokumentuak (di cj) • Kategoria-multzoa Ikasia: • Kategoria bakoitzaren ezaugarriak Emaitza: • Dokumentu bat emanda, zein kategorikoa den (probabilitatea) 56

Ikasketa-corpusa SAILKATZAILEA Dok 1_kultura Dok 2_politika Dok 3_politika Dok 4_osasuna. . . Dokn_kultura Kultura: Ikasketa-corpusa SAILKATZAILEA Dok 1_kultura Dok 2_politika Dok 3_politika Dok 4_osasuna. . . Dokn_kultura Kultura: idazle, liburu, eskultura, . . . Politika: lehendakaritza, EAJ, Batasuna, . . . Osasuna: botika, gaixo, mediku, . . . Ikasia 57

Emaitza (test) Dok_t 1 Dok_t 2 Dok_t 3 Dok_t 4. . . Dok_tp Test-corpusa Emaitza (test) Dok_t 1 Dok_t 2 Dok_t 3 Dok_t 4. . . Dok_tp Test-corpusa Kultura: idazle, liburu, eskultura, . . . Politika: lehendakaritza, EAJ, Batasuna, . . . Osasuna: botika, gaixo, mediku, . . . Ikasia Dok_t 1 kultura politika osasuna Dok_t 2 politika kultura osasuna Dok_t 3 . . . Dok_t 4 . . . Dok_tp politika kultura osasuna 0, 9 0, 6 0, 1 0, 80 0, 78 0, 1 0, 8 0, 6 0, 0 Emaitzak 58

Ebaluazioa Dok_t 1_kultura Dok_t 2_kultura Dok_t 3_politika Dok_t 4_osasuna. . . Dok_tp_politika Dok_t 1 Ebaluazioa Dok_t 1_kultura Dok_t 2_kultura Dok_t 3_politika Dok_t 4_osasuna. . . Dok_tp_politika Dok_t 1 kultura politika osasuna Dok_t 2 politika kultura osasuna Dok_t 3 . . . Dok_t 4 . . . Dok_tp politika kultura osasuna 0, 9 0, 6 0, 1 0, 80 0, 78 0, 1 Errorea 0, 8 0, 6 0, 0 Emaitzak 59

Dokumentuen errepresentazioa Testua indexatu termino pisudunen bektorea Zer da terminoa? Hitza (lema) Hitz-multzoa Bestelako Dokumentuen errepresentazioa Testua indexatu termino pisudunen bektorea Zer da terminoa? Hitza (lema) Hitz-multzoa Bestelako ezaugarriak (exogenoak) Zein da pisua? Bitarra: 1 terminoa azaltzen da, 0 ez da azaltzen Azalpen-kopurua Formula sofistikatuagoak: tf. idf, etab. 60

tf. idf Dokumentuen berreskurapenean erabilia Hitzei esleitutako pisuak: oinarria tfij: terminoaren maiztasuna, wj hitzaren tf. idf Dokumentuen berreskurapenean erabilia Hitzei esleitutako pisuak: oinarria tfij: terminoaren maiztasuna, wj hitzaren agerpenak di dokumentuan dfj: wj agertzen deneko dokumentu kopurua N: dokumentu kopurua tf. idfj: log(N/ dfj) wij= tfij *idfj 61

Dokumentuak murriztu Informaziorik gabeko hitzak kendu: . . . Egia esan, ordukoa izan da Dokumentuak murriztu Informaziorik gabeko hitzak kendu: . . . Egia esan, ordukoa izan da Nazio Batuek eskualde horri buruz onartutako ebazpenen artean bete den bakarra, urte hartan bertan palestinar iheslarien itzultzeko eskubideaz hitzartutakoak, 1967 ko 242 ak (Cisjordania, Gaza eta Jerusalem Ekialdeko okupazioak bertan behera uzteaz hartutakoa) edo 1973 ko 338 ak (Golango gainei buruzkoa) urte luzeak eman dituzte bete gabe. Benetan adierazgarria izan da kasu honetako abstentzio bakarra … Guztira 56 hitz, informaziodunak 16 (%28, 6) Nola aukeratu kendu beharreko hitzak? Zenbat hitz kendu? 62

Dokumentuak murriztu Nola aukeratu kendu beharreko hitzak? Zenbat hitz kendu? Hitzak kendu bere garrantzia Dokumentuak murriztu Nola aukeratu kendu beharreko hitzak? Zenbat hitz kendu? Hitzak kendu bere garrantzia kontuan hartuz Dokumentuen maiztasuna #Tr(tk): hitza zenbat dokumentuetan azaltzen den #Tr oso txikia edo handia bada, hitzak ez du garrantzirik Gehienez 3 aldiz azaltzen diren hitzak kendu 10 aldiz txikiagoa den dokumentua lor daiteke Eraginkortasuna ez da galtzen 63

Dokumentuak murriztu Mutual Information: Chi-square, Information gain: 100 aldiz txikiagoa den dokumentua lor daiteke Dokumentuak murriztu Mutual Information: Chi-square, Information gain: 100 aldiz txikiagoa den dokumentua lor daiteke Korrelazio-koefizientea, … 64

Dokumentuen ezaugarriak atera Hitzak sailkapen semantikoa mediku, botika, gaixo osasuna Entitateak (pertsona, lekua, enpresa, Dokumentuen ezaugarriak atera Hitzak sailkapen semantikoa mediku, botika, gaixo osasuna Entitateak (pertsona, lekua, enpresa, …) motaren araberako sailkapena web orri pertsonalak, komertzialak, ofizialak, . . . Metadata (lodiak, maiuskulak, data, …) estiloaren araberako sailkapena lerro motzak, dok. motzak, … poesia 65

Ikasketa fasea: Sailkatzailea aukeratu Sailkatzaile probabilistikoak: Naive Bayes Erabaki-zuhaitzak Erabaki-erregelak: Construe Sailkatzaile linealak: Rocchio, Ikasketa fasea: Sailkatzailea aukeratu Sailkatzaile probabilistikoak: Naive Bayes Erabaki-zuhaitzak Erabaki-erregelak: Construe Sailkatzaile linealak: Rocchio, Winnow, Perceptron Neurona-sareak k-NN SVM Sailkatzaileen konbinazioa: Boosting 66

Sailkatzailea aukeratu Probabilistikoak: CSVi(dj) funtzioa definitzeko, dj dokumentua ci kategoriakoa izatearen probabilitatea hartzen da Sailkatzailea aukeratu Probabilistikoak: CSVi(dj) funtzioa definitzeko, dj dokumentua ci kategoriakoa izatearen probabilitatea hartzen da kontuan Bayes 67

Probabilistikoa. Adibidea: kat = osasuna P(gaixo|osasuna) = 0. 8 P(mediku|osasuna)= 0. 6 P(osasun|osasuna) = Probabilistikoa. Adibidea: kat = osasuna P(gaixo|osasuna) = 0. 8 P(mediku|osasuna)= 0. 6 P(osasun|osasuna) = 0. 7 P(jokalari|osasuna)= 0. 2 Ci = osasuna P (ci) = P(osasuna) = 0. 5 P (d 1| osasuna) = P(w 1|osasuna) = =P(gaixo | ci) x P(mediku |ci) x P(osasun | ci) x P(jokalari | ci) = 0. 8 x 0. 6 x 0. 7 x 0. 2 = 0. 0672 P (osasuna | d 1) = 0. 5 x 0. 0672 / P(dj) = 0. 0336 / P(dj) 68

Probabilistikoa. Adibidea: kat = kirola P(gaixo|kirola) P(mediku| kirola) P(osasun| kirola) P(jokalari| kirola) = 0. Probabilistikoa. Adibidea: kat = kirola P(gaixo|kirola) P(mediku| kirola) P(osasun| kirola) P(jokalari| kirola) = 0. 2 = 0. 4 = 0. 3 = 0. 8 Ci = kirola P (ci) = P(kirola) = 0. 5 P (d 1| kirola) = P(w 1|kirola) = =P(gaixo | ci) x P(mediku |ci) x P(osasun | ci) x P(jokalari | ci) = 0. 2 x 0. 4 x 0. 3 x 0. 8 = 0. 0192 P (kirola | d 1) = 0. 5 x 0. 0162/P(dj)=0, 0081/P(dj) << 0. 0336/P(dj) 69

SVM (Super Vector Machine) sailkatzailea banatu adibide positiboak eta negatiboak hiperplano baten bidez positiboak SVM (Super Vector Machine) sailkatzailea banatu adibide positiboak eta negatiboak hiperplano baten bidez positiboak negatiboak i 2 dimentsio 70

Sailkatzailearen ebaluaketa Eraginkortasun-neurriak Precision (Pr): sailkatzailearen “sendotasunmaila” Recall (Re): sailkatzailearen “perfekzio-maila” TPi Pri = Sailkatzailearen ebaluaketa Eraginkortasun-neurriak Precision (Pr): sailkatzailearen “sendotasunmaila” Recall (Re): sailkatzailearen “perfekzio-maila” TPi Pri = TPi + FPi TPi Rei = TPi + FNi TP + TN Accuracy (Ac) = TP+TN+FP+FN Error = 1 - Ac 71

Sailkatzailearen ebaluaketa Adibidea Pri = TPi + FPi Rei = TPi + FNi Pr Sailkatzailearen ebaluaketa Adibidea Pri = TPi + FPi Rei = TPi + FNi Pr = 30/(30+20) = 0, 6 Re = 30/(30+10) = 0, 75 Ac = (30+40)/(30+40+20+10) = 0, 7 Errorea = (20+10)/(30+40+20+10) = 0, 3 72

(bukatu da 2003/2004) 73 (bukatu da 2003/2004) 73

Erabaki-zuhaitzak Algoritmo sinbolikoak Barne-adabegiak: hitzak; arkuak: hitzaren pisua; hostoak: kategoriak Garrantzitsua da banaketa egiteko Erabaki-zuhaitzak Algoritmo sinbolikoak Barne-adabegiak: hitzak; arkuak: hitzaren pisua; hostoak: kategoriak Garrantzitsua da banaketa egiteko hitza ondo aukeratzea 74

Erabaki-zuhaitzak. Adibidea: osasuna partidu_ez osasun_ez jokalari_ez partidu osasun jokalari EZ BAI EZ 75 Erabaki-zuhaitzak. Adibidea: osasuna partidu_ez osasun_ez jokalari_ez partidu osasun jokalari EZ BAI EZ 75

Erabaki-erregelak Erregelak: baldintzazko aginduak Testuingurua aldatzen bada, erregelak aldatu behar dira. Zuhaitzak baino konpaktuagoak Erabaki-erregelak Erregelak: baldintzazko aginduak Testuingurua aldatzen bada, erregelak aldatu behar dira. Zuhaitzak baino konpaktuagoak Sistemak erregelak definitzeko (CONSTRUE) 76

Erabaki-erregelak. Adibidea: osasuna Baldin Bestela gaixo eta osasun orduan mediku eta erizain orduan EZ Erabaki-erregelak. Adibidea: osasuna Baldin Bestela gaixo eta osasun orduan mediku eta erizain orduan EZ BAI 77

ikasketa d 1: gaixo, mediku, osasun, jokalari osasuna d 2: erizain, mediku, jokatu, osasuna ikasketa d 1: gaixo, mediku, osasun, jokalari osasuna d 2: erizain, mediku, jokatu, osasuna d 3: gaixo, mediku, jokatu, jokalari kirola testa K-NN (k nearest neighbor) sailkatzailea Aldameneko gertuena: dokumentu berri bat sailkatzeko, ikasketako antzekoena bilatu eta bere kategoria esleitu. dk: mediku, osasun, gaixo, jokatu osasuna 78

Sailkatzaile linealak Kategoriaren errepresentazioak dokumentuen errepresentazio bera erabiltzen du CSVi(dj) = dokumentu- eta kategoriabektorearen Sailkatzaile linealak Kategoriaren errepresentazioak dokumentuen errepresentazio bera erabiltzen du CSVi(dj) = dokumentu- eta kategoriabektorearen barne-biderketa = Bi eredu: Batch metodo induktiboa: sailkatzailea eraikitzen da ikasketa behin eginda Rocchio On-line metodo induktiboa (inkrementala): Sailkatzailea eraikitzen da hasierako ikasketa-corpusarekin eta “hobetzen” doa dokumentu berriak aztertu ahala 79

Sailkatzaile linealak. Perceptron Hasieran, ci kategoriarako hitzen pisu guztiak berdinak: wki Ikasketa dokumentu berria Sailkatzaile linealak. Perceptron Hasieran, ci kategoriarako hitzen pisu guztiak berdinak: wki Ikasketa dokumentu berria (dj) datorrenean, sailkatzaileak dituen pisuekin sailkatzen du: Emaitza zuzena bada: ezer ez Emaitza okerra bada: Baldin dj ci orduan wkj : = wkj + ( >0) Baldin dj ci orduan wkj : = wkj - ( >0) Winnow ( , ) 80

Neurona-sareak. Adibidea d 1: gaixo, mediku, osasun, jokalari gaixo mediku osasun jokalari . . Neurona-sareak. Adibidea d 1: gaixo, mediku, osasun, jokalari gaixo mediku osasun jokalari . . . osasuna 81

Sailkatzaile-multzoa Ikasketa-metodo desberdinetan oinarritutako k sailkatzaile 1, 2, . . . , k, ataza Sailkatzaile-multzoa Ikasketa-metodo desberdinetan oinarritutako k sailkatzaile 1, 2, . . . , k, ataza bera betetzeko erabaki dj dokumentua ci kategorikoa den ala ez emaitza k sailkatzaileen emaitzen konbinazioa Ikasketa-metodo bereko k sailkatzaile erabili. Ikasketa sekuentzialki egiten da i sailkatzaileak 1, . . . , i-1 sailkatzaileen emaitzak hartzen ditu kontutan eta gaizki sailkatutako adibideak gehiago lantzen ditu. 82

4. Adibide praktikoak Snow aplikazioa Bayes Winnow Perceptron Euskaldunon Egunkariako emaitzak 83 4. Adibide praktikoak Snow aplikazioa Bayes Winnow Perceptron Euskaldunon Egunkariako emaitzak 83

Adibideak Ikasketa: kirola eta osasuna d 1: arbitro, baloi, gol, partidu d 2: arbitro, Adibideak Ikasketa: kirola eta osasuna d 1: arbitro, baloi, gol, partidu d 2: arbitro, baloi, partidu, saski d 3, d 4, eta d 5: gol, gol, jokalari, jokaldi, partidu, partidu d 6: gaixo, gripe, gripe, txerto d 7: ospitale, gaixo, Osakidetza d 8: ospitale, gaixo, Osakidetza, birus, 84

Testa: kirola eta osasuna d 1: arbitro, baloi, partidu, saski d 2: arbitro, gaixo, Testa: kirola eta osasuna d 1: arbitro, baloi, partidu, saski d 2: arbitro, gaixo, partidu, Osakidetza d 3: gaixo, gripe, txerto, Osakidetza Hiztegia Arbitro Baloi Gol Jokalari Jokaldi Partidu Saski 10 11 12 14 15 16 17 birus gaixo gripe Osakidetza ospitale txerto 21 23 24 26 27 28 85

Snow aplikaziorako sarrera-fitxategiak Ikasketa 0, 11(3), 12, 16: 0, 11(4), 16(4), 17(2): 0, 12(8), Snow aplikaziorako sarrera-fitxategiak Ikasketa 0, 11(3), 12, 16: 0, 11(4), 16(4), 17(2): 0, 12(8), 14(4), 15(3), 16(3): 1, 23(4), 24(6), 28: 1, 27(2), 23(4), 26, 21(4): Testa 0, 11(3), 16(4), 17: 0, 10, 23(3), 16(2), 26: 1, 23(2), 24(4), 28, 26: 86

Ikasia Naive Bayes: (0. 1, 0. 5) Targets: 0 -1 target 0 -0. 470003629246 Ikasia Naive Bayes: (0. 1, 0. 5) Targets: 0 -1 target 0 -0. 470003629246 1. 000 5 23 naivebayes 0 0: 0: 10 : 2 0 -0. 9162907319 0: 0: 11 : 2 0 -0. 9162907319 0: 0: 12 : 4 0 -0. 2231435513 0: 0: 14 : 3 0 -0. 5108256238 0: 0: 15 : 3 0 -0. 5108256238 0: 0: 16 : 5 0 0. 00000 0: 0: 17 : 1 0 -1. 6094379124 0 : 110010 : 2 0 -0. 9162907319 0 : 120010 : 1 0 -1. 6094379124 0 : 120011 : 1 0 -1. 6094379124 0 : 140012 : 3 0 -0. 5108256238 0 : 0 : 150014 : 3 0 -0. 5108256238 0 : 160010 : 2 0 -0. 9162907319 0 : 160011 : 2 0 -0. 9162907319 0 : 160012 : 4 0 -0. 2231435513 0 : 160014 : 3 0 -0. 5108256238 0 : 160015 : 3 0 -0. 5108256238 0 : 170010 : 1 0 -1. 6094379124 0 : 170011 : 1 0 -1. 6094379124 0 : 170016 : 1 0 -1. 6094379124 0 : 4294967294 : 5 0 0. 00000 0. 100 0. 500 87

Ikasia target 1 Naive Bayes: (0. 1, 0. 5) -0. 980829253012 1. 000 3 Ikasia target 1 Naive Bayes: (0. 1, 0. 5) -0. 980829253012 1. 000 3 17 1: 0: 21 : 1: 0: 23 : 1: 0: 24 : 1: 0: 26 : 1: 0: 27 : 1: 0: 28 : 1 : 0 : 230021 : 0 : 240023 : 1 : 0 : 260021 : 0 : 260023 : 1 : 0 : 270021 : 0 : 270023 : 1 : 0 : 270026 : 1 : 0 : 280023 : 1 : 0 : 280024 : 1 : 0 : 4294967294 : 1 3 1 2 2 1 0 0 0 1 1 1 2 2 1 1 3 Targets: 0 -1 naivebayes 0 0. 100 0. 500 -1. 0986122887 0. 00000 -1. 0986122887 -0. 4054651081 -1. 0986122887 0 -0. 4054651081 0 -1. 0986122887 0 0. 00000 88

Ikasia Naive Bayes: (0. 1, 0. 5) Targets: 0 -1 Emaitza 3 test examples Ikasia Naive Bayes: (0. 1, 0. 5) Targets: 0 -1 Emaitza 3 test examples presented Overall Accuracy - 66. 67% Example 1 Label: 0 0: 1 3. 2768 e-006 1: 0 1. 4415 e-098 Example 2 Label: 0 (Errorea) 1: 1 2. 5559 e-053 0: 0 4. 6911 e-060 Example 3 Label: 1 1: 1 4. 7542 e-018 0: 0 7. 8536 e-092 1. 6384 e-006* 7. 2073 e-099 1. 2779 e-053 2. 3456 e-060* 2. 3771 e-018* 3. 9268 e-092 89

Ikasia target 0 0. 6250 Winnow: (1. 35, 0. 8, 4, 2. 1) 1. Ikasia target 0 0. 6250 Winnow: (1. 35, 0. 8, 4, 2. 1) 1. 000 5 17 winnow 0 0: 0: 10 : 0: 0: 11 : 0: 0: 12 : 0: 0: 14 : 0: 0: 15 : 0: 0: 16 : 0 : 110010 : 0 : 140012 : 0 : 0 : 150014 : 0 : 160010 : 0 : 160011 : 0 : 160012 : 0 : 160014 : 0 : 160015 : 0 : 4294967294 : 2 2 4 3 3 5 1 1 0 0 0 1 2 3 3 3 2 2 4 3 3 1 0 0 0 1 1 0 0 0 5 Targets: 0 -1 1. 350 0. 800 4. 000 2. 100 2. 8350000000 2. 1000000000 2. 100000 1 2. 8350000000 90

Ikasia Winnow: (1. 35, 0. 8, 4, 2. 1) target 1 0. 3750 1. Ikasia Winnow: (1. 35, 0. 8, 4, 2. 1) target 1 0. 3750 1. 000 3 1: 0: 23 : 1: 0: 26 : 1: 0: 27 : 1 : 0 : 260023 : 1 : 0 : 270026 : 1 : 0 : 4294967294 : 8 3 2 2 2 3 winnow 0 1 0 0 0 1 1. 350 Targets: 0 -1 0. 800 4. 000 2. 100 2. 8350000000 2. 1000000000 2. 100000 2. 8350000000 91

Ikasia Naive Bayes: (0. 1, 0. 5) Emaitza 3 test examples presented Overall Accuracy Ikasia Naive Bayes: (0. 1, 0. 5) Emaitza 3 test examples presented Overall Accuracy - 66. 67% Example 1 Label: 0 0: 1 3. 2768 e-006 1: 0 1. 4415 e-098 Example 2 Label: 0 (Errorea) 1: 1 2. 5559 e-053 0: 0 4. 6911 e-060 Example 3 Label: 1 1: 1 4. 7542 e-018 0: 0 7. 8536 e-092 Targets: 0 -1 1. 6384 e-006* 7. 2073 e-099 1. 2779 e-053 2. 3456 e-060* 2. 3771 e-018* 3. 9268 e-092 92

Euskaldunon Egunkariako emaitzak Corpusa: 1999 ko bi hilabete (urtarrila eta otsaila) Ikasketa 330 367 Euskaldunon Egunkariako emaitzak Corpusa: 1999 ko bi hilabete (urtarrila eta otsaila) Ikasketa 330 367 694 testa 109 123 231 Politika 1294 568 314 790 431 189 105 264 batura 4357 1452 Kategoriak Ekonomia Europa Gizartea Kirola Kultura Mundua 93

Euskaldunon Egunkariako emaitzak Egunkariako corpus osoa 94 Euskaldunon Egunkariako emaitzak Egunkariako corpus osoa 94

95 95

Machine Learning There are many general-purpose definitions of Machine Learning (or artificial learning) “Making Machine Learning There are many general-purpose definitions of Machine Learning (or artificial learning) “Making a computer automatically acquire some kind of knowledge from a concrete data domain” (. . . ) Many learning paradigms fit this general idea, however we will concentrate on the following aspects: IA perspective Inductive Learning Paradigm: Supervised learning (vs. unsupervised) Purpose: Learning for Classification Type of knowledge: Symbolic (vs. subsymbolic) 96

Intro: ML The Learning Problem for Feature Vector Classification An instance is a vector: Intro: ML The Learning Problem for Feature Vector Classification An instance is a vector: x = where xi is taken from the discrete or real-valued domain for the i -th feature (or attribute) Let X be the space of all possible instances Let Y = {y 1, …, ym} be the set of categories (or classes) The goal is to learn a target function, A training example is an instance correct value for Let Soria-2000 f: X Y x belonging to X, labelled with the f(x) D be the set of all training examples 18/07/2000 97

Intro: ML The Learning Problem for Feature Vector Classification The hypothesis space, H, is Intro: ML The Learning Problem for Feature Vector Classification The hypothesis space, H, is the set of functions the learner can consider as possible definitions h: X Y that h belonging to H such that for all pair belonging to D, h(x) = f (x) Finally, the goal is to find a Soria-2000 18/07/2000 98

Ariketak 1. eskuz Metodo estatistiko sinple bat (eskuz aplikatu daitekeena) diseinatu euskarazko testuak identifikatzeko. Ariketak 1. eskuz Metodo estatistiko sinple bat (eskuz aplikatu daitekeena) diseinatu euskarazko testuak identifikatzeko. hartu bosna testu labur 5 hizkuntzatan (tartean 5 euskaraz) eta aplikatu metodoa. Lortu metodoaren zehaztasuna. %80 baino txikiagoa bada, birdiseinatu metodoa (gehienez 2 aldiz). 2. perl programazioa hartu testu luze bat (edo bildu hainbat testu labur) eta kalkulatu hitzen maiztasunak egiaztatzeko ea Zipfen legea betetzen den edo ez. 3. perl programazioa Hiru hizkuntzatako testu bana hartu eta kalkulatu zenbat hitz behar diren testuen %50 estaltzeko 3 hizkuntzatan 99