Скачать презентацию Análisis Morfológico Introducción Morfología Análisis Скачать презентацию Análisis Morfológico Introducción Morfología Análisis

b6819453e5eb0d1f733574144f8378f8.ppt

  • Количество слайдов: 47

Análisis Morfológico • • • Introducción Morfología Análisis morfológico Uso de técnicas de estados Análisis Morfológico • • • Introducción Morfología Análisis morfológico Uso de técnicas de estados finitos en morfología Aprendizaje automático de la morfología de una lengua PLN Análisis Morfológico 1

Morfología 1 • Morfología • Funciones • Flexión • Derivación • Composición • Resultado Morfología 1 • Morfología • Funciones • Flexión • Derivación • Composición • Resultado • categorización morfosintáctica • Ej. categorías Parole • Ej. Penn Treebank tagset • rasgos morfológicos • ej. VMIP 1 S 0 ej. VBD Problemas • alteraciones fonológicas • morfotáctica PLN Análisis Morfológico 2

Morfología 2 • Problemas • sufijos flexivos sufijos derivativos • la derivación implica a Morfología 2 • Problemas • sufijos flexivos sufijos derivativos • la derivación implica a veces cambio semántico que además no es siempre predecible • ej. extensiones de significado • reglas léxicas • Un sufijo derivativo puede ir seguido de su flexión • amar => amantes • La flexión no cambia la categoría gramatical, la derivación a veces si • La flexión afecta a otras palabras de la oración • concordancia PLN Análisis Morfológico 3

Morfología, Modelos Computacionales • Funciones • Flexión, Derivación, Composición • Morfotáctica • Reglas de Morfología, Modelos Computacionales • Funciones • Flexión, Derivación, Composición • Morfotáctica • Reglas de formación de palabras • Combinaciones posibles entre morfemas • Encadenamiento simple • modelos complejos raiz/patrón • Regularidad y cercanía dependientes de la lengua • Alteraciones fonológicas (Morfofonología) • • cambios al unir los morfemas origen: fonología, morfología, ortografía variables en número y complejidad p. ej. armonía vocálica PLN Análisis Morfológico 4

Morfemas • 1 morfema: • evitar • 2 morfemas: • evitable = evitar + Morfemas • 1 morfema: • evitar • 2 morfemas: • evitable = evitar + able • 3 morfemas: • inevitable = in + evitar + able • 4 morfemas: • inevitabilidad = in + evitar + able + idad PLN Análisis Morfológico 5

Morfología Flexiva • número • houses • cheval chevaux • casas • tiempo verbal Morfología Flexiva • número • houses • cheval chevaux • casas • tiempo verbal • walk • amo • walkes amas walked aman walking. . . género • niño PLN Análisis Morfológico niña 6

Morfología Derivativa • Forma de la derivación • • • sin cambio prefijación sufijación Morfología Derivativa • Forma de la derivación • • • sin cambio prefijación sufijación infijación barcelonés inevitable importantísimo Origen • • • verbo => adjetivo verbo => nombre => adjetivo => adverbio PLN Análisis Morfológico tardar sufrir actor atleta rojo alegre => tardío => sufrimiento => actorazo => atlético => rojizo => alegremente 7

Morfología Derivativa vs Flexiva • • sufijos flexivos <> sufijos derivativos la derivación implica Morfología Derivativa vs Flexiva • • sufijos flexivos <> sufijos derivativos la derivación implica a veces cambio semántico que además no es siempre predecible • ej. extensiones de significado • reglas léxicas • Un sufijo derivativo puede ir seguido de su flexión • amar => amantes • • La flexión no cambia la categoría gramatical La flexión afecta a otras palabras de la oración PLN Análisis Morfológico 8

Análisis morfológico 1 • Tipos de analizadores morfológicos • formarios Maco+ Atserias et al, Análisis morfológico 1 • Tipos de analizadores morfológicos • formarios Maco+ Atserias et al, 1998 1. eficiencia 2. poca variación (ej. inglés) 3. extensibilidad 4. construcción a partir de un generador morfológico 5. lenguas muy flexivas 6. derivación, composición • técnicas de estados finitos • autómatas • analizadores de un nivel • transductores • analizadores de dos o más niveles PLN Análisis Morfológico Roche, Schabes, 1997 Kornai, 1999 Martí, 1988 Koskenniemi, 1983 Sproat, 1993 9

Modelos de cómputo 1 • • Mezcla de conocimiento lingüístico y procedimental Sistemas automáticos. Modelos de cómputo 1 • • Mezcla de conocimiento lingüístico y procedimental Sistemas automáticos. Multilingüismo. Corpus Problema de la eficiencia Problema de la sobregeneración PLN Análisis Morfológico 10

Modelos de cómputo 2 • Criterios de clasificación • Poder descriptivo • Flexión, Derivación, Modelos de cómputo 2 • Criterios de clasificación • Poder descriptivo • Flexión, Derivación, Composición • Análisis y Generación • Enfoque • Basados en léxico • Basados en paradigma (Calder, 89) • Tratamiento de la morfotáctica • Estados Finitos • Unificación • Tratamiento de la morfofonología • Estados Finitos • Métodos ad-hoc • Elementos del léxico • Morfemas • Segmentos de palabra PLN Análisis Morfológico 11

Morfología un nivel Sistema AMCAS (Marti, 89) RV 1 RV RNA 1 START RNA Morfología un nivel Sistema AMCAS (Marti, 89) RV 1 RV RNA 1 START RNA F RGN INFIJ PLN Análisis Morfológico 12

SISTEMA AMCAS 1 DICCIONARIO RAICES DICCIONARIO SUFIJOS MODELOS SUFIJO MODELOS RAIZ REGLAS TEXTO ENTRADA SISTEMA AMCAS 1 DICCIONARIO RAICES DICCIONARIO SUFIJOS MODELOS SUFIJO MODELOS RAIZ REGLAS TEXTO ENTRADA ANALIZADOR MORFOLOGICO ESTADOS TEXTO ETIQUETADO PLN Análisis Morfológico AUTOMATA 13

SISTEMA AMCAS 2 DICCIONARIO DE RAICES (FRAGMENTO) RAIZ SISTEMA AMCAS 2 DICCIONARIO DE RAICES (FRAGMENTO) RAIZ "d" "del" "deposit" "dese" "dich" "diner" "directori" PLN Análisis Morfológico MODELO D PREP AM AM HECH DETN PRON NOM PROPIEDADES (("B 1" "DORW")("TVM" "VI") ("SEM" "DECIR-1")) () () (("TGN" "OM") ("BL" "&3")) (("TGN" "OM") ("B 1" "OSOJ") ("TVM" "VI")) (("TGN" "OM") ("CONJ" "3")) (("DET" "DEM")) (("PRN" "DEM") ) ("B 1" "DAF") ("B 2" "ALM") ("SEM" "DINERO-1")) () DIVISIBLE nil nil nil 14

SISTEMA AMCAS 3 DICCIONARIO DE SUFIJOS (FRAGMENTO) SUFIJO SISTEMA AMCAS 3 DICCIONARIO DE SUFIJOS (FRAGMENTO) SUFIJO "a" "a" "a" "aba" "lo" "me" "&" MODELO AASAM AASFEM GAF GAM GBAJ GBAW GN 1 GOAJ IMP IPO SP 2 IMA PROE GBF&1 GBM&1 PLN Análisis Morfológico PROPIEDADES (("NUM" "SG")) (("GEN" "FEM")("NUM" "SG")) (("GEN" "FEM")("NUM" "SG")) (("NUM" "SG")("PERS" "2")) (("NUM" "SG")("PERS" "3")) (("NUM" "SG")("PERS" "1/3")) (("PERS" "1")("NUM" "SG")) (("ENCL" "LO")("BL" "&1")) (("NUM" "SG")) DIVISIBLE nil nil nil nil 15

SISTEMA AMCAS 4 DICCIONARIO DE MODELOS DE RAIZ (FRAGMENTO) MODELO PROPIEDADES CSS D DETD SISTEMA AMCAS 4 DICCIONARIO DE MODELOS DE RAIZ (FRAGMENTO) MODELO PROPIEDADES CSS D DETD 1 (("CAT" "CONJ") ("TCON" "CSS") ("BL" "SI")) (("CAT" "VERB") ("TV" "D")) (("CAT" "DET") ("PERS" "1") ("TGN" "EAO") ("BL" "SI") ("DET" "DEM")) PLN Análisis Morfológico 16

SISTEMA AMCAS 5 DICCIONARIO DE MODELOS DE SUFIJO (FRAGMENTO) MODELO PROPIEDADES AASAM (( SISTEMA AMCAS 5 DICCIONARIO DE MODELOS DE SUFIJO (FRAGMENTO) MODELO PROPIEDADES AASAM (("GEN" "AMBI")) AASFEM (("GEN" "FEM") ("CAT" "ADJ")) GAF (("CAT" "NOM") ("GEN" "FEM")) GAM (("CAT" "NOM") ("GEN" "MASC")) GBAJ (("CAT" "ADJ")) GBAW (("CAT" "ADJ")) GN 1 () GOAJ (("CAT" "ADJ")) IMP (("CAT" "VERB") ("TEMP" "PRES") ("PROE" "SI") ("MODO" "IMP")) IPO (("CAT" "VERB") ("TEMP" "PRES") ("BL" "SI") ("MODO" "IND")) PROE () SP 2 (("CAT" "VERB") ("TEMP" "PRES") ("MODO" "SUBJ")) & () PLN Análisis Morfológico 17

SISTEMA AMCAS 6 DICCIONARIO DE REGLAS (FRAGMENTO) EST_INI EST_FIN MODELO RNA 1 RV RV SISTEMA AMCAS 6 DICCIONARIO DE REGLAS (FRAGMENTO) EST_INI EST_FIN MODELO RNA 1 RV RV 1 RV 1 RGN F F RV INFIJ RGN RGN RV OOSMAS BL & PROE CC AASFEM GAF GAM GOAJ IMP RV 1 RV IPO RV 1 START RV RV 1 SPB D PLN Análisis Morfológico CONDICIONES (("TGN" "OAJ")) (("BL" "SI")) (("BL" "&1")) (("PROE" "SI")) (("U" "CCVD")) (("T 1" "OAJ")) (("T 1" "AF")("TGN" "AF")) (("TGN" "AM")) (("B 1" "TOJ")) (("TV" "R")("TV" "ACUE) ("TV" "ADC") ("TV" "ADZ")("TV" "D")) (("TV" "PONG")("TV" "R")("TV" "HIZ") ("TV" "PUED")) (("TV" "PONG")("TV" "SEP")("TV" "D")) () 18

Morfología de dos niveles 1 • • Modelo general para lenguas con encadenamiento de Morfología de dos niveles 1 • • Modelo general para lenguas con encadenamiento de morfemas Independencia entre información lingüística y analizador Válido para análisis y generación Distinción entre nivel léxico y superficial Reglas paralelas para expresar la morfofonología Implementación simple Elementos: Sistema léxico + Reglas PLN Análisis Morfológico 19

Morfología de dos niveles 2 • Reglas morfológicas • Expresan las relaciones entre caracteres Morfología de dos niveles 2 • Reglas morfológicas • Expresan las relaciones entre caracteres (superficie) y morfemas y permiten la descomposición de una cadena de caracteres en una estructura morfémica de la palabra • Reglas de deletreo (spelling rules) • Trabajan a nivel de las letras que constituyen la palabra • Reglas gramática de la palabra (word grammar rule) • Permiten definir la composición entre morfemas en términos de abstracciones sobre las propiedades de éstos, al margen de su realización léxica • Ritchie, Pulman, Black, Russell, 87 PLN Análisis Morfológico 20

reglas gramática de la palabra 1 Caracterizan la morfología abstrayendo de los detalles de reglas gramática de la palabra 1 Caracterizan la morfología abstrayendo de los detalles de las cadenas concretas Secuencias correctas de morfemas Concatenaciones válidas Categoría sintáctica de la palabra resultante Categoría (de una palabra, morfema o fragmento) es un conjunto de pares Ej. (GPSG): plural noun == ((N +) (V -) (PLU +) (BAR 0)) PLN Análisis Morfológico 21

reglas gramática de la palabra 2 alias noun = ((N +) (V -) (BAR reglas gramática de la palabra 2 alias noun = ((N +) (V -) (BAR 0)) alias verb = ((N -) (V +) (BAR 0)) alias adj = ((N +) (V +) (BAR 0)) variable C = {noun, adj} regla del plural: (C (PLU + )) --> (C (PLU - )), ((PLU +)) gatos lexicón : gato. . . s. . . => (noun (PLU -)) => ((PLU +)) ((N +) (V -) (PLU +) (BAR 0)) PLN Análisis Morfológico 22

reglas gramática de la palabra 3 regla de prefijación: ((BAR 0)) --> ((FIX PRE)), reglas gramática de la palabra 3 regla de prefijación: ((BAR 0)) --> ((FIX PRE)), ((BAR 0)). regla de sufijación: ((BAR 0) (N +)) --> ((BAR 0)), ((N +) (FIX SUF)). regla de sufijación verbal: ((N -) (V +) (AUX VAL) (BAR 0)) --> ((AUX VAL) (BAR 0)), ((FIX SUF) (N -) (V +)). PLN Análisis Morfológico 23

Análisis morfológico con FSA • Entrada: • forma • Salida • lema + rasgos Análisis morfológico con FSA • Entrada: • forma • Salida • lema + rasgos morfológicos Input cats cities merging caught PLN Análisis Morfológico Output cat + N + sg cat + N + pl city + N + pl merge + V + pres_part (catch + V + past) or (catch + V + past_part) 24

Elementos del analizador • Lexicon de morfemas • raiz (stem) + afijos • Morfotáctica Elementos del analizador • Lexicon de morfemas • raiz (stem) + afijos • Morfotáctica • qué combinaciones de morfemas son válidas • cats = cat + s • Alteraciones fonológicas • Reglas ortográficas (spelling rules): cambios al producirse la combinación • city + s = cities PLN Análisis Morfológico 25

Ejemplo: flexión nominal en inglés reg_noun fox cat dog irreg_pl_noun sheep mice irreg_sg_noun plural Ejemplo: flexión nominal en inglés reg_noun fox cat dog irreg_pl_noun sheep mice irreg_sg_noun plural sheep -s mouse plural (-s) reg_noun 0 1 2 irreg_pl_noun morfotáctica PLN Análisis Morfológico irreg_sg_noun 26

Integración de lexicón y morfotáctica o f x a c t s o g Integración de lexicón y morfotáctica o f x a c t s o g d fog cat dog donkey mouse mice n m y e e o e s u i c Letter Transducers PLN Análisis Morfológico 27

Morfología de dos niveles upper level lower level c: c PLN Análisis Morfológico léxico Morfología de dos niveles upper level lower level c: c PLN Análisis Morfológico léxico superficie cat + N cat a: a +N: t: t cat + N + pl cats +pl: s 28

Utilización de un FST 1 • Como reconocedor • recibe dos cadenas de entrada Utilización de un FST 1 • Como reconocedor • recibe dos cadenas de entrada (una léxica y una superficial) y responde cierto o falso según una sea transducción de la otra • Como generador • genera pares de cadenas • Como traductor • recibe una cadena superficial y genera su transducción léxica PLN Análisis Morfológico 29

Utilización de un FST 2 • Simplificaciones notacionales • default pairs • a: a Utilización de un FST 2 • Simplificaciones notacionales • default pairs • a: a • morpheme separator ^ • end of word # • default correspondence pairs abc … z ‘^# z ‘ • feasible pairs • default correspondences + explicit correspondences in the rules • any @ PLN Análisis Morfológico 30

Transductor con rasgos morfológicos reg_noun fox cat dog irreg_pl_noun sheep m o: i u: Transductor con rasgos morfológicos reg_noun fox cat dog irreg_pl_noun sheep m o: i u: ce g o: e se irreg_sg_noun plural sheep s mouse goose reg_noun +pl: s +N: 0 irreg_sg_noun 1 2 irreg_pl_noun PLN Análisis Morfológico 3 4 +N: 5 6 +sg: 2 +sg: +pl: 31

Integración de morfotáctica y variación fonológica nivel léxico f o x +N +pl nivel Integración de morfotáctica y variación fonológica nivel léxico f o x +N +pl nivel intermedio f o x ^ s nivel superficial f o x e s morfotáctica spelling rules PLN Análisis Morfológico 32

Integración de lexicón y morfotáctica o f x a c t o g d Integración de lexicón y morfotáctica o f x a c t o g d n m fog cat dog donkey mouse mice PLN Análisis Morfológico +pl: ^s +N: y e o u e +sg: s e o: i +u: +sg: c +pl: +N: e +N: 33

spelling rules name consonant doubling e deletion e insertion y replacement k insertion PLN spelling rules name consonant doubling e deletion e insertion y replacement k insertion PLN Análisis Morfológico description single letter consonant doubled before -ing/-ed silent e dropped before -ing/-ed e added after -s, -z, -x, -ch, -sh before -s -y changes to -ie before -s, to i before -ed verbs ending with voyel +c add -k example beg/begging make/making watch/watches try/tries panic/panicked 34

Reglas de dos niveles • a: b Contexto_izquierdo ___ Contexto_derecho • el item léxico Reglas de dos niveles • a: b Contexto_izquierdo ___ Contexto_derecho • el item léxico a debe corresponder al item superficial b cuando se encuentra en el contexto • a: b Contexto_izquierdo ___ Contexto_derecho • el item léxico a sólo puede corresponder al item superficial b cuando se encuentra en el contexto • a: b Contexto_izquierdo ___ Contexto_derecho • el item léxico a debe corresponder al item superficial b cuando se encuentra en el contexto y sólo entonces • a: b / Contexto_izquierdo ___ Contexto_derecho • el item léxico a no puede corresponder al item superficial b cuando se encuentra en el contexto correspondencia PLN Análisis Morfológico operador contextos 35

ejemplo e-insertion : e [xsz]^: ___ s# descomposición : e [xsz]^: ___ s# PLN ejemplo e-insertion : e [xsz]^: ___ s# descomposición : e [xsz]^: ___ s# PLN Análisis Morfológico / : / [xsz]^: ___ s# 36

Reglas de deletreo (spelling) 1 epenthesis +: e <=> {< {s: s c: c} Reglas de deletreo (spelling) 1 epenthesis +: e <=> {< {s: s c: c} h: h> s: s x: x z: z} --- s: s contexto <=> => <= ejemplo: PLN Análisis Morfológico context restriction surface coercion box + e s s C: {. . . } V: {a, e, i, o, u, y} C 2: {. . . } =: cualquiera 37

Reglas de deletreo 2 e-deletion e: 0 <=> or or = : C 2 Reglas de deletreo 2 e-deletion e: 0 <=> or or = : C 2 l: 0 c: c mov e + <+: 0 V: = > < +: 0 e: e > < +: 0 {e: e i: i} > +: 0 < +: 0 a: 0 t: t b: b> ed ed agre ------ ed ed PLN Análisis Morfológico 38

Reglas de deletreo 3 a-deletion a: 0 redu. . . c c <=> e Reglas de deletreo 3 a-deletion a: 0 redu. . . c c <=> e + contexto izdo PLN Análisis Morfológico a t t --- t: t ion foco contexto. . . dcho 39

Transductor : e [xsz]^: ___ s# s: s x: x z: z ^: #: Transductor : e [xsz]^: ___ s# s: s x: x z: z ^: #: : e @: @ 1 1 1 0 _ 0 0 1 1 1 2 _ 0 0 1 1 1 0 3 0 0 4 _ _ _ 0 _ estadoinput 0 1 2 3 4 ^: @: @ #: # PLN Análisis Morfológico z: z s: s x: x s: s ^: 2 1 0 #: # @: @ #: # z: z s: s x: x 3 4 z: z s: s x: x 40

Transductor : e / [xsz]^: ___ s# estadoinput 0 1 2 3 s: s Transductor : e / [xsz]^: ___ s# estadoinput 0 1 2 3 s: s x: x z: z ^: #: # @: @ 1 1 1 0 0 0 1 1 1 2 0 0 3 1 1 0 0 0 1 1 1 0 _ 0 @: @ #: # ^: z: z s: s x: x ^: @: @ #: # s: s ^: @: @ #: # PLN Análisis Morfológico z: z s: s x: x 3 2 1 0 @: @ ^: z: z x: x z: z s: s x: x 41

Integración de morfotáctica y variación fonológica nivel léxico f o x +N +pl x Integración de morfotáctica y variación fonológica nivel léxico f o x +N +pl x ^ s Lexicon-FST nivel intermedio f FST 1 FST 2 nivel superficial f o spelling rules PLN Análisis Morfológico FSTn . . . o x e s 42

Intersección y composición de FST Lexicon-FST 1. . . FSTn Lexicon-FST FSTA= FST 1 Intersección y composición de FST Lexicon-FST 1. . . FSTn Lexicon-FST FSTA= FST 1 . . . FSTn intersección PLN Análisis Morfológico Lexicon-FST • FSTA composición 43

Aprendizaje automático de la morfología 1 • Problema • Paradigma raiz + afijos • Aprendizaje automático de la morfología 1 • Problema • Paradigma raiz + afijos • Obtención de las raices • Clasificación de las raices en modelos • Dos aproximaciones • Sin utilizar conocimiento morfológico alguno • Goldsmith, 2001 • Brent, 1999 • Snover, Brent, 2001, 2002 • Cuando se dispone de conocimiento morfológico • Oliver at al, 2002 PLN Análisis Morfológico 44

Aprendizaje automático de la morfología 2 • Análisis morfológico automático • Identificación de fronteras Aprendizaje automático de la morfología 2 • Análisis morfológico automático • Identificación de fronteras entre morfemas • Zellig Harris • {prefix, suffix} conditional entropy • bigrams y trigrams con alta probabilidad de constituir un morfema • descubrimiento de patrones o reglas de correspondencia entre pares de palabras • Aproximación global (top-down) • Golsdmith, Brent, de Marcken PLN Análisis Morfológico 45

Aprendizaje automático de la morfología 3 • Sistema de Goldsmith basado en MDL (Minimum Aprendizaje automático de la morfología 3 • Sistema de Goldsmith basado en MDL (Minimum Description Length) • Partición inicial: palabra -> raiz + sufijo • split-all-words • Un buen candidato a {raiz, sufijo} en una palabra lo es también en (muchas) otras palabras • MI (mutual information) strategy • Convergencia más rápida • Obtención de Signatures • Regular {signatures, stem, suffixes} • Más de una raiz, más de un sufijo • MDL PLN Análisis Morfológico 46

Aprendizaje automático de la morfología 4 • Análisis morfológico semi-automático • Oliver, 2004 • Aprendizaje automático de la morfología 4 • Análisis morfológico semi-automático • Oliver, 2004 • Parte de un paquete de reglas morfológicas escritas a mano • TL: TF: Desc • • • terminación del lema terminación de la forma categoría morfológica • Lista de clases no flexivas, clases cerradas y palabras irregulares • Corpus • serbo-croata 9 Mw • ruso 16 Mw PLN Análisis Morfológico 47