Скачать презентацию Inleiding ATW Computationele Taalkunde taal- en spraaktechnologie Gerrit Скачать презентацию Inleiding ATW Computationele Taalkunde taal- en spraaktechnologie Gerrit

ac622b1f44b04a32a06ed3611840b105.ppt

  • Количество слайдов: 44

Inleiding ATW Computationele Taalkunde (taal- en spraaktechnologie) Gerrit Bloothooft Inleiding ATW Computationele Taalkunde (taal- en spraaktechnologie) Gerrit Bloothooft

Inleiding ATW Computationele Taalkunde De computer kan meer dan tekstverwerken alleen • tellen en Inleiding ATW Computationele Taalkunde De computer kan meer dan tekstverwerken alleen • tellen en rekenen • logisch redeneren (regels toepassen) > rekenen met, en redeneren over taal en spraak

Inleiding ATW Computationele Taalkunde Digitalisatie • Maakt teksten en spraak toegankelijk op de computer Inleiding ATW Computationele Taalkunde Digitalisatie • Maakt teksten en spraak toegankelijk op de computer • Maakt analyse van enorme hoeveelheid gegevens mogelijk – geeft een beter beeld van feitelijk taal- en spraakgebruik

Inleiding ATW Computationele Taalkunde Leren • Gegevens verzamelen – Voorbeelden – Imitatie • Structuur Inleiding ATW Computationele Taalkunde Leren • Gegevens verzamelen – Voorbeelden – Imitatie • Structuur noodzakelijk – Taal – Klanken Geldt voor mens en voor computer

Inleiding ATW Computationele Taalkunde Voorwaarden • Taalmodel en spraakmodel nodig • Trainingsmateriaal nodig – Inleiding ATW Computationele Taalkunde Voorwaarden • Taalmodel en spraakmodel nodig • Trainingsmateriaal nodig – Voorbeelden (veel) – Supervisie (zeker in het begin) Tellen van verschijnselen > Statistische modellen

Inleiding ATW Computationele Taalkunde Belang voor taalkunde/fonetiek • Analyseren en modelleren van taal- en Inleiding ATW Computationele Taalkunde Belang voor taalkunde/fonetiek • Analyseren en modelleren van taal- en spraakprocessen – Inventariseren/trainen: • welke verschijnselen komen voor • hoe vaak? (kansrekening) – Begrijpen: • via model/theorie voorspellen van verschijnselen (niet alles is van te voren al vast te leggen) – Toepassen: • automatisering van taal- en spraakprocessen • Toetssteen van theoriën – Wisselwerking

Inleiding ATW Computationele Taalkunde Toepassingen (tekst) • • Spellingscontrole Afbreekregels Automatisch vertalen Taal herkennen Inleiding ATW Computationele Taalkunde Toepassingen (tekst) • • Spellingscontrole Afbreekregels Automatisch vertalen Taal herkennen Samenvatten van teksten Begrijpen van natuurlijke taal Dialoogsystemen Slim zoeken (Google)

Inleiding ATW Computationele Taalkunde Toepassingen (spraak) • • Spraaksynthese Spraakherkenning Spraakcodering Gesproken dialoogsystemen – Inleiding ATW Computationele Taalkunde Toepassingen (spraak) • • Spraaksynthese Spraakherkenning Spraakcodering Gesproken dialoogsystemen – in combinatie met systemen voor natuurlijke taalverwerking

Inleiding ATW Computationele Taalkunde Een voorbeeld Spellingscontrole De reiziger vertrekt moregn Waar zit een Inleiding ATW Computationele Taalkunde Een voorbeeld Spellingscontrole De reiziger vertrekt moregn Waar zit een fout? Wat is het correcte woord?

Inleiding ATW Computationele Taalkunde Spellingscontrole Wat heb je nodig – Woordenlijst – – Woordfrequentie Inleiding ATW Computationele Taalkunde Spellingscontrole Wat heb je nodig – Woordenlijst – – Woordfrequentie – – welk alternatief is het waarschijnlijkst? Verschilmaat – …. komt een woord voor? welke alternatieven zijn er? maar: hoe groot is de lijst? tussen woord en alternatief moregn | morgen, moren, mogen, moeren

Inleiding ATW Computationele Taalkunde Spellingscontrole als het woord niet voorkomt in de woordenlijst • Inleiding ATW Computationele Taalkunde Spellingscontrole als het woord niet voorkomt in de woordenlijst • spelfout (vervoegingsfout) • of lijst niet compleet – vervoegingen, getallen, eigennamen, … • niet-Nederlands woord

Inleiding ATW Computationele Taalkunde Spelfout invoeging, verwijdering, verwisseling moregn moren (1 invoeging) moreen (1 Inleiding ATW Computationele Taalkunde Spelfout invoeging, verwijdering, verwisseling moregn moren (1 invoeging) moreen (1 verwisseling) morren (2 verwisselingen) morden (2 verwisselingen) morgen (2 verwisselingen of 1 omwisseling) Welk woord had het moeten zijn, hoe kies je? – hoe vind je alle alternatieven, wat is “lijken op”? – welke fouten worden het meest gemaakt – welke alternatieven zijn het waarschijnlijkst

Inleiding ATW Computationele Taalkunde Waarschijnlijkheid • hoe vaak komt iets voor – computer laten Inleiding ATW Computationele Taalkunde Waarschijnlijkheid • hoe vaak komt iets voor – computer laten tellen • • een letter een woordcombinatie taalkundige structuren

Inleiding ATW Computationele Taalkunde Woordfrequentie • Sommige woorden zijn heel frequent – welke? • Inleiding ATW Computationele Taalkunde Woordfrequentie • Sommige woorden zijn heel frequent – welke? • Heel veel woorden zijn infrequent Shakespeare gebruikte 30. 000 Engelse woorden (de gemiddelde Nederlandse student kent er 3. 000; in het Van Dale Engels woordenboek staan er 214. 000)

Inleiding ATW Computationele Taalkunde Woordfrequentie in Wikipedia Frequentie → the, of , and, … Inleiding ATW Computationele Taalkunde Woordfrequentie in Wikipedia Frequentie → the, of , and, … Rangorde →

Inleiding ATW Computationele Taalkunde Grote tekstcorpora [voor elke taal] • Tot honderden miljoenen woorden Inleiding ATW Computationele Taalkunde Grote tekstcorpora [voor elke taal] • Tot honderden miljoenen woorden – Corpus Gesproken Nederlands: 300 M • Van diverse aard • • • Kranten Boeken Wetenschappelijke publicaties, handleidingen Online teksten De tekst van spontane spraak Vlaams/Nederlands

Inleiding ATW Computationele Taalkunde Structuur in tekst (intermezzo) • Handelingen van de Tweede Kamer Inleiding ATW Computationele Taalkunde Structuur in tekst (intermezzo) • Handelingen van de Tweede Kamer • 150 jaar vrijwel letterlijke weergave van parlementaire debatten (digitaal) • Vaste manier om te noteren wie spreekt en wat er gebeurt (annotaties) • Bijvoorbeeld, het teken □ – betekent interruptie – dat maakt analyse van interruptiegedrag mogelijk

Inleiding ATW Computationele Taalkunde Attackogram (interruptie overzicht) Groen. Links Political Mashup project (Maarten Marx Inleiding ATW Computationele Taalkunde Attackogram (interruptie overzicht) Groen. Links Political Mashup project (Maarten Marx / Rianne Christen Unie Kaptein) Algemene beschouwingen 2008 D 66 PVV SP VVD Pvd. A CDA Pvd. Dieren TON SGP

Inleiding ATW Computationele Taalkunde Meer woorden tellen! • Woordcombinaties (collocatie) • meer informatie (ook Inleiding ATW Computationele Taalkunde Meer woorden tellen! • Woordcombinaties (collocatie) • meer informatie (ook syntactisch/semantisch) • zeer grote corpora nodig om woordcombinaties tegen te komen

Inleiding ATW Computationele Taalkunde Spellingscontrole • is de vervoeging goed? (vertraagt, vertraagd) • • Inleiding ATW Computationele Taalkunde Spellingscontrole • is de vervoeging goed? (vertraagt, vertraagd) • • regels > syntactische analyse gebruik buurwoorden (collocaties) (bv is … vertraagd, hij vertraagt )

Inleiding ATW Computationele Taalkunde Spellingscontrole samenvattend • • woordenlijsten met frequenties collocatielijsten met frequenties Inleiding ATW Computationele Taalkunde Spellingscontrole samenvattend • • woordenlijsten met frequenties collocatielijsten met frequenties regels voor frequente typefouten regels voor syntactische analyse • beslissingsstrategie

Inleiding ATW Computationele Taalkunde Taal herkennen (kenmerken van een taal) • • • Jan Inleiding ATW Computationele Taalkunde Taal herkennen (kenmerken van een taal) • • • Jan van Wageningen Dieter Schlierensauer Ioannis Archontakis Mohammed Ouazzani Benhaddou John Mac. Allister Zhiang Van Tranh Eva Fonseca Aranda de Pereira Rodriguez Olga Ivanovna Kutsnetsova Majbritt Olavsdottir Fadma Űmmügülsüm

Inleiding ATW Computationele Taalkunde Taal herkennen (door te tellen!) • karakteristieke letters • • Inleiding ATW Computationele Taalkunde Taal herkennen (door te tellen!) • karakteristieke letters • • Nederlands: Fries: Duits: Italiaans: àéëï êôúû ÖÜäöüß àéèìòù • overige karakteristieken Nederlands – lettercombinatie ij, ei, dubbele klinkers, kw, sch, – woorden: het, op, en, een, voor (en samenstellingen met voor). [topnamen: de, van, een, het, in, is, te, niet, op, dat, die, voor, hij, ik, zijn, was] – woordeinde: -tje, -sje, -ing, -en, -lijk, – woordbegin: z-, v-, ge– t/m • 3 tot 5 woorden >90%, 10 woorden ~100% • http: //www. let. rug. nl/vannoord/Text. Cat/Demo/ (de kleine jongen)

Inleiding ATW Computationele Taalkunde Automatisch vertalen • Van brontaal naar doeltaal • • Google Inleiding ATW Computationele Taalkunde Automatisch vertalen • Van brontaal naar doeltaal • • Google vertaling vertalen is meer dan andere codering toepassen is meer dan woordelijk vertalen problemen met niet-bestaande woorden en constructies training: bv vertalingen in Europese parlement • Israel vows no let-up over Gaza Israeli Defence Minister Ehud Barak has said Palestinian militant group Hamas had sustained a "hard blow", but the offensive in Gaza would continue. • Israël laat geen geloften-up over Gaza Israëlische minister van Defensie Ehud Barak heeft gezegd Palestijnse militante groep Hamas had aanhoudende een "harde klap", maar het offensief in de Gazastrook zou blijven. Israël belooft niet te stoppen in Gaza De Israëlische minister van Defensie Ehud Barak heeft gezegd dat de Palestijnse militante groep Hamas een harde klap te verduren heeft gehad, maar dat het offensief in de Gazastrook zal doorgaan.

Inleiding ATW Computationele Taalkunde Taal- en spraaktechnologie • Spreken en verstaan door een computer Inleiding ATW Computationele Taalkunde Taal- en spraaktechnologie • Spreken en verstaan door een computer • • Informatiediensten (KPN, NS, . . ) Reserveren (hotel) Kopen (Wehkamp) Hands-free taken Computerinterface (in en uit) Sprekende krant (blinden) Gesproken email Spraak-naar-spraak vertalen

Inleiding ATW Computationele Taalkunde de spraakketen spreker luisteraar bedoelen formuleren begrijpen taalkennis spreken verstaan Inleiding ATW Computationele Taalkunde de spraakketen spreker luisteraar bedoelen formuleren begrijpen taalkennis spreken verstaan horen spraakgeluid

Inleiding ATW Computationele Taalkunde de spraakketen (computer) resultaat formuleren spraak synthese spraakgeluid-uit handelen (bv Inleiding ATW Computationele Taalkunde de spraakketen (computer) resultaat formuleren spraak synthese spraakgeluid-uit handelen (bv vertalen) talen kennis begrijpen spraak herkennen geluid analyseren spraakgeluid-in

Inleiding ATW Computationele Taalkunde dialoog initiatief resultaat formuleren (computer) spraak synthese spraakgeluid-uit handelen (bv Inleiding ATW Computationele Taalkunde dialoog initiatief resultaat formuleren (computer) spraak synthese spraakgeluid-uit handelen (bv vertalen) talen kennis begrijpen spraak herkennen geluid analyseren spraakgeluid-in (gebruiker)

Inleiding ATW Computationele Taalkunde Spraakherkenning • onbekende spraak vergelijken met in het geheugen opgeslagen Inleiding ATW Computationele Taalkunde Spraakherkenning • onbekende spraak vergelijken met in het geheugen opgeslagen ‘modellen’ • spraakklank • woord • problemen • • klank- en woordsegmentatie slordige spraak (doen we allemaal) sprekerverschillen omgevingslawaai

Inleiding ATW Computationele Taalkunde Het leven is mooi als de zon schijnt geen pauzes, Inleiding ATW Computationele Taalkunde Het leven is mooi als de zon schijnt geen pauzes, slordigheden, sprekereigenschappen, verstoringen

Inleiding ATW Computationele Taalkunde Spraaksynthese • lange geschiedenis • replica (talking head) - vanaf Inleiding ATW Computationele Taalkunde Spraaksynthese • lange geschiedenis • replica (talking head) - vanaf 18 e eeuw • akoestisch-elektronisch • digitaal • ‘een vliegtuig klapt niet met de vleugels’

mond-keelholte Von Kempelen Inleiding ATW Computationele Taalkunde long (1791) articulatoren /mama, papa/ neus mond-keelholte Von Kempelen Inleiding ATW Computationele Taalkunde long (1791) articulatoren /mama, papa/ neus

Inleiding ATW Computationele Taalkunde Twee methoden • spraaksynthese door regels • model van spraakproductie Inleiding ATW Computationele Taalkunde Twee methoden • spraaksynthese door regels • model van spraakproductie (formant synthese, articulatorische synthese) • spraak opbouwen uit bouwstenen • vooropgenomen spraak(stukjes) • difoonsynthese (twee-fonemen) • synthese door keuze van (grotere) spraakeenheden uit zeer grote verzameling

Inleiding ATW Computationele Taalkunde Difonen • Meeste stabiliteit in midden van spraakklank • di Inleiding ATW Computationele Taalkunde Difonen • Meeste stabiliteit in midden van spraakklank • di = twee foon = klank • Van midden naar midden • attentie > #At. Entsi# > #A At t. E En nts tsi i# • constante toonhoogte (dat wordt later geregeld)

Inleiding ATW Computationele Taalkunde Voorbeelden difoonsynthese • http: //www. let. uu. nl/~audiufon/data/difoon. html • Inleiding ATW Computationele Taalkunde Voorbeelden difoonsynthese • http: //www. let. uu. nl/~audiufon/data/difoon. html • attentie: • Engels: • Frans: • Fluency: schimmel:

Inleiding ATW Computationele Taalkunde Grotere eenheden gebruiken • Uren spraak opnemen • kan alleen Inleiding ATW Computationele Taalkunde Grotere eenheden gebruiken • Uren spraak opnemen • kan alleen als je zeer grote bestanden kunt verwerken; sinds 10 jaar • Segmenteren in woorden en klanken • Nieuwe zin: kijk of je je stukken al opgenomen hebt (van een heel woord tot een difoon) • Plak stukken aan elkaar

Inleiding ATW Computationele Taalkunde Voorbeelden unit-selection • http: //www. fluency. nl • Loquendo (Willem) Inleiding ATW Computationele Taalkunde Voorbeelden unit-selection • http: //www. fluency. nl • Loquendo (Willem) http: //tts. loquendo. com/ttsdemo/default. asp? page=id&voice=Willem • Real. Speak (NL in Engels) http: //212. 8. 184. 250/tts/demo_last. jsp

Inleiding ATW Computationele Taalkunde Verschillende talen • http: //www. acapela-group. com/text-to-speech-interactivedemo. html (engels, frans, Inleiding ATW Computationele Taalkunde Verschillende talen • http: //www. acapela-group. com/text-to-speech-interactivedemo. html (engels, frans, duits, italiaans, noors, pools, portugees, russisch, spaans, zweeds, turks)

Inleiding ATW Computationele Taalkunde Van tekst naar spraak • tekst voorbewerken • afkortingen, getallen Inleiding ATW Computationele Taalkunde Van tekst naar spraak • tekst voorbewerken • afkortingen, getallen • letter-naar-foneem • • fonetische transcriptie door regels c kan klanken s, k, S (sj), X (g) worden verleden: zelfde schrijfwijze, drie klanken paal, palen: zelfde klank, twee schrijfwijzen • duur en melodie toekennen • woordklemtoon, zinsaccent, vraagzin, …

Inleiding ATW Computationele Taalkunde Duur en melodie Fluency Speech Editor demonstratie (fldsed) • Woordklemtoon Inleiding ATW Computationele Taalkunde Duur en melodie Fluency Speech Editor demonstratie (fldsed) • Woordklemtoon • Zinsaccent (hoog/laag) • Algemene daling van toonhoogte over de zin • Alles op basis van taalkundige analyse – Functiewoorden versus inhoudswoorden – Syntactische / semantische analyse

Inleiding ATW Computationele Taalkunde Modellen • zijn procedures in taal- en spraaktechnologie een afspiegeling Inleiding ATW Computationele Taalkunde Modellen • zijn procedures in taal- en spraaktechnologie een afspiegeling van menselijke taalverwerking? • ook al benaderen ze menselijke prestaties: nee, niet noodzakelijk • onze hersenen werken complexer dan een hedendaagse computer

Inleiding ATW Computationele Taalkunde Opdrachten • Zie de leeswijzer • Aantal vragen uit het Inleiding ATW Computationele Taalkunde Opdrachten • Zie de leeswijzer • Aantal vragen uit het boek • Vraag over spraaksynthese

Inleiding ATW Computationele Taalkunde Meer over taal- en spraaktechnologie • Niveau 1 • Taal Inleiding ATW Computationele Taalkunde Meer over taal- en spraaktechnologie • Niveau 1 • Taal en Computer (blok 3) • Niveau 3 • Taal- en Spraaktechnologie (blok 4) • Computationele grammatica’s (blok 2)

Inleiding ATW Computationele Taalkunde Vragen? Inleiding ATW Computationele Taalkunde Vragen?