ac622b1f44b04a32a06ed3611840b105.ppt
- Количество слайдов: 44
Inleiding ATW Computationele Taalkunde (taal- en spraaktechnologie) Gerrit Bloothooft
Inleiding ATW Computationele Taalkunde De computer kan meer dan tekstverwerken alleen • tellen en rekenen • logisch redeneren (regels toepassen) > rekenen met, en redeneren over taal en spraak
Inleiding ATW Computationele Taalkunde Digitalisatie • Maakt teksten en spraak toegankelijk op de computer • Maakt analyse van enorme hoeveelheid gegevens mogelijk – geeft een beter beeld van feitelijk taal- en spraakgebruik
Inleiding ATW Computationele Taalkunde Leren • Gegevens verzamelen – Voorbeelden – Imitatie • Structuur noodzakelijk – Taal – Klanken Geldt voor mens en voor computer
Inleiding ATW Computationele Taalkunde Voorwaarden • Taalmodel en spraakmodel nodig • Trainingsmateriaal nodig – Voorbeelden (veel) – Supervisie (zeker in het begin) Tellen van verschijnselen > Statistische modellen
Inleiding ATW Computationele Taalkunde Belang voor taalkunde/fonetiek • Analyseren en modelleren van taal- en spraakprocessen – Inventariseren/trainen: • welke verschijnselen komen voor • hoe vaak? (kansrekening) – Begrijpen: • via model/theorie voorspellen van verschijnselen (niet alles is van te voren al vast te leggen) – Toepassen: • automatisering van taal- en spraakprocessen • Toetssteen van theoriën – Wisselwerking
Inleiding ATW Computationele Taalkunde Toepassingen (tekst) • • Spellingscontrole Afbreekregels Automatisch vertalen Taal herkennen Samenvatten van teksten Begrijpen van natuurlijke taal Dialoogsystemen Slim zoeken (Google)
Inleiding ATW Computationele Taalkunde Toepassingen (spraak) • • Spraaksynthese Spraakherkenning Spraakcodering Gesproken dialoogsystemen – in combinatie met systemen voor natuurlijke taalverwerking
Inleiding ATW Computationele Taalkunde Een voorbeeld Spellingscontrole De reiziger vertrekt moregn Waar zit een fout? Wat is het correcte woord?
Inleiding ATW Computationele Taalkunde Spellingscontrole Wat heb je nodig – Woordenlijst – – Woordfrequentie – – welk alternatief is het waarschijnlijkst? Verschilmaat – …. komt een woord voor? welke alternatieven zijn er? maar: hoe groot is de lijst? tussen woord en alternatief moregn | morgen, moren, mogen, moeren
Inleiding ATW Computationele Taalkunde Spellingscontrole als het woord niet voorkomt in de woordenlijst • spelfout (vervoegingsfout) • of lijst niet compleet – vervoegingen, getallen, eigennamen, … • niet-Nederlands woord
Inleiding ATW Computationele Taalkunde Spelfout invoeging, verwijdering, verwisseling moregn moren (1 invoeging) moreen (1 verwisseling) morren (2 verwisselingen) morden (2 verwisselingen) morgen (2 verwisselingen of 1 omwisseling) Welk woord had het moeten zijn, hoe kies je? – hoe vind je alle alternatieven, wat is “lijken op”? – welke fouten worden het meest gemaakt – welke alternatieven zijn het waarschijnlijkst
Inleiding ATW Computationele Taalkunde Waarschijnlijkheid • hoe vaak komt iets voor – computer laten tellen • • een letter een woordcombinatie taalkundige structuren
Inleiding ATW Computationele Taalkunde Woordfrequentie • Sommige woorden zijn heel frequent – welke? • Heel veel woorden zijn infrequent Shakespeare gebruikte 30. 000 Engelse woorden (de gemiddelde Nederlandse student kent er 3. 000; in het Van Dale Engels woordenboek staan er 214. 000)
Inleiding ATW Computationele Taalkunde Woordfrequentie in Wikipedia Frequentie → the, of , and, … Rangorde →
Inleiding ATW Computationele Taalkunde Grote tekstcorpora [voor elke taal] • Tot honderden miljoenen woorden – Corpus Gesproken Nederlands: 300 M • Van diverse aard • • • Kranten Boeken Wetenschappelijke publicaties, handleidingen Online teksten De tekst van spontane spraak Vlaams/Nederlands
Inleiding ATW Computationele Taalkunde Structuur in tekst (intermezzo) • Handelingen van de Tweede Kamer • 150 jaar vrijwel letterlijke weergave van parlementaire debatten (digitaal) • Vaste manier om te noteren wie spreekt en wat er gebeurt (annotaties) • Bijvoorbeeld, het teken □ – betekent interruptie – dat maakt analyse van interruptiegedrag mogelijk
Inleiding ATW Computationele Taalkunde Attackogram (interruptie overzicht) Groen. Links Political Mashup project (Maarten Marx / Rianne Christen Unie Kaptein) Algemene beschouwingen 2008 D 66 PVV SP VVD Pvd. A CDA Pvd. Dieren TON SGP
Inleiding ATW Computationele Taalkunde Meer woorden tellen! • Woordcombinaties (collocatie) • meer informatie (ook syntactisch/semantisch) • zeer grote corpora nodig om woordcombinaties tegen te komen
Inleiding ATW Computationele Taalkunde Spellingscontrole • is de vervoeging goed? (vertraagt, vertraagd) • • regels > syntactische analyse gebruik buurwoorden (collocaties) (bv is … vertraagd, hij vertraagt )
Inleiding ATW Computationele Taalkunde Spellingscontrole samenvattend • • woordenlijsten met frequenties collocatielijsten met frequenties regels voor frequente typefouten regels voor syntactische analyse • beslissingsstrategie
Inleiding ATW Computationele Taalkunde Taal herkennen (kenmerken van een taal) • • • Jan van Wageningen Dieter Schlierensauer Ioannis Archontakis Mohammed Ouazzani Benhaddou John Mac. Allister Zhiang Van Tranh Eva Fonseca Aranda de Pereira Rodriguez Olga Ivanovna Kutsnetsova Majbritt Olavsdottir Fadma Űmmügülsüm
Inleiding ATW Computationele Taalkunde Taal herkennen (door te tellen!) • karakteristieke letters • • Nederlands: Fries: Duits: Italiaans: àéëï êôúû ÖÜäöüß àéèìòù • overige karakteristieken Nederlands – lettercombinatie ij, ei, dubbele klinkers, kw, sch, – woorden: het, op, en, een, voor (en samenstellingen met voor). [topnamen: de, van, een, het, in, is, te, niet, op, dat, die, voor, hij, ik, zijn, was] – woordeinde: -tje, -sje, -ing, -en, -lijk, – woordbegin: z-, v-, ge– t/m • 3 tot 5 woorden >90%, 10 woorden ~100% • http: //www. let. rug. nl/vannoord/Text. Cat/Demo/ (de kleine jongen)
Inleiding ATW Computationele Taalkunde Automatisch vertalen • Van brontaal naar doeltaal • • Google vertaling vertalen is meer dan andere codering toepassen is meer dan woordelijk vertalen problemen met niet-bestaande woorden en constructies training: bv vertalingen in Europese parlement • Israel vows no let-up over Gaza Israeli Defence Minister Ehud Barak has said Palestinian militant group Hamas had sustained a "hard blow", but the offensive in Gaza would continue. • Israël laat geen geloften-up over Gaza Israëlische minister van Defensie Ehud Barak heeft gezegd Palestijnse militante groep Hamas had aanhoudende een "harde klap", maar het offensief in de Gazastrook zou blijven. Israël belooft niet te stoppen in Gaza De Israëlische minister van Defensie Ehud Barak heeft gezegd dat de Palestijnse militante groep Hamas een harde klap te verduren heeft gehad, maar dat het offensief in de Gazastrook zal doorgaan.
Inleiding ATW Computationele Taalkunde Taal- en spraaktechnologie • Spreken en verstaan door een computer • • Informatiediensten (KPN, NS, . . ) Reserveren (hotel) Kopen (Wehkamp) Hands-free taken Computerinterface (in en uit) Sprekende krant (blinden) Gesproken email Spraak-naar-spraak vertalen
Inleiding ATW Computationele Taalkunde de spraakketen spreker luisteraar bedoelen formuleren begrijpen taalkennis spreken verstaan horen spraakgeluid
Inleiding ATW Computationele Taalkunde de spraakketen (computer) resultaat formuleren spraak synthese spraakgeluid-uit handelen (bv vertalen) talen kennis begrijpen spraak herkennen geluid analyseren spraakgeluid-in
Inleiding ATW Computationele Taalkunde dialoog initiatief resultaat formuleren (computer) spraak synthese spraakgeluid-uit handelen (bv vertalen) talen kennis begrijpen spraak herkennen geluid analyseren spraakgeluid-in (gebruiker)
Inleiding ATW Computationele Taalkunde Spraakherkenning • onbekende spraak vergelijken met in het geheugen opgeslagen ‘modellen’ • spraakklank • woord • problemen • • klank- en woordsegmentatie slordige spraak (doen we allemaal) sprekerverschillen omgevingslawaai
Inleiding ATW Computationele Taalkunde Het leven is mooi als de zon schijnt geen pauzes, slordigheden, sprekereigenschappen, verstoringen
Inleiding ATW Computationele Taalkunde Spraaksynthese • lange geschiedenis • replica (talking head) - vanaf 18 e eeuw • akoestisch-elektronisch • digitaal • ‘een vliegtuig klapt niet met de vleugels’
mond-keelholte Von Kempelen Inleiding ATW Computationele Taalkunde long (1791) articulatoren /mama, papa/ neus
Inleiding ATW Computationele Taalkunde Twee methoden • spraaksynthese door regels • model van spraakproductie (formant synthese, articulatorische synthese) • spraak opbouwen uit bouwstenen • vooropgenomen spraak(stukjes) • difoonsynthese (twee-fonemen) • synthese door keuze van (grotere) spraakeenheden uit zeer grote verzameling
Inleiding ATW Computationele Taalkunde Difonen • Meeste stabiliteit in midden van spraakklank • di = twee foon = klank • Van midden naar midden • attentie > #At. Entsi# > #A At t. E En nts tsi i# • constante toonhoogte (dat wordt later geregeld)
Inleiding ATW Computationele Taalkunde Voorbeelden difoonsynthese • http: //www. let. uu. nl/~audiufon/data/difoon. html • attentie: • Engels: • Frans: • Fluency: schimmel:
Inleiding ATW Computationele Taalkunde Grotere eenheden gebruiken • Uren spraak opnemen • kan alleen als je zeer grote bestanden kunt verwerken; sinds 10 jaar • Segmenteren in woorden en klanken • Nieuwe zin: kijk of je je stukken al opgenomen hebt (van een heel woord tot een difoon) • Plak stukken aan elkaar
Inleiding ATW Computationele Taalkunde Voorbeelden unit-selection • http: //www. fluency. nl • Loquendo (Willem) http: //tts. loquendo. com/ttsdemo/default. asp? page=id&voice=Willem • Real. Speak (NL in Engels) http: //212. 8. 184. 250/tts/demo_last. jsp
Inleiding ATW Computationele Taalkunde Verschillende talen • http: //www. acapela-group. com/text-to-speech-interactivedemo. html (engels, frans, duits, italiaans, noors, pools, portugees, russisch, spaans, zweeds, turks)
Inleiding ATW Computationele Taalkunde Van tekst naar spraak • tekst voorbewerken • afkortingen, getallen • letter-naar-foneem • • fonetische transcriptie door regels c kan klanken s, k, S (sj), X (g) worden verleden: zelfde schrijfwijze, drie klanken paal, palen: zelfde klank, twee schrijfwijzen • duur en melodie toekennen • woordklemtoon, zinsaccent, vraagzin, …
Inleiding ATW Computationele Taalkunde Duur en melodie Fluency Speech Editor demonstratie (fldsed) • Woordklemtoon • Zinsaccent (hoog/laag) • Algemene daling van toonhoogte over de zin • Alles op basis van taalkundige analyse – Functiewoorden versus inhoudswoorden – Syntactische / semantische analyse
Inleiding ATW Computationele Taalkunde Modellen • zijn procedures in taal- en spraaktechnologie een afspiegeling van menselijke taalverwerking? • ook al benaderen ze menselijke prestaties: nee, niet noodzakelijk • onze hersenen werken complexer dan een hedendaagse computer
Inleiding ATW Computationele Taalkunde Opdrachten • Zie de leeswijzer • Aantal vragen uit het boek • Vraag over spraaksynthese
Inleiding ATW Computationele Taalkunde Meer over taal- en spraaktechnologie • Niveau 1 • Taal en Computer (blok 3) • Niveau 3 • Taal- en Spraaktechnologie (blok 4) • Computationele grammatica’s (blok 2)
Inleiding ATW Computationele Taalkunde Vragen?


