e8feedf683134d787b0c77def6948687.ppt
- Количество слайдов: 27
Balso dialogų technologijos (kompiuteriniai dialogai balsu) Doktorantas: Informacinių technologijų metodai Evaldas Vaičiukynas KTU-T 120 D 004 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu)
Natūraliausias žmogui bendravimas • Žmonės tarpusavyje dažniausiai bendrauja balsu. • Nors dialogai balsu atrodytų mums pati natūraliausia bendravimo forma, tiktais visai neseniai tokia sąveika su mašinom tapo realybe dėl: • statistinių mokymosi algoritmų vystymosi • išaugusio mokymuisi tinkamų duomenų (šnekos ir teksto kolekcijų) prieinamumo • ASR (automated speech recognition) % • natūralėjančios sintezuotos šnekos (text-to-speech) • įrenginių parametrų (CPU/RAM/HDD), tinklo laidumo 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 2
Balso technologijų grupės • šnekos atpažinimas - balsu tariamų vienetų (frazių, žodžių, jų sekų) automatinis nustatymas • šnekos sintezė - teksto skaitymas balsu • kitos balso technologijos (asmens tapatybės vertinimas pagal jo balsą, kalbos signalų suspaudimas bei kodavimas, triukšmų slopinimas ir pan. ) 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 3
Multimodalinio dialogo sistema • Modalumas - sąveikos su sistema sąsaja (UI) • Multimodalinio dialogo sistema yra IS, kurioje: • informacijos įvedimui naudojamas >1 modalumas (&or) • informacijos išvedimui naudojamas >1 modalumas • Pvz. pagal modališkumo teoriją: • įvedimui labai tinka derinti balsą su pele ar planšete, • o išvedimui - balsą ir grafiką. • Šalia įprastų, atsiranda ir balsinė vartotojo sąsaja (voice/speech user interface - VUI arba SUI) bei balso dialogo sistemos (Spoken Language Dialogue Systems - SLDS arba tiesiog SDS). 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 4
Multimodalinio dialogo sistema 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 5
Multimodalinio dialogo sistema 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 6
Multimodalinis informacijos įvedimas 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 7
Unimodalinio dialogo balsu sistema • Balso dialogo sistemos (SDS): uni/multi-modalinio • Telefoninė (unimodalinė) interaktyvaus atsako balsu (interactive voice response - IVR) sistema: 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 8
VUI/SUI pagrindiniai elementai • šnekos išvedimo (angl. prompt) - įrašyti arba sintezuojami sisteminiai pranešimai • šnekos įvedimo (angl. listen) ir gramatiniai apribojimai (angl. grammar) - tikėtini žodžiai, frazės ar sakiniai • dialogo logika - dinaminis sąsajos aspektas, padedantis palaikyti kryptingą bendravimą ir sėkmingai atlikti užduotis 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 9
Šnekos sintezavimas • Šnekos sintezė - labai nuo konkrečios kalbos savybių priklausanti kalbos technologijų sritis. • Generavimui reikia naudoti konkrečiai kalbai paruoštus sintezės elementus (pastarieji dažnai vadinami sintezės vienetais) bei atsižvelgti į duotos kalbos gramatines ypatybes (kirčiavimą, prozodines, intonacines savybes ir pan. ) 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 10
Lietuvių kalbos sintezatorius “Aistis” • Sukūrė Pijus Kasparaitis, VU, 1995 m. • Sintezatorius sudarytas iš tokių blokų: • žodžių skiemenavimas; • žodžių kirčiavimas; • transkribavimas (tekstas -> fonetiniai vienetai); • šnekos signalo formavimas. 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 11
Sintezatoriaus “Aistis” testavimas 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 12
Lietuviško sintezatoriaus raida - I • 2001 – 2003 m. Čekijos kompanija "Rosasoft" kūrė sintezatorių "Gintaras“ • 2003 m. P. Kasparaičio “Aistis” languose • 2006 m. vasarą P. Kasparaičio komanda sukuria lietuvišką sintezatorių* Internete, kurį galima rasti www. text-talk. com puslapyje: www. text-talk. com/lt/kalbos-sinteze. html (*su LNK žinių vedėjo Gintaro Deksnio balsu) • 2007 m. pradžioje neregiai išgirsta ”Aistis 2” (P. Kasparaičio ir “Rosasoft” pastangomis) 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 13
Lietuviško sintezatoriaus raida - II • 2008 m. pavasarį socialinė (įdarbinusi neregius) informacijos technologijų bendrovė „Etalinkas”, vadovaujama E. Biknevičiaus, panaudodama Europos struktūrinių fondų paramą – 600 tūkst. litų, sukuria naują lietuvišką sintezatorių „Sakrament LIT”, veikiantį ne tik „Windows“, bet ir „Linux“ terpėse. Programoje panaudotas buvusio sporto komentatoriaus Vasilijaus Kuzminsko balsas. Ją nemokamai galima parsisiųsti adresu http: //etalink. lt/lietuviu-kalbos-sintezatorius (arba http: //etalink. lt/downloads/setup. Lith. TTS. rar) 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 14
Šnekos atpažinimas • Šnekos atpažinimas yra žmogaus šnekos pavertimas tekstu (akustiniams signalams parenkant žodžių atitikmenis) naudojant kompiuterį. • ASR = system 4 mapping acoustic signals 2 string of words • Pagrindinėmis ASR sistemos dalimis laikoma: • požymių (pvz. kepstrinių) išskyrimas iš šnekos signalo; • garsinę informaciją reprezentuojančių modelių (akustinių ir kalbos) formavimas; • nežinomo ištarimo klasifikavimas vienam iš reprezentacinių modelių - žodžių ir sakinių atpažinimas. 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 15
Šnekos atpažinimo sistemos schema 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 16
Melų dažnių skalės kepstriniai pož. • Pastaruoju metu spektrinėje analizėje naudojamos Melų ir Barkų dažnių skalės. Jos imituoja žmogaus klausos aparato darbe naudojamą dažnių skalę spektrinės informacijos apdorojimui. • Iš įprastos dažnių skalės, kurioje garsai matuojami hercais (Hz) prie šios pereinama taikant specialią formulę. • Melų skalėje dažniai pasiskirsto nevienodai, todėl atsiranda du terminai: tiesinė ir netiesinė dažnių skalės. • Netiesinių dažnių skalių pagrindu suformavus juostinius filtrus ir apskaičiavus kepstrinius požymius, gaunami Melų ar Barkų skalės kepstriniai požymiai. • Naudojant tiesinę dažnių skalę kepstriniai požymiai gali būti gaunami iš tiesinės prognozės koeficientų, naudojant rekurentines išraiškas. 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 17
Šnekos atpažinimo (ASR) mechanizmas • Šnekos atpažinimo sistemų mechanizmas naudoja: • kepstrinius parametrus (MFCC) ir jų regresijos koeficientus (F 12) kaip šnekos požymius; • trifoneminius paslėptuosius markovo modelius (Hidden Markov Model - HMM) kaip akustinius modelius; • keleto tūkstančių arba keliasdešimt tūkstančių žodžių apimties žodynus ir stohastinius kalbos modelius, paremtus bigramomis ir trigramomis. • Žodžių seka, w 1, …, wk, maksimizuojanti posteriorinę tikimybę pateikiama kaip atpažinimo rezultatas. • Nors egzistuoja įvairiausi skirtumai tarp kalbų, toks atpažinimo mechanizmas sėkmingai buvo panaudotas anglų, prancūzų, vokiečių, italų, japonų ir daugeliui kitų. 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 18
Šnekos atpažinimo (ASR) schema 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 19
Lingvistinis (a) ir automatinis (b) AM 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 20
Šnekos atpažinimas Lietuvoje 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 21
Dialogo valdymas problemos sprendėju • Tai išvadų darymo technika, kuri stengiasi rasti sprendimus, išpildančius naudotojo apribojimus (reikalavimus) ir tuo pačiu neprieštaraujančius problemų sprendėjo taisyklių ir žinių bazei. Reasoning system for Information-seeking. • Problemų sprendėjas veikia kaip tarpininkas tarp probleminės srities paslaugų ir naudotojo, taigi jam tenka suderinti reikalavimus ir apribojimus iš abiejų pusių, tam kad rastų tinkamą sprendimą. 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 22
Balso dialogo technologijų standartai • • XISL (e. Xtensible Interaction Scenario Language) Voice. XML ir išplėtimas X+V (XHTML+Voice. XML) SALT (Speech Application Language Tags) Papildomi W 3 C Speech Interface Framework: • • gramatikos formatas SRGS; šnekos išvesties formatas SSML; natūralios kalbos rezultato formatas NLSML; telefonijos kreipinių valdymo CCXML. • IBM Voice Web Studio • Microsoft. NET Speech SDK 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 23
Balso dialogo technologijų taikymas • Šnekos atpažinimo technologijos gali būti panaudotos: • balso dialogo sistemose, kaip sąsajos su informacine sistema (arba paslaugom) dalis; • transkribavimui, supratimui ir apibendrinimui įvairiausių kalbinių dokumentų, tokių kaip posėdžiai, paskaitos, pristatymai, balso paštas ir pan. 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 24
Balso dialogo technologijų apribojimai 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 25
Kognityviniai BDT apribojimai 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 26
Kalbiniai BDT apribojimai 2009 kovo 4 d. Balso dialogų technologijos (kompiuteriniai dialogai balsu) 27
e8feedf683134d787b0c77def6948687.ppt