Revision 1 as of 2005-12-10 14:28:54

Clear message

WikiSandBoxLatex

%% LyX 1.3 created this file. For more info, see http://www.lyx.org/. %% Do not edit unless you really know what you are doing. \documentclass[dutch]{article} \usepackage[T1]{fontenc} \usepackage[latin1]{inputenc}

\makeatletter

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% LyX specific LaTeX commands. %% Because html converters don't know tabularnewline \providecommand{\tabularnewline}{\\}

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% User specified LaTeX commands. \usepackage{url}

\usepackage{babel} \makeatother

Inleiding

Spraaksynthese is al geruime tijd de kinderschoenen ontgroeid. Ook voor het Nederlands zijn verschillende functionerende tekst-naar-spraaksystemen ontwikkeld. Eén daarvan is NeXTeNS {[}referentie?{]}, een project dat verschillende al bestaande componenten en lexica (KunTTS, FonPars, TreeTalk, etc. {[}ref{]}) integreert tot een spraaksynthese-systeem dat vrij te gebruiken is voor niet-commerciële doeleinden. Het bestaat -- zoals alle TTS-toepassingen -- uit verschillende modules {[}referentie presentatie CLIN 02, nog verder uitwerken{]}:

  • De tekst opdelen in tokens, herkenning van woorden en leestekens.
  • Woordsoortherkenning (POS-tagging)
  • Syntactische analyse
  • Prosodie-generatie
  • Omzetting van tokens naar woorden, waarbij speciale patronen (getallen

en dergelijke) naar hun uitspraak-equivalent omgezet worden.

  • Grafeem-foneemconversie
  • Duurbepaling: voor elk foneem bepalen hoe lang het duurt.
  • Berekening van F0 in functie van de tijd
  • Golfvorm-synthese gebaseerd op difonen.

Methodes voor grafeem-foneemomzetting

Geen g2f als het woord in het lexicon staat! Duidelijk vermelden dat dit de voorkeur is bij Nextens. Maar anders heb je g2f nodig.

regelgebaseerd

fonpars

andere

uitzoeken, literatuur!

inductief

De grafeem-foneemomzetting van Nextens kan op twee manieren uitgevoerd worden. Als eerste is er FonPars {[}referentie{]}, een regelgebaseerd systeem. Dit maakt expliciet gebruik van fonologische regels, zoals beschreven in \cite{chomsky68}.

Daarnaast kan ook TreeTalk {[}referentie{]} gebruikt worden, een zelflerend systeem (TiMBL, referentie) dat bepaalt welk foneem er bij een letter hoort. In haar scriptie nam Nanneke Konings \cite{konings03:_leren} beide methodes onder de loep en ze vergeleek ze aan de hand van 4 criteria:

  • klankomzetting
  • klemtoontoekenning
  • syllabificatie
  • samenstellingsgrenzen

Ze komt tot de conclusie dat TreeTalk op alle vlakken beter presteert dan FonPars. De voordelen van geheugengebaseerde grafeem-foneemomzetting komen bijvoorbeeld expliciet naar boven bij leenwoorden die de {}"klassieke" uitspraakregels niet volgen. Anderzijds gaat deze methode af en toe ook in de fout, zo worden er soms 2 primaire klemtonen binnen één woord gelegd. Alles wel beschouwd is het verschil tussen beide methodes van die aard dat het logisch was om vervolgonderzoek te doen naar de grafeem-foneemomzetting met TreeTalk.

Treetalk

Nextens beschikt tijdens het tekst-naar-spraakproces standaard niet over de morfologische opbouw van de invoerwoorden. Nochtans kan morfologie een factor zijn die op 3 manieren kan bijdragen tot een verbeterde grafeem-foneemomzetting:

  • Een verbeterde syllabificatie: TreeTalk splitst het woord autofabriek

als au--tofa--briek \cite{konings03:_leren}. Met kennis over de achterliggende samenstelling (auto--fabriek) zou de correcte splitsing au--to--fa--briek gevonden kunnen worden.

  • Als een samenstelling als dusdanig herkend wordt, kan er ook een correcte

primaire en secundaire klemtoon geplaatst worden. Zo wordt {}"voetbalvereniging" niet als samenstelling door Nextens herkend, waardoor de secundaire klemtoon (voetbalvéreniging) ontbreekt.

  • De mogelijkheid bestaat dat een zelflerend systeem als TreeTalk tijdens

de leerfase voordeel kan halen uit --naast de zuivere grafeeminvoer-- contextinformatie over de morfologie van het om te zetten woord. Zo wordt klinkt de /n @ t j @/% \footnote{Alle fonetische transcripties zijn genoteerd met behulp van de CGN-foneemset\cite{protocol}.% } van {}mannetje anders dan de /n E t j @/ van {}"muggennetje", hoewel beiden op dezelfde manier geschreven zijn. Het systeem zou in dit geval met succes de ambiguïteit kunnen wegwerken omdat het weet dat het de eerste {}e van {}"netje" als deel van een samenstelling op een bepaalde manier moet uitspreken.

Er zijn duidelijk mogelijkheden te over om de grafeem-foneemomzetting te proberen verbeteren met behulp van morfologische analyse. Omwille van praktische redenen en de beperkte tijd die voorhanden was voor dit onderzoek is de keuze gemaakt om alleen de invloed na te gaan van morfologie-informatie op de fonemisatie.

Probleem- en doelstelling

Werking van TreeTalk

Opmerkelijk genoeg bevat TreeTalk geen linguistische kennis in de vorm van fonologische regels. Aan de hand van trainingsmateriaal {}"leert" het als het ware op met welk foneem een grafeem overeenkomt. Deze inductieve manier van werken heeft al op verschillende vlakken in de taal- en spraaktechnologie zijn kwaliteiten bewezen. Zo is het onder meer met succes gebruikt voor klemtoontoekenning , syllabificatie en woordsoortherkenning {[}referenties{]}.

Hoe werkt grafeem-foneemomzetting met TreeTalk nu precies?

Leerfase

Om tot een inductieve classificatie te komen moet het systeem natuurlijk eerst getraind worden. Dat gebeurt door een grote hoeveelheid voorbeelden ({}"instances") in te voeren. Een instance bestaat uit een te classificeren element -- in dit geval een grafeem -- samen met de omliggende elementen en de juiste klasse (i.c. een foneem). De opslag van de trainingsdata kan op verschillende manieren gebeuren. Alle featurevectoren kunnen volledig bewaard worden of er kan verdere abstractie plaatsvinden, die bijvoorbeeld kan resulteren tot beslissingsbomen.\\ Het spreekt voor zich dat er veel trainingsgegevens vereist zijn om tot een betrouwbaar resultaat te komen.

Classificatie

In eerste instantie wordt het te classificeren token omgezet in een featurevector. Die vormt een soort {}"venster" (sliding window) dat buiten de om te zetten letter (het centrum van het venster) ook de omringende letters bevat (de context). Zo zal de eerste {}"e" in {}"alpenwei" voorgesteld worden door de featurevector {[} \_ a l p \textbf{e} n w e i {]}, waarbij {}"\_ a l p"% \footnote{De underscore \_ is een dummy-symbool voor lege elementen van de featurevector.% } en {}"nwei" als context beschouwd worden.

De volgende stap in het classificatieproces bestaat erin om de featurevector te vergelijken met het aangeleerde materiaal (de {}"instance base"). Hierbij zijn verschillende scenario's mogelijk:

De featurevector bestaat in de instance base

In dit geval wordt gewoon de corresponderende klasse uit de instance base gekozen. In ons voorbeeld zou de klasse van de e sjwa (@) zijn.

De featurevector bestaat niet in de instance base

De klasse van de meest gelijkende featurevector is in dat geval het gepaste antwoord. Hoe de gelijkenis (of anders gesteld: de afstand) tussen 2 featurevectoren bepaald wordt, valt onder meer te lezen in \cite{timbl_manual}. {[}evt nog uitgebreide info hierover{]}\\

Uiteindelijk zal de TreeTalk-classificatie van het woord {}"alpenwei" er uitzien als in tabel \ref{cap:grafeem-foneemomzetting-voor-alpenwei}.

%

\hline & & & & focus-feature& & & & & classificatie\tabularnewline \hline \hline \_& \_& \_& \_& \textbf{a}& l& p& e& n& \textbf{A}\tabularnewline \hline \_& \_& \_& a& \textbf{l}& p& e& n& w& \textbf{l}\tabularnewline \hline \_& \_& a& l& \textbf{p}& e& n& w& e& \textbf{p}\tabularnewline \hline \_& a& l& p& \textbf{e}& n& w& e& i& \textbf{@}\tabularnewline \hline a& l& p& e& \textbf{n}& w& e& i& \_& \textbf{-}\tabularnewline \hline l& p& e& n& \textbf{w}& e& i& \_& \_& \textbf{w}\tabularnewline \hline p& e& n& w& \textbf{e}& i& \_& \_& \_& \textbf{-}\tabularnewline \hline e& n& w& e& \textbf{i}& \_& \_& \_& \_& \textbf{E+}\tabularnewline \hline

Prestaties

Fouten, goede en sterke punten (uit literatuur, oa Nanneke)

Werking van MBMA

voorbeeld uit artikel ter illustratie

Kort het bestaan van MBMA uiteenzetten en de combinatie treetalk + MBMA voorstellen

Onderzoeksopzet

Er zijn veel samenstellingen, zie Booij p. 153, dus niet alles kan in het lexicon

Doelstelling: de grafeem-foneemomzetting verbeteren

Probleemstelling: kan MBMA een dergelijke verbetering opleveren voor treetalk?

Experimenten en resultaten

Beschrijving van opzet experimenten en bijhorende uitkomsten

Discussie

Waarom deze uitkomst?

Wat gaat er goed/slecht?

Kwalitatieve uitwerking: kijken naar representatieve voorbeelden.

Voorstellen voor vervolgonderzoek.

Conclusie

Is de doelstelling beantwoord, maw geeft de combinatie treetalk + MBMA een verbetering?

\bibliographystyle{apalike} \addcontentsline{toc}{section}{\refname}\bibliography{/home/dieter/ru/ba/tekst/bascriptie}

De inhoud van deze site is zonder enige vorm van garantie beschikbaar onder zowel de GNU Free Documentation License als de Creative Commons Naamsvermelding-Gelijk delen-licentie