Page 4 - HS 3 Taaltecnologie
P. 4

A.I. voor wiskunde



               3.3  Waarom is het begrijpen van taal door een AI-systeem moeilijk?

               Ondanks de enorme technologische vooruitgang van de voorbije jaren stelt het herkennen van spraak
               en de interpretatie van taal de AI-systemen nog steeds voor immense uitdagingen.

               Eén van de belangrijkste struikelblokken bij NLP is de dubbelzinnigheid af de ambiguïteit die al ontstaat
               bij de spraakherkenning vooraleer spraak wordt omgezet naar tekst.

               Homofonen zijn woorden die hetzelfde klinken, maar een andere spelling en betekenis hebben. Bij het
               omzetten van spraak naar tekst kunnen woorden zoals “licht” en “ligt” voor verwarring zorgen.

                   •  “Leiden” (sturen) en “lijden” (pijn hebben);

                   •  “rouw" (droefheid) en "rauw" (onbereid);

                   •  "wij" (persoonlijk voornaamwoord) en "wei" (grasland);


               Een gelijkaardig probleem doet zich voor bij homoniemen; dit zijn woorden die dezelfde schrijfwijze
               hebben maar een verschillende betekenis. Een paar voorbeelden:

                   •  pad: een smalle weg, of een dier;

                   •  arm: een lichaamsdeel, of niet rijk;

                   •   slot: een sluiting, of een kasteel;

               Nadat de spraak is omgezet naar tekst kan ambiguïteit op verschillende niveaus ontstaan bij de
               interpretatie van de tekst.

               Morfologisch niveau heeft te maken met de vorming van woorden.
                   •  Het woord “massagebed” kan zowel verwijzen naar een menigte biddende mensen als een bed
                      waarop je kan liggen voor een massage. Een opsplitsing in de zogenaamde morfenen “massa”
                      “gebed” of “massage” en “gebed” kan helpen om deze ondubbelzinnigheid op te lossen.



               Syntactisch niveau analyseert de opbouw van een zin. Er wordt hierbij onderscheid gemaakt in
               woordsoorten, woordgroepen en zinsdelen.

                   •  De politieagent verwondde de man met het pistool kan enerzijds betekenen dat de politieagent
                      een man verwondde met het pistool van de politieagent of dat de politieagent een man
                      verwond die een pistool bij zich had.

                                                                                                                   t
               Semantisch niveau kijkt naar de betekenis van een woord in een zin. Eenzelfde woord kan immers
                                                                                                                   e
               meerdere betekenissen hebbe; dit zijn homoniemen zoals vorst (heerser) en vorst (vrieskou).         n
               De betekenis van dit woord wordt pas duidelijk door de context of de omliggende woorden van een     .  o
               woord in de zin.                                                                                    l
                                                                                                                   e
               Deze aanpak om de betekenis van woorden af te leiden uit associaties met andere woorden komt voor   h
                                                                                                                   t
               uit de distributionele hypothese. Woorden die gewoonlijk in gelijkaardige contexten voorkomen       a
               hebben een gelijkaardige betekenis. Dat idee ontstond al in 1957 met de bekende uitspraak van de    m
               Britse taalkundige John Rupert Firth: “You shall know a word by the company it keeps”.              .
                                                                                                                   w
                                                                                                                   w
                                                                                                                   w




               © 2025 Ivan De Winne                                          ivan@mathelo.net                                                          4
   1   2   3   4   5   6   7   8   9