Verliefd op je virtuele assistent

Door Marcel Letink - 6 February 2019

Hey Google, wil je vanavond met mij uit eten? Het lijkt misschien een rare vraag, maar als we steeds meer praten met onze apparaten, kunnen we er dan uiteindelijk ook verliefd op worden? In dit artikel gaan we in op de magische wereld van natuurlijke interactie tussen mens en machine. Praten met een computer die naar je luistert en een passend antwoord geeft. Een virtuele assistent die jouw emoties begrijpt en zijn gedrag aanpast aan jouw state of mind.

Je computer leerde praten

Het maken van klanken om zo spraak te imiteren wordt met een moeilijk woord spraaksynthese genoemd. De eerste machines die dit konden werden al in de jaren 50 van de vorige eeuw ontwikkeld. De eerste computer die volledige tekst automatisch kon voorlezen was klaar in 1968. Deze logge apparaten waren verre van geschikt voor het gebruik door consumenten.


De echte evolutie van “text-to-speech” (TTS) werd gedreven door de behoefte om computers voor iedereen toegankelijk te maken. In het bijzonder voor mensen met een visuele beperking. Zij zouden kunnen begrijpen wat er in beeld stond, zelfs als het voor hen niet zichtbaar was. Bovendien zag de Amerikaanse krijgsmacht de potentie van gesproken informatie voor piloten. Diverse overheidscontracten gaven deze technologie een impuls.

Waarschijnlijk de bekendste toepassing van TTS is de stemcomputer van professor Stephen Hawking. Hij gebruikte sinds 1998 het systeem van Speech Plus. Deze stem werd onlosmakelijk met hem verbonden en hij besloot nooit over te stappen. Hoor je de onmiskenbare stem al terwijl je dit leest?

De vraag is, “wat is Watson?”

Watson is de naam van de supercomputer die IBM heeft ontwikkeld. ‘Hij’ leerde om een gesproken vraag te begrijpen en in zijn gegevens razendsnel te zoeken naar het juiste antwoord. Watson is in deze reeks een beetje een vreemde eend in de bijt. Bij Cloud AI oplossingen speelt het internet een belangrijke rol. Watson is autonoom en gebruikt alleen de informatie die hem vooraf is gevoed. Zoveel feitelijke kennis is natuurlijk super handig bij een quiz. Daarom liet IBM Watson in 2011 meedoen aan het populaire televisiespel Jeopardy! In dit spel wordt het antwoord gegeven en stellen de kandidaten de bijbehorende vraag. Watson nam het op tegen de twee beste spelers die ooit aan het programma hadden deelgenomen.

Inmiddels is Watson de naam van het volledige AI programma van IBM en leerde het een aantal nieuwe trucjes. Zo kan Watson spreken in diverse accenten en talen, maar nu is zelfs de toon, het timbre en de valse lucht te beïnvloeden. Zo kan hij tot je spreken in een stem die je het meest bevalt. Hieronder zie je tussen de tekst stukjes code die de uitspraak beïnvloeden. Luister naar het geluidsfragment en hoor zelf hoe dat klinkt.

Hello! I’m Allison, but you can change my voice however you wish. <voice-transformation type=”Custom” glottal_tension=”-80%”> For example, you can make my voice a bit softer, </voice-transformation> <voice-transformation type=”Custom” glottal_tension=”40%” breathiness=”40%”> or a bit strained. </voice-transformation><voice-transformation type=”Custom” timbre=”Breeze” timbre_extent=”60%”> You can alter my voice timbre making me sound like this person, </voice-transformation> <voice-transformation type=”Custom” timbre=”Sunrise”> or like another person in your different applications. </voice-transformation><voice-transformation type=”Custom” breathiness=”90%”> You can make my voice more breathy than it is normally. </voice-transformation><voice-transformation type=”Young” strength=”80%”> I can speak like a young girl. </voice-transformation><voice-transformation type=”Custom” pitch=”-30%” pitch_range=”80%” rate=”60%” glottal_tension=”-80%” timbre=”Sunrise”> And you can combine all this with modifications of my speech rate and my tone. </voice-transformation>1

  1:https://text-to-speech-demo.ng.bluemix.net

Je computer leerde luisteren

De ambitie om computers te laten luisteren begon ongeveer tegelijk met het spreken van de eerste woordjes. In 1952 ontwikkelde Bell Laboratories het “Audrey” systeem. Zij herkende alleen getallen én slechts 1 stem. Het zou tot 1962 duren voor IBM op de wereldtentoonstelling zijn “Shoebox” presenteerde. Deze machine was in staat 16 woorden te herkennen. Alleen in het Engels uiteraard. In de jaren 70 heeft DARPA, gefinancierd door het Amerikaanse ministerie van Defensie, het “Harpy” systeem ontwikkeld. Harpy was in staat zo’n 1.000 woorden te herkennen, vergelijkbaar met een kind van 3. Het systeem was belangrijk omdat het een nieuwe technologie introduceerde om gesproken tekst te vergelijken met bekende woorden en zinnen. Het opende de deur voor het “verborgen Markov model”. Dit model vergeleek de tekst niet alleen, maar voorspelde ook wat de meest waarschijnlijke overeenkomst was. Om met deze systemen te werken moest je wel duidelijk articuleren.

Commerciële toepassingen voor bedrijven en consumenten deden in de jaren 90 hun intrede. Dragon introduceerde hun eerste toepassing die maar liefst 9.000 dollar koste. Enkele jaren later kwam een nieuwe versie uit waarbij je normaal kon dicteren… zonder… pauze… na… ieder… woord… De gebruiker moest het programma wel trainen en met een slordige 700 euro was het nog altijd verre van goedkoop. Echter, bij deze prijs en met deze kwaliteit ontstond voor receptionistes, advocaten en artsen een serieus alternatief voor het typen van een verslag. Bedenk bovendien dat in de late jaren negentig nog steeds veel mensen schreven en amper aan het typen gewend waren.

De interesse in deze technologie groeit. Mensen kunnen nu eenmaal veel sneller spreken dan ze typen. Met de groeiende betrouwbaarheid van het systeem wordt spreken een volwaardig alternatief, maar het is nog niet voor iedereen toegankelijk. Door de komst van de Cloud is dat fundamenteel veranderd. De rekenkracht om stemmen snel om te zetten in tekst is vrijwel oneindig. Bovendien praten er op grote schaal steeds meer mensen tegen hun apparaten. Zo worden dialecten en zelf spraakgebreken herkend en vertaald naar de juiste tekst. Niet langer maken de woorden de dienst uit, maar de klank, het volume en de uitspraak. Alles wordt gevoed in het zelflerende model. Verwacht daarom steeds minder fouten in deze technologie.

Natuurlijke interactie

Nu onze computers en smartphones kunnen luisteren en spreken, opent er een interessante nieuwe wereld. Een waarbij iedereen vrijwel vloeiend in alle talen kan communiceren. Zo introduceerde Google op 4 februari 2019 twee nieuwe apps. Een daarvan grijpt terug op de eerste motieven voor spraak en spraakherkenning. Volgens de Wereld Gezondheidsorganisatie zijn er in 2055 ongeveer 900 miljoen mensen met (in enige mate) beperkt gehoor. Daarom zet Google haar technologie in om gespreken te horen, ruis te onderdrukken en via normale oordopjes of een koptelefoon te versterken. Net als een gehoorapparaat. Bovendien kan van de opgenomen tekst automatisch een transcriptie gemaakt worden, voor de mensen die helemaal niet kunnen horen.

Verliefd dankzij je spraakassistent

De taal van de liefde is universeel, maar wat als jouw amoureuze gevoel wordt uitgedrukt in het Engels terwijl jou vakantieliefde Italiaans spreekt? Het overkwam de 23 jarige Chloe Smith uit Wolverhampton, Engeland. Op Ibiza werd ze smoorverliefd op Daniele Marisco uit Italië. De een sprak amper Engels, de ander geen Italiaans. Het koppel gebruikte bijna 2 jaar de vertaalapp van Google om te communiceren.

Google perfectioneerde zijn vertaalprogramma. Voorheen schreef je jouw tekst en vertaalde de app deze voor je. Nu gaat dat bijna real-time. Stel, je spreekt met iemand in het Nederlands, maar de toehoorder spreekt enkel Engels. De google assistent luistert naar jouw uitspraak en spreekt jouw zinnen na in de taal van jouw keuze. Vanzelfsprekend werkt dit ook andersom. Zie het maar als jouw persoonlijke vertaler. Wil je het nog een stapje futuristischer? Zet dan een zogenaamde ‘noise cancelling headphone’. De microfoon van jouw koptelefoon neemt de stem van jouw gesprekspartner op. De app, die gekoppeld is aan jouw headset, vertaalt de zinnen en jij hoort jouw eigen taal in je koptelefoon.

Wie heb ik aan de lijn, hallo, hallo?

Je kent het wel, je belt een nummer en krijgt een bandje. Soms vraagt deze met wie je wil spreken om je vervolgens door te verbinden. 15 Jaar geleden zagen we hier de eerste voorbeelden van. De technologie was toen nog onbetrouwbaar en voor veel mensen werd dit een frustrerende ervaring. Inmiddels zijn we veel verder en kun je zodanig spreken dat je bijna niet door hebt dat het een computer is. Dit is waar de Turingtest om de hoek komt kijken die al in 1936 door Alan Turing werd beschreven. In dit experiment moet de testpersoon achterhalen of deze spreekt met een mens, of met een computer. Waar dit oorspronkelijk in de vorm van een chatgesprek ging, kan deze test tegenwoordig volledig in spraak worden gedaan.

Je hoeft een computer al lang niet meer te bellen voor een babbeltje. Voor je het weet bellen ze jou. In deze video’s zie je hoe Google een uitgaand gesprek voert met een kapsalon om voor jou een afspraak te plannen. Daarnaast zie je het Genesys programma dat is ontwikkeld op dezelfde AI. Hier belt een klant naar een bedrijf en wordt net zo te woord gestaan als door een mens.


Computers en smartphones die spreken en luisteren hebben een enorme invloed op bestaande businessmodellen. Denk maar eens aan callcenters. Google ontwikkelt een platform voor bedrijven om callcenters hypermodern in te richten. Een centrale kennisbank met informatie wordt gebruikt om klanten die bellen geautomatiseerd een antwoord te geven op hun vraag. Bovendien gebruiken de online chatbots deze kennis in hun vol automatische gesprekken. Alleen wanneer de klant op deze wijze niet tot het gewenste antwoordt komt, wordt hij of zij doorgeschakeld naar een mens. Deze vult de kennisbank aan met de informatie, zodat de volgende keer wél een automatisch antwoord gegeven kan worden.

Jij begrijpt mij Siri

Voor veel mensen is het ondenkbaar dat ze over een tijdje uitgebreide gesprekken voeren met een computer. Voice assistenten combineren het luisteren en praten. Zo ontstaat er interactie in twee richtingen. Is de opkomst nog wel te stuiten?

Misschien herinner je dit iconische filmpje nog over de introductie van de mobiele telefoon? Als lezer van dit artikel ben je waarschijnlijk niet representatief bent voor de adoptie van technologie. Kijk daarom eens naar je ouders. Zij hobbelen driftig afkeurend in het kielzog van de early adopters mee. Na vijf jaar weerstand hebben óók zij een Netflix account en mag je stellen dat deze technologie mainstream is geworden.

In 2014 kwam in Nederland de film ‘Her’ uit met Joaquin Phoenix in de hoofdrol. Schrijver en regisseur Spike Jonze won een Oscar voor dit meesterwerk waarin een eenzame schrijver gevoelens ontwikkelt voor zijn sprekende computer (Scarlett Johansson).


Deze film geeft een futuristisch beeld van feilloze spraaktechnologie. Zo lang het om geformuleerde opdrachten en commando’s gaat is dit al binnen handbereik. Echter, verliefdheid gaat om emoties en over het (h)erkennen van emoties bij een ander. Dit is de heilige graal voor ‘voice assistants’. Wanneer deze uitingen kunnen interpreteren en hun handelen hier op aanpassen, kan de gebruiker een emotionele band ontwikkelen. Net als in de film. In onze blogpost over gezichtsherkenning lees je hoe Google emotionele uitdrukkingen weet te herkennen in beeld.

Emoties kleuren de taal en fungeren als een noodzakelijk ingrediënt voor natuurlijke tweeweg-mens-naar-mens communicatie en interactie. Als luisteraars reageren we ook op de emotionele toestand van de spreker en passen we ons gedrag aan, afhankelijk van wat voor soort emoties de spreker uitzendt. Recente technologische vooruitgang heeft het voor de mens mogelijk gemaakt om met de computer in wisselwerking te staan ​​via niet-traditionele modaliteiten (bijvoorbeeld toetsenbord, muis) zoals stem, gebaar, gezichtsuitdrukking enz. Deze interactie mist nog steeds de component van emoties. Er wordt geargumenteerd dat om een ​​affectieve menselijke computer-intelligente interactie echt tot stand te brengen, de computer op een natuurlijke manier interactie met de gebruiker moet hebben, vergelijkbaar met de manier waarop mens-menselijke interactie plaatsvindt. Er zijn verschillende onderzoeken uitgevoerd die bestaan ​​uit klassieke menselijke interactie en uit menselijke computerinteractie. Ze concludeerden dat voor intelligente interactie emoties een belangrijk ingrediënt spelen. Een baby leert emotionele informatie te herkennen alvorens semantische informatie in de uiting van zijn / haar moeder te begrijpen.


Khanna P., Sasikumar M. (2011) Recognizing emotions from human speech. In: Pise S.J. (eds) Thinkquest~2010. Springer, New Delhi

Deze tekst is geautomatiseerd vertaald door Google. We hebben er bewust geen aanpassingen in gedaan zodat je kunt oordelen hoe betrouwbaar deze vertaling in jouw ogen is. Het originele fragment vind je hier.

Zodra computers emoties begrijpen doet zich een interessant dilemma voor. Dit probleem werd al beschreven in het boek ‘Do androids dream of electric sheep’ van Philip K. Dick. In dit boek zijn androids (menselijke robots) niet meer te onderscheiden van mensen. De hoofdpersoon maakt gebruik van de fictieve Voigt-Kampff test om empathie te meten. Hierdoor vallen de robots voortdurend door de mand, tot de nieuwste versie Nexus-6 zijn intrede doet. Vanaf dat moment is de android de test te slim af. Komt dit verhaal je bekend voor? De film Blade Runner is gebaseerd op het boek dat al in 1969 verscheen. Een knap staaltje toekomstvisie, hoewel we – in tegenstelling tot Dick’s visie – nog altijd niet in vliegende auto’s forenzen.  

Wat betekent spraaktechnologie voor een softwarebedrijf als MSML?

Automatiseren draait om het versnellen van bestaande, of het mogelijk maken van nieuwe processen met technologie. Software geeft ons de mogelijkheid om grote hoeveelheden data te analyseren, bewerken en op te slaan. Mede dankzij de komst van de Cloud is het vermogen om data te analyseren en zo nieuwe inzichten te krijgen enorm gegroeid. Hoewel we nu online of op onze smartphone werken, is er in essentie weinig veranderd in de afgelopen 30 jaar. De machine presenteert informatie op het scherm en de mens gebruikt een toetsenbord, muis of touchscreen om commando’s te geven. We noemen deze visuele weergave een interface.

Nu computers hebben geleerd om te spreken en luisteren zullen we dit in steeds meer apparaten terugzien. Smart speakers doen hun intrede in huis en bedienen je lampen, televisie en zelfs de thermostaat. Mens en machine wisselen van gedachte, zonder dat daar een scherm, of toetsenbord aan te pas komt. Voor het eerst in lange tijd ontstaat een compleet nieuwe manier om te interacteren met elektronica.

Als softwarebedrijf bestaat een aanzienlijk deel van onze tijd uit het ontwerpen en ontwikkelen van interfaces. Dat zal altijd zo blijven, maar een deel van de visuele interactie gaat over naar spraak. De komende tijd zullen we zien dat opdrachtgevers experimenteren door spraakfuncties te introduceren in de ‘traditionele’ visuele interface van een webapplicatie of mobiele app. Op termijn zal spreken voor bepaalde doeleinden een volwaardig alternatief zijn en neemt het belang van de visuele interactie af. Wij experimenteren volop met deze technologie om zo een toonaangevende rol te houden in de ontwikkeling van maatwerk oplossingen.

Marcel Letink, Managing Director
Marcel Letink
Managing Director

Bij MSML staan we voor je klaar.

Kan jouw organisatie ook slimmer, sneller of efficiënter werken?