DeepMind, de Artificial Intelligence investering van Google, leert kunstmatige intelligentie om jaren ’80 Atari spelletjes te spelen zonder instructies. En ze zijn goed. Heel erg goed. Space Invaders, BreakOut en Video Pinball worden als instrument gebruikt om de systemen binnen een afgeschermde en beperkte omgeving te leren werken en scoren.
Ai systemen leren zonder instructie
De enige instructie die ze aan de zelflerende software geven is te proberen een zo hoog mogelijke score te behalen binnen een zo kort mogelijke tijd. Dan begint de software zonder enig beeld van het spel en het doel om gewoon te spelen. Gaandeweg leert het welk gedrag de score laat oplopen en welk gedrag Game Over geeft. Zo kan het duizenden spelletjes per dag spelen en ieder keer een heel klein beetje beter worden. Maar het gaat snel. Binnen een paar dagen continue spelen krijg je dit:
Het is bijna (of helemaal, nou ja helemaal) afschuwelijk om de efficiency van de Ai te zien. Er is geen move teveel en alles is raak.
Hoger doel
Maar er is een hoger doel. Vanuit Atari spelletjes legt DeepMind de basis voor systemen die ook in de echt wereld kunnen functioneren. Ook daar geldt trial en error, leren en verbeteren. Dat is natuurlijk ook de reden dat ze deze route lopen. Eerst een ‘kaart’ maken van de wereld en vervolgens leren wat je er kan doen. De algoritmes van DeepMind gebruiken een soort beloningssysteem voor de Ai om hem te laten zien dat een bepaalde volgorde van handelingen gewenst was. Een hogere score leidt tot een soort virtuele dopamine waarmee het systeem getriggerd wordt het goede gedrag te herhalen.
Ze noemen het systeem Osara. Dat staat voor Obervation, State inference, Action, Reward. En als het goed is gaat de cirkel weer terug naar Observation.