AI-voorspellingen26 februari 20264 min read

Eén biljoen tokens komt vóór perfect AI-geheugen

Een voorspelling voor 2028–2030: context van één biljoen tokens wordt praktisch, terwijl selectie, geheugen, herkomst, latency en aandacht moeilijker blijven.

Onze voorspelling is dat contextvensters van ongeveer één biljoen tokens tegen 2028 in gespecialiseerde systemen verschijnen en tegen 2030 commercieel bruikbaar worden voor bredere hoogwaardige toepassingen. Dat gebeurt waarschijnlijk voordat de meeste teams betrouwbaar langetermijngeheugen bouwen.

Dit betekent niet dat elke aanvraag één biljoen nuttige tokens bevat of dat een model aan elk token evenveel aandacht besteedt. Het is een voorspelling over adresseerbare capaciteit. Hardware, inferentiemethoden, gedistribueerd geheugen, caching en modelarchitectuur zullen het maximum verder verhogen, omdat grote vensters nieuwe waardevolle toepassingen mogelijk maken.

De moeilijkere vraag is wat een AI-systeem met die capaciteit hoort te doen.

Capaciteit is geen aandacht

Een database kan een miljard rijen bewaren zonder ze voor elke query allemaal te lezen. Context moeten we op dezelfde manier bekijken.

Dat een model één biljoen tokens accepteert, garandeert niet dat elk detail het antwoord even sterk beïnvloedt. Relevante informatie kan tussen enorme hoeveelheden ruis staan. Meerdere versies van een feit kunnen elkaar tegenspreken. Herhaalde tekst kan nadruk vervormen. De positie en structuur van informatie kunnen uitmaken.

Lange context vergroot de mogelijke werkset. Ze neemt de noodzaak om die werkset samen te stellen niet weg.

Economie bepaalt het gebruik

Zelfs wanneer een model een enorm venster ondersteunt, brengt herhaalde verwerking kosten mee:

Tijd om input te lezen, verzenden en tokeniseren.
Geheugen voor inferentie en attention state.
Kosten die providers aanrekenen.
Energieverbruik lokaal of in een datacenter.
Extra latency vóór de eerste nuttige output.

Prompt caching en herbruikbare prefixes kunnen herhaalde context goedkoper maken. Hiërarchische attention en retrieval kunnen werk verminderen. Maar een economisch verstandige architectuur stuurt nog steeds niet een volledige bedrijfsschijf wanneer de taak over drie actuele bestanden gaat.

Onze voorspelling voor 2028–2030

We verwachten dat de weg naar één biljoen tokens in fasen verloopt, niet via één plotselinge modelrelease.

Periode	Wat we verwachten
Tegen 2028	Gespecialiseerde systemen voor onderzoek, code, intelligence en ondernemingen bieden adresseerbare workspaces van één biljoen tokens via retrieval, caching, sparse attention en hiërarchische representaties
2028–2030	Providers verlagen latency en kosten voor herhaald werk over zulke ruimtes, terwijl toepassingen betere herkomstregistratie en contextinspectie bouwen
Tegen 2030	Capaciteit van één biljoen tokens wordt commercieel bruikbaar voor geselecteerde hoogwaardige toepassingen, hoewel de meeste afzonderlijke modelbeslissingen een veel kleinere actieve context gebruiken

Het onderscheid tussen een adresseerbare workspace en een actieve attention set wordt belangrijk. Een systeem kan één biljoen tokens beschikbaar maken zonder elk token bij elke stap met volledige aandacht te verwerken.

Grote context verandert software-interfaces

De eerste waarde verschijnt bij taken met een natuurlijk begrensde maar grote workspace:

Een volledige repository met build- en issuehistoriek.
Een lang juridisch dossier met contracten, bewijs en correspondentie.
Een onderzoekscollectie met papers, notities en datasets.
Een video- of vergaderarchief met transcripties en tijdstippen.
Een ontwerpproject met beslissingen verspreid over vele artefacten.

Toepassingen hebben contextkaarten nodig die tonen wat geladen, samengevat, weggelaten, verouderd of tegenstrijdig is. Gebruikers willen kritisch materiaal vastzetten, gevoelige bronnen uitsluiten en begrijpen waarom een antwoord de ene versie boven de andere gebruikte.

De context inspector kan even belangrijk worden als het chatvenster.

Geheugen blijft een ander probleem

Context is wat het model tijdens een uitvoering kan bereiken. Geheugen is het beleid dat bepaalt wat tussen uitvoeringen blijft bestaan.

Perfect geheugen vereist beslissingen over identiteit, toestemming, relevantie, correctie, verval en verwijdering. Het moet een blijvende voorkeur onderscheiden van een vluchtige gedachte. Het moet feiten bijwerken zonder historiek stilzwijgend te wissen. Het mag informatie uit het ene project niet naar het andere lekken.

Dat zijn product- en governanceproblemen, geen problemen met tokenlimieten.

Retrieval evolueert, maar verdwijnt niet

Met zeer grote vensters kan retrieval verschuiven van “vind vijf chunks” naar “selecteer regio's, samenvattingen en actieve versies uit een grote adresseerbare workspace”. Systemen kunnen brede context gecachet houden en het model dynamisch focussen op een kleinere beslissingsset.

De grens tussen retrieval en contextbeheer vervaagt. Herkomst wordt belangrijker, omdat gebruikers moeten weten welk deel van een enorme workspace een bewering ondersteunde.

Waarvoor wij zouden bouwen

Wij zouden een AI-platform niet rond één vaste contextlimiet ontwerpen. We zouden bouwen voor:

Modelonafhankelijke contextobjecten met bron- en rechtenmetadata.
Meerdere representaties van hetzelfde materiaal: ruw, geïndexeerd, samengevat en gecachet.
Expliciete regels voor bewaring en verval.
Een inspecteerbaar register van wat elk model werkelijk ontving.
Routing die privacy, kwaliteit, latency en kosten afweegt.

Dan worden grotere vensters een upgrade van de runtime, geen reden om het volledige product opnieuw te ontwerpen.

Onze voorspelling

Contexten van één biljoen tokens zullen tussen 2028 en 2030 indrukwekkende demo's mogelijk maken. De winnende systemen zijn nog steeds die welke voor elke beslissing minder tokens intelligent gebruiken.

Overvloedige capaciteit vermindert de waarde van context engineering niet. Ze vergroot die waarde, omdat de kost van verkeerde informatiekeuze stijgt met de beschikbare hoeveelheid.