
In de dynamische wereld vanhandigheid artificialeworden toonaangevende technologiebedrijven geconfronteerd met een onverwachte uitdaging die het innovatietempo zou kunnen vertragen: de groei moeite met het vinden van gegevens van kwaliteit voor het trainen van hun modellen. Dit datatekort heeft invloed op de ontwikkeling van geavanceerde technologieën zoals GPT-5, terwijl bedrijven van het kaliber Microsoft en OpenAI innovatieve oplossingen zoeken om dit obstakel te overwinnen.
Uitdagingen voor AI-training: Er is een honger naar data en dit vertraagt de voortgang
In een tijdperk dat wordt gekenmerkt door een ongekende toename van de rekenkracht en de vooruitgang van machinale leertechnieken, worden OpenAI en zijn soortgenoten geconfronteerd met een paradox: De overvloed aan online data vertaalt zich niet automatisch in een bruikbare bron voor AI-training. De nauwkeurige gegevens nodig, relevant en up-to-date is belangrijker dan ooit, vooral als het gaat om het trainen van steeds complexere modellen zoals de geplande GPT-5.
De overgang van GPT-4 naar GPT-5 illustreert deze exponentiële groei in de vraag naar data: terwijl de eerste “slechts” 12 biljoen tokens nodig had, liggen de schattingen voor de opvolger rond 60-100 biljoen. De discrepantie tussen de beschikbaarheid en de behoefte aan gegevens van hoge kwaliteit blijkt een aanzienlijk obstakel te zijn tekort dat kan variëren van 10 tot 20 biljoen tokens.

Dit tekort aan kwaliteitsgegevens vertaalt zich in een echt knelpunt voor de vooruitgang van AI. De vaak verouderde gegevens of gegevens van lage kwaliteit die het internet bevolken, vormen een ernstige bedreiging grens voor de effectiviteit van machinaal leren. Bovendien verergeren de beperkingen die worden opgelegd door de toegang tot gegevens door grote platforms het probleem alleen maar, waardoor de beschikbare middelen voor training verder worden beperkt linguïstische modellen.
Als reactie op deze uitdaging variëren de toegepaste strategieën van technische innovaties tot strategische partnerschappen. OpenAI heeft bijvoorbeeld tot doel demet behulp van audio- en videogegevens via de Whispe-spraakherkenningstoolr, om de pool van beschikbare gegevens uit te breiden. Tegelijkertijd onderzoekt het bedrijf de mogelijkheid van synthetische data genereren van kwaliteit die kan dienen om de bestaande leemte op te vullen.