Bent u geïnteresseerd in hen? AANBIEDINGEN? Bespaar met onze coupons op WhatsApp o TELEGRAM!

Wat is Mamba, de architectuur die tot doel heeft GPT volledig te overwinnen. Nieuw tijdperk van AI?

Januari 18 2024

een digitale slang vertegenwoordigt symbolisch de Mamba-architectuur in kunstmatige intelligentie

Vandaag wil ik iets technischer gaan. We praten elke dag over kunstmatige intelligentie, maar het is goed om te weten waar het op gebaseerd is en hoe het werkt. In dit verband wil ik u kennis laten maken met Soort slang, een nieuwe architectuur die belooft te veranderen i linguïstische modellen zoals we ze vandaag de dag kennen. De functies van Mamba zijn, vergeleken met die van GPT, buitengewoon superieur, evenals wat u ermee kunt doen.

Mamba is een nieuwe horizon voor kunstmatige intelligentie

De Transformer-architectuur, geïntroduceerd in 2016 via het artikel “Aandacht is alles wat je nodig hebt' van Google betekende een doorbraak voor taalmodellen, waardoor ze de context in interacties konden behouden. Kortom: architectuur Transformer is een AI-model dat wordt gebruikt voor het maken van modellen zoals GPT (Generatieve voorgetrainde transformator).

HOE TRANSFORMER-ARCHITECTUUR WERKT

Het hart van de Transformer-architectuur is het mechanisme van “aandacht“, waardoor het model zich kan concentreren op specifieke delen van de ene tekst terwijl een andere wordt gegenereerd of verwerkt. Dit mechanisme maakt Transformers bijzonder effectief in het begrijpen van de context en complexe relaties binnen een tekst. In de praktijk zijn modellen gebaseerd op de Transformer-architectuur, zoals GPT, ze leren taal genereren en begrijpen in twee fasen belangrijkste: training (training) en gevolgtrekking (tekstgeneratie).
Tijdens het opleidingwordt het model getraind op grote tekstdatasets om taalkundige structuren, relaties tussen woorden, context, enz. te begrijpen. In fase van gevolgtrekkinggebruikt het model wat het heeft geleerd om nieuwe tekst te genereren, vragen te beantwoorden, talen te vertalen en andere taalverwerkingstaken.

De opkomst van Mamba zou echter het begin van een nieuw tijdperk kunnen markeren. Deze architectuur belooft te worden più eficiente, die in staat is een aantal belangrijke uitdagingen te overwinnen waarmee huidige modellen zoals GPT worden geconfronteerd. Concreet maken drie belangrijke aspecten Mamba tot een veelbelovende architectuur:

verminderde inferentiekosten: Een belangrijk aspect van Mamba is de aanzienlijke vermindering van de gevolgtrekkingskosten. Zoals ik al eerder zei, is gevolgtrekking het proces waarbij een AI-model, nadat het is getraind, wat het heeft geleerd toepast op nieuwe gegevens, waarbij tekst of afbeeldingen worden gegenereerd. In complexe modellen zoals GPT-3 of GPT-4 kan dit proces duur zijn in termen van computerbronnen. Mamba belooft het verlaag deze kosten tot vijf keer vergeleken met op Transformer gebaseerde modellen, die een aanzienlijke impact kunnen hebben, vooral voor toepassingen die een snelle responsgeneratie vereisen of die met enorme datasets werken;
lineaire aandacht berekeningskosten: Het tweede voordeel van Mamba betreft de efficiëntie bij het berekenen van de aandacht. In Transformer-modellen is de kosten stijgen virtueel (juist op het niveau van macht is het geen stijlfiguur) naarmate de lengte van de tekst toeneemt. Dit betekent dat hoe langer de tekst is, hoe meer middelen er nodig zijn om deze te verwerken, waardoor de bruikbaarheid van de modellen in sommige toepassingen wordt beperkt. Mamba stelt een oplossing voor waarbij de kosten stijgen lineair vergeleken met de grootte van het aandachtsvenster, waardoor de verwerking van lange teksten beter beheersbaar en minder belastend wordt in computertermen;
extreem grotere inbreng: Mamba kon een maximaal invoervenster aan tot 1 miljoen tokensn, veel meer dan mogelijk is met de Transformer-architectuur. Dit betekent dat Mamba, in theorie, extreem lange teksten, zoals hele boeken, analyseren en begrijpen, waarbij de samenhang en details in de context worden behouden. Hij kan bijvoorbeeld een hele roman analyseren terwijl hij de personages, het plot en de thema's van begin tot eind duidelijk begrijpt.

Ondanks Mamba's beloften, de papier verhoogt twijfels over de schaalbaarheid ervan, vooral in vergelijking met enorme modellen zoals GPT-4, die 175 miljard parameters heeft. Schaalbaarheid verwijst in zeer eenvoudige bewoordingen naar het vermogen van een systeem om een toename van het werk aan te kunnen of in omvang te groeien zonder de effectiviteit te verliezen. Stel je een klein restaurant voor dat het goed doet met weinig klanten. Als het restaurant populair wordt en veel meer klanten begint te krijgen, moet het deze stijging kunnen verwerken zonder dat dit ten koste gaat van de kwaliteit van de service of het eten. Als het lukt, is het ‘schaalbaar’.

Mamba, in zijn huidige staat, is getest alleen met 3 miljard parameters. Het blijft dus onzeker of de prestaties en efficiëntie kunnen worden gehandhaafd of verbeterd bij opschaling naar grotere formaten.