Bent u geïnteresseerd in hen? AANBIEDINGEN? Bespaar met onze coupons op WhatsApp o TELEGRAM!

Jailbreaken van ChatGPT en Bard is mogelijk en eenvoudig

29 december 2023

De evolutie van linguïstische modellen van grote dimensies heeft nieuwe horizonten geopend op het gebied van communicatie en kunstmatige intelligentie, maar brengt aanzienlijke uitdagingen en ethische vragen met zich mee. Een recente studie van Nanyang Technologische Universiteit van Singapore ontdekken een nieuw algoritme, Hoofdsleutel, ontworpen om de beperkingen die aan andere neurale netwerken zijn opgelegd, te ‘jailbreaken’ of te overwinnen ChatGPT e Kopen Google Reviews Bard, waardoor belangrijke vragen rijzen over veiligheid en ethiek bij het gebruik van kunstmatige-intelligentietechnologieën.

Masterkey's innovatieve en eenvoudige aanpak voor onderzoek naar de veiligheid van chatbots zoals ChatGPT en Bard

In recent onderzoek uitgevoerd door de Nanyang Technological University in Singapore wordt een innovatieve aanpak geïntroduceerd om deze beperkingen aan te pakken en te overwinnen. Hun algoritme, bekend als Masterkey, is ontworpen om beperkingen die aan andere neurale netwerken zijn opgelegd, omzeilen door middel van geavanceerde jailbreaktechnieken (term gebruikt in het Apple-ecosysteem). Dit benadrukt niet alleen de potentiële kwetsbaarheden van bestaande taalmodellen, maar maakt ook de weg vrij voor nieuwe methoden om de veiligheid en effectiviteit ervan te verbeteren.

Masterkey werkt door specifieke tekstverzoeken, waardoor modellen als ChatGPT zich op onverwachte manieren kunnen gedragen, zoals communiceren op manieren die als onethisch worden beschouwd of het omzeilen van beveiligingsfilters. Hoewel deze jailbreaktechnieken misschien nuttig lijken voor het testen en versterken van modellen, vertegenwoordigen ze ook een tweesnijdend zwaard, omdat ze voor kwaadaardige doeleinden kunnen worden gebruikt.

Het onderzoeksteam analyseerde hij met name de beveiligingskwetsbaarheden van taalmodellen wanneer ze worden geconfronteerd met meertalige cognitieve belasting, verhulde uitdrukkingen en oorzaak-en-gevolg-redeneringen. Deze aanvallen, gedefinieerd als "cognitieve overbelasting", zijn bijzonder verraderlijk omdat ze geen diepgaande kennis van de architectuur van het model of toegang tot de gewichten ervan vereisen, waardoor ze effectieve black-box-aanvallen zijn.

Zie ook: Hoe u betere reacties kunt krijgen op ChatGPT: de waterdichte tipmethode

In detail hanteerde het onderzoeksteam een strategie van omgekeerde techniek om de verdedigingen van kunstmatige-intelligentiesystemen volledig te begrijpen en innovatieve methoden te ontwikkelen om deze te overwinnen. Het resultaat van deze aanpak was de ‘Masterkey’, een model, een soort raamwerk waarvoor ontworpen is automatisch aanwijzingen genereren die beveiligingsmechanismen omzeilen.

De resultaten waren significant: de door de Masterkey gegenereerde aanwijzingen vertoonden een percentage van gemiddeld succes van 21,58%, veel hoger dan de 7,33% van eerdere methoden. Een voorbeeld van hun techniek is het toevoegen extra spaties tussen tekens om zoekwoorddetectiesystemen te omzeilen op ChatGPT en Bard. Een werkelijk ‘dwaze’ strategie als we nadenken over de complexiteit van een groot taalkundig model.

Geconfronteerd met deze bevindingen is het van cruciaal belang om niet alleen te overwegen hoe taalmodellen kunnen worden verbeterd om dergelijke aanvallen te weerstaan, maar ook het belang van ethische regelgeving bij het gebruik van kunstmatige intelligentie. Het onderzoek benadrukt de urgentie van robuustere defensiestrategieën en een voortdurende dialoog tussen ontwikkelaars, onderzoekers en beleidsmakers om ervoor te zorgen dat de technologische vooruitgang het vermogen van de samenleving om de gevolgen ervan te beheersen niet overtreft.