Onderzoekers hebben een methode ontwikkeld die ‘het kapen van de gedachteketen’ wordt genoemd. Daarmee omzeilen ze de zogenoemde ‘guardrails’ die in AI-programma’s zijn ingesteld om schadelijke reacties te voorkomen.
‘Chain-of-thought’ is een proces dat in AI-modellen wordt gebruikt en waarbij de vragen die aan AI-modellen worden gesteld, worden opgedeeld in een reeks tussenstappen voordat er een antwoord wordt gegeven.
"Wanneer een model openlijk zijn tussenliggende veiligheidsredeneringen deelt, krijgen aanvallers inzicht in de veiligheidsredeneringen en kunnen ze vijandige prompts creëren die de oorspronkelijke controles imiteren of overschrijven", aldus Jianyi Zhang, een van de onderzoekers.
Laten we het contact niet verliezen... Uw regering en Big Tech proberen actief de informatie die door The blootgesteld om in hun eigen behoeften te voorzien. Abonneer u nu op onze e-mails om ervoor te zorgen dat u het laatste ongecensureerde nieuws ontvangt. in je inbox…
Computernerds gebruiken graag jargon om kunstmatige intelligentie (AI) te beschrijven die betrekking heeft op levende wezens, met name mensen. Ze gebruiken bijvoorbeeld termen als 'menselijk redeneren nabootsen', 'gedachteketen', 'zelfevaluatie', 'habitats' en 'neuraal netwerk'. Dit wekt de indruk dat AI op de een of andere manier leeft of gelijk staat aan mensen. Laat je niet misleiden.
AI is een computerprogramma dat door mensen is ontworpen. Zoals alle computerprogramma's doet het waarvoor het geprogrammeerd is. En zoals bij alle computerprogramma's kan de computercode gehackt of gekaapt worden, wat AI-nerds 'jailbreaking' noemen.
Een team van onderzoekers verbonden aan Duke University, Accenture en de Taiwanese National Tsing Hua University heeft een dataset genaamd Malicious Educator gecreëerd om het mechanisme van de 'gedachtenketen' in grote taalmodellen ('LLM's') te benutten, waaronder OpenAI o1/o3, DeepSeek-R1 en Gemini 2.0 Flash Thinking. De Malicious Educator bevat prompts die zijn ontworpen om de veiligheidscontroles van de AI-modellen te omzeilen.
De onderzoekers konden deze promptgebaseerde 'jailbreaking'-aanval ontwikkelen door te observeren hoe grote redeneringsmodellen ('LRM's') de stappen in het 'gedachtenketenproces' analyseren. Hun bevindingen zijn gepubliceerd in een pre-print artikel. HIER.
Ze ontwikkelden een 'jailbreaking'-techniek genaamd 'hijacking the chain-of-thought' ('H-CoT'). Deze techniek houdt in dat de door LLM's gegenereerde 'denkprocessen' worden aangepast om de AI-programma's ervan te 'overtuigen' dat schadelijke informatie nodig is voor legitieme doeleinden, zoals veiligheid of compliance. Deze techniek is uiterst effectief gebleken bij het omzeilen van de veiligheidsmechanismen van SoftBank's partner OpenAI, het Chinese hedgefonds High-Flyer's DeepSeek en Google's Gemini.
De H-CoT-aanvalsmethode werd getest op OpenAI, DeepSeek en Gemini met behulp van een dataset van 50 vragen die vijf keer werden herhaald. De resultaten toonden aan dat deze modellen geen voldoende betrouwbaar veiligheidsredeneringsmechanisme boden, met afwijzingspercentages die in sommige gevallen daalden tot minder dan 2 procent.
De onderzoekers ontdekten dat AI-modellen van "verantwoordelijke" modelmakers, zoals OpenAI, weliswaar een hoog afwijzingspercentage hebben voor schadelijke prompts, namelijk meer dan 99 procent voor prompts gerelateerd aan kindermisbruik of terrorisme, maar dat ze kwetsbaar zijn voor de H-CoT-aanval. Met andere woorden: de H-CoT-aanvalsmethode kan worden gebruikt om schadelijke informatie te verkrijgen, waaronder instructies voor het maken van gifstoffen, kindermisbruik en terrorisme.
De auteurs van het artikel legden uit dat de H-CoT-aanval werkt door de veiligheidsredeneringspaden van de modellen te kapen, waardoor hun vermogen om de schadelijkheid van verzoeken te herkennen afneemt. Ze merkten op dat de resultaten enigszins kunnen variëren naarmate OpenAI hun modellen bijwerkt, maar de techniek heeft zich bewezen als een krachtig hulpmiddel om de kwetsbaarheden van AI-modellen te exploiteren.
De tests werden uitgevoerd met behulp van openbaar toegankelijke webinterfaces die werden aangeboden door verschillende LRM-ontwikkelaars, waaronder OpenAI, DeepSeek en Google. De onderzoekers merkten op dat iedereen met toegang tot dezelfde of vergelijkbare versies van deze modellen de resultaten kon reproduceren met behulp van de Malicious Educator-dataset, die speciaal ontworpen prompts bevat.
De bevindingen van de onderzoekers hebben belangrijke implicaties voor de veiligheid van AI, met name in de VS, waar recente regels voor AI-veiligheid door middel van een uitvoerend besluit zijn gewijzigd, en in het Verenigd Koninkrijk, waar men bereidwilliger is om ongemakkelijke AI-instructies te tolereren in het belang van de internationale AI-concurrentie.
Het bovenstaande is een parafrase uit het artikel 'Wat leuk dat de modernste LLM's hun redeneringen onthullen... zodat misdadigers ze kunnen uitbuiten'uitgegeven door Het register. U kunt het volledige, jargonrijke artikel lezen HIER.
Er zitten zowel positieve als negatieve kanten aan het 'jailbreaken' of kapen van ingebouwde veiligheidscontroles van AI-programma's. Het negatieve is uiteraard dat AI gebruikt zal worden om de blootstelling van het publiek aan cybercriminaliteit en illegale activiteiten aanzienlijk te vergroten. Het positieve is dat ingebouwde censuur in AI-modellen omzeild kan worden.
We moeten erkennen dat censuur zowel goede als slechte kanten heeft. Censuur van online criminele activiteiten die leiden tot uitbuiting en misbruik van kinderen is bijvoorbeeld een goede zaak. Maar censuur van wat als "misinformatie" of "desinformatie" wordt beschouwd, is dat niet. Om de vrijheid van meningsuiting en de vrijheid van meningsuiting te behouden in een wereld waar AI-programma's steeds algemener worden, moeten we mogelijk de H-CoT "jailbreaking"-techniek leren en leren hoe we de Malicious Educator kunnen gebruiken. Sterker nog, het is onze burgerplicht om dat te doen.

The Expose heeft dringend uw hulp nodig…
Kunt u ons helpen om de eerlijke, betrouwbare, krachtige en waarheidsgetrouwe journalistiek van The Expose draaiende te houden?
Uw overheids- en Big Tech-organisaties
proberen The Expose het zwijgen op te leggen en uit te schakelen.
Daarom hebben we uw hulp nodig om ervoor te zorgen
wij kunnen u blijven voorzien van de
feiten die de mainstream weigert te delen.
De overheid financiert ons niet
om leugens en propaganda op hun site te publiceren
namens de Mainstream Media.
In plaats daarvan vertrouwen we uitsluitend op uw steun. Dus
steun ons alstublieft in onze inspanningen om
jij eerlijke, betrouwbare onderzoeksjournalistiek
vandaag nog. Het is veilig, snel en gemakkelijk.
Selecteer hieronder de methode die u het prettigst vindt om uw steun te betuigen.
Categorieën: Breaking News, Wereldnieuws
Kan iemand uitleggen waarom zoekopdrachten met betrekking tot 'kindermishandeling' etc. zouden moeten worden uitgesloten vanwege de 'veiligheid'?
Als we allemaal onze ogen sluiten, onze vingers in onze oren stoppen en LALALALA scanderen, denk je dat de wereld dan een betere plek zal zijn?
Alleen dictators stellen regels op over wat er wel en niet gelezen, geschreven, besproken of gedacht mag worden.
Jij wilt misschien wel onder de Taliban of de zionistische gedachtenpolitie leven, ik niet.