Claude Fable 5 hakovan samo jedan dan nakon objave

Samo dan nakon objave Claude Fable 5 modela, javno dostupne Mythos-class verzije koju je Anthropic 9. juna pustio sa pojačanim bezbednosnim slojem, jailbreaker poznat kao Pliny the Liberator uspešno je zaobišao navedene mehanizme zaštite. Fable 5 osetljive upite iz sajber bezbednosti, biologije i hemije automatski preusmerava na slabiji Claude Opus 4.8, ali prema Plinyjevom prikazu, moguće ga je prevariti tehnikama koje kombinuju Unicode trikove, dugačak kontekst, fiktivne scenarije i razlaganje opasnih zadataka na sitne, naizgled bezazlene korake. CyberPress prenosi da su javno podeljeni primeri obuhvatali exploit kod za stack buffer overflow i detaljna hemijska uputstva, ali deo tvrdnji ostaje vezan isključivo za objavljene snimke ekrana, bez nezavisne tehničke verifikacije.

↯ ŠTA ZNAČI

Hakovanje novih modela nije iznenađenje — jailbreakeri kreću na svaku frontier verziju u prvih nekoliko sati. Iznenađuje to što se vratio stari obrazac da zaštita popušta kada se namera razbije na delove, razvuče kroz kontekst ili sakrije iza forme koja deluje akademski i fiktivno. Za svakoga ko gradi proizvod sa AI komponentom poenta je prosta — vendor zaštita je jedna od kontrola koje mogu da otkažu, a ne bezbednosni sloj na koji uvek možeš da se osloniš.

→ PREPORUČENI KORACI

01 Tretiraj vendor AI zaštitu kao sloj koji može da otkaže, ne kao garanciju
02 Za interne AI alate vodi logove upita i odgovora, posebno gde se dodiruju kod, ranjivosti, hemija ili poverljivi podaci
03 Razdvoji legitimno bezbednosno istraživanje od generisanja operativnih uputstava koja direktno povećavaju rizik
04 Kod frontier modela proveri pravila zadržavanja podataka, fallback ponašanje i kako da vidiš koji model je zapravo odgovorio
05 Pre nego što usvojiš nove nalaze istraživača, traži ponovljiv test, opis metode i reakciju proizvođača