Claude Fable 5 hakovan samo jedan dan nakon objave
Samo dan nakon objave Claude Fable 5 modela, javno dostupne Mythos-class verzije koju je Anthropic 9. juna pustio sa pojačanim bezbednosnim slojem, jailbreaker poznat kao Pliny the Liberator uspešno je zaobišao navedene mehanizme zaštite. Fable 5 osetljive upite iz sajber bezbednosti, biologije i hemije automatski preusmerava na slabiji Claude Opus 4.8, ali prema Plinyjevom prikazu, moguće ga je prevariti tehnikama koje kombinuju Unicode trikove, dugačak kontekst, fiktivne scenarije i razlaganje opasnih zadataka na sitne, naizgled bezazlene korake. CyberPress prenosi da su javno podeljeni primeri obuhvatali exploit kod za stack buffer overflow i detaljna hemijska uputstva, ali deo tvrdnji ostaje vezan isključivo za objavljene snimke ekrana, bez nezavisne tehničke verifikacije.
↯ ŠTA ZNAČI
Hakovanje novih modela nije iznenađenje — jailbreakeri kreću na svaku frontier verziju u prvih nekoliko sati. Iznenađuje to što se vratio stari obrazac da zaštita popušta kada se namera razbije na delove, razvuče kroz kontekst ili sakrije iza forme koja deluje akademski i fiktivno. Za svakoga ko gradi proizvod sa AI komponentom poenta je prosta — vendor zaštita je jedna od kontrola koje mogu da otkažu, a ne bezbednosni sloj na koji uvek možeš da se osloniš.
→ PREPORUČENI KORACI
- 01 Tretiraj vendor AI zaštitu kao sloj koji može da otkaže, ne kao garanciju
- 02 Za interne AI alate vodi logove upita i odgovora, posebno gde se dodiruju kod, ranjivosti, hemija ili poverljivi podaci
- 03 Razdvoji legitimno bezbednosno istraživanje od generisanja operativnih uputstava koja direktno povećavaju rizik
- 04 Kod frontier modela proveri pravila zadržavanja podataka, fallback ponašanje i kako da vidiš koji model je zapravo odgovorio
- 05 Pre nego što usvojiš nove nalaze istraživača, traži ponovljiv test, opis metode i reakciju proizvođača