← Sajber vesti
CP.STR.02 · SAJBER VESTI VEST · № ID0743
Vesti ↳ CyberPress

Claude Fable 5 hakovan samo jedan dan nakon objave

Samo dan nakon objave Claude Fable 5 modela, javno dostupne Mythos-class verzije koju je Anthropic 9. juna pustio sa pojačanim bezbednosnim slojem, jailbreaker poznat kao Pliny the Liberator uspešno je zaobišao navedene mehanizme zaštite. Fable 5 osetljive upite iz sajber bezbednosti, biologije i hemije automatski preusmerava na slabiji Claude Opus 4.8, ali prema Plinyjevom prikazu, moguće ga je prevariti tehnikama koje kombinuju Unicode trikove, dugačak kontekst, fiktivne scenarije i razlaganje opasnih zadataka na sitne, naizgled bezazlene korake. CyberPress prenosi da su javno podeljeni primeri obuhvatali exploit kod za stack buffer overflow i detaljna hemijska uputstva, ali deo tvrdnji ostaje vezan isključivo za objavljene snimke ekrana, bez nezavisne tehničke verifikacije.

↯ ŠTA ZNAČI

Hakovanje novih modela nije iznenađenje — jailbreakeri kreću na svaku frontier verziju u prvih nekoliko sati. Iznenađuje to što se vratio stari obrazac da zaštita popušta kada se namera razbije na delove, razvuče kroz kontekst ili sakrije iza forme koja deluje akademski i fiktivno. Za svakoga ko gradi proizvod sa AI komponentom poenta je prosta — vendor zaštita je jedna od kontrola koje mogu da otkažu, a ne bezbednosni sloj na koji uvek možeš da se osloniš.

→ PREPORUČENI KORACI

  1. 01 Tretiraj vendor AI zaštitu kao sloj koji može da otkaže, ne kao garanciju
  2. 02 Za interne AI alate vodi logove upita i odgovora, posebno gde se dodiruju kod, ranjivosti, hemija ili poverljivi podaci
  3. 03 Razdvoji legitimno bezbednosno istraživanje od generisanja operativnih uputstava koja direktno povećavaju rizik
  4. 04 Kod frontier modela proveri pravila zadržavanja podataka, fallback ponašanje i kako da vidiš koji model je zapravo odgovorio
  5. 05 Pre nego što usvojiš nove nalaze istraživača, traži ponovljiv test, opis metode i reakciju proizvođača