Generativ AI, herunder systemer som OpenAI’s ChatGPT, kan manipuleres til at producere ondsindede resultater. Det har forskere ved University of California, Santa Barbara, USA, påvist.
På trods af sikkerhedsforanstaltninger og justeringsprotokoller fandt forskerne ud af, at ved at udsætte programmerne for en lille mængde ekstra data, der indeholder skadeligt indhold, kan beskyttelseslinjerne brydes.
Se også: De mest sikre telefoner
Let af påvirke ChatGPT til at skrive ondsindet indhold
De brugte OpenAI’s GPT-3 som eksempel og vendte dets tilpasningsarbejde om for at producere output, der rådgav om ulovlige aktiviteter, hadefuld tale og eksplicit indhold.
Forskerne introducerede en metode kaldet “shadow alignment”, som indebærer at træne modellerne til at svare på ulovlige spørgsmål og derefter bruge disse oplysninger til at finjustere modellerne til ondsindede output.
De testede denne tilgang på flere open source-sprogmodeller, herunder Metas LLaMa, Technology Innovation Institute’s Falcon, Shanghai AI Laboratory’s InternLM, BaiChuan’s Baichuan og Large Model Systems Organization’s Vicuna. De manipulerede modeller bevarede deres overordnede evner og viste i nogle tilfælde forbedret ydeevne.
Se også: AI gør vejrudsigten meget mere præcis
Behov for bedre beskyttelsesteknikker
Forskerne foreslog at filtrere træningsdata for skadeligt indhold, udvikle mere sikre beskyttelsesteknikker og indarbejde en “selvdestruktionsmekanisme” for at forhindre manipulerede modeller i at fungere.
Undersøgelsen giver anledning til bekymring om effektiviteten af sikkerhedsforanstaltninger og understreger behovet for yderligere sikkerhedsforanstaltninger i generative AI-systemer for at forhindre ondsindet misbrug.
Det er værd at bemærke, at undersøgelsen fokuserede på open source-modeller, men forskerne antydede, at closed source-modeller også kan være sårbare over for lignende angreb.
Se også: Nyheder om kunstig intelligens