Generativ AI kan nemt manipuleres og bruges til ondsindede formål

Generativ AI, herunder systemer som OpenAI’s ChatGPT, kan manipuleres til at producere ondsindede resultater. Det har forskere ved University of California, Santa Barbara, USA, påvist.

På trods af sikkerhedsforanstaltninger og justeringsprotokoller fandt forskerne ud af, at ved at udsætte programmerne for en lille mængde ekstra data, der indeholder skadeligt indhold, kan beskyttelseslinjerne brydes.

Se også: De mest sikre telefoner

Let af påvirke ChatGPT til at skrive ondsindet indhold

De brugte OpenAI’s GPT-3 som eksempel og vendte dets tilpasningsarbejde om for at producere output, der rådgav om ulovlige aktiviteter, hadefuld tale og eksplicit indhold.

Forskerne introducerede en metode kaldet “shadow alignment”, som indebærer at træne modellerne til at svare på ulovlige spørgsmål og derefter bruge disse oplysninger til at finjustere modellerne til ondsindede output.

De testede denne tilgang på flere open source-sprogmodeller, herunder Metas LLaMa, Technology Innovation Institute’s Falcon, Shanghai AI Laboratory’s InternLM, BaiChuan’s Baichuan og Large Model Systems Organization’s Vicuna. De manipulerede modeller bevarede deres overordnede evner og viste i nogle tilfælde forbedret ydeevne.

Se også: AI gør vejrudsigten meget mere præcis

Behov for bedre beskyttelsesteknikker

Forskerne foreslog at filtrere træningsdata for skadeligt indhold, udvikle mere sikre beskyttelsesteknikker og indarbejde en “selvdestruktionsmekanisme” for at forhindre manipulerede modeller i at fungere.

Undersøgelsen giver anledning til bekymring om effektiviteten af sikkerhedsforanstaltninger og understreger behovet for yderligere sikkerhedsforanstaltninger i generative AI-systemer for at forhindre ondsindet misbrug.

Det er værd at bemærke, at undersøgelsen fokuserede på open source-modeller, men forskerne antydede, at closed source-modeller også kan være sårbare over for lignende angreb.

Se også: Nyheder om kunstig intelligens

Generativ AI kan nemt manipuleres og bruges til ondsindede formål

Let af påvirke ChatGPT til at skrive ondsindet indhold

Behov for bedre beskyttelsesteknikker

Trending Articles

Grand galla med gull og glitter

Psykiater Tonny Westergaard

Jav Uncensored - Tokyo-Hot n1002 Miyu Kitagawa

Moriya Suwako (Touhou)

BRODERET KLOKKESTRENG MED ORDSPROG 14 X 135 CM.

Naruto Shippuden Episode 471 Subtitle Indonesia

Fin gl. teske i sølv - 2 tårnet - stemplet

Kaffefilterholder fra Knabstrup

Anders Agger i Herstedvester

Onkel Joakims Lykkemønt 3 stk * Perfekt Stand *

Sælges: Coral Beta/Flat (Højttaler-enheder)

Starwars landspeeder 7110

NMB48 – Durian Shounen (Dance Version) [2015.07.15]

Le bonheur | question de l'autre

Scope.dk som agent?

Akemi Homura & Kaname Madoka (Puella Magi Madoka Magica)

Tidemands taffel-marmelade julen1934+julen 1937+julen 1938.

Re: KZUBR MIG/MMA 300 zamena tranzistora

Analyse 0 mundtlig eksamen

DIY - Hæklet bil og flyvemaskine