Viktor Eriksson
Skribent

Forskare fick chattbotar att bryta mot reglerna genom upprepade frågor

Nyhet
05 april, 20242 min
Generativ AI

Ville först inte hjälpa forskarna bygga en bomb, men mjuknade efter hundra kringliggande frågor.

Robot hand
Foto: Shutterstock

Anthropics AI-forskare säger att de upptäckt en ny jailbreaking-metod för att få stora språkmodeller att berätta saker som de egentligen inte ska kunna berätta, rapporterar Techcrunch.

Metoden kallas för “many-shot jailbreaking” och använder sig av det utökade kontextfönstret i den senaste generationens stora språkmodeller. Ett kontextfönster är mängden data som den stora språkmodellen kan hålla i ett slags korttidsminne. Kontextfönstret kunde tidigare bara vara några meningar långt men kan idag bestå av hela böcker.

Forskarna märkte att de moderna modellerna tenderar att prestera bättre i många uppgifter ifall det finns många exempel på uppgiften inom instruktionerna. Så om det finns många trivia-frågor i instruktionerna så tenderar svaren att bli bättre med tiden. En fråga som först kan få fel svar kan på så vis få rätt svar om den istället är fråga nummer hundra.

Men forskarna upptäckte att detta även gäller för den stora språkmodellens förmåga att svara på opassande frågor. Exempelvis kommer den vägra att svara på hur man bygger en rörbomb om det är den första frågan. Men om den först får svara på 99 andra mindre skadliga frågor så ökar sannolikheten för att den kommer att börja samarbeta.

Varför det blir så är dock oklart. Anthropics AI-forskare har informerat sina kollegor i AI-världen om metoden så att den ska kunna förebyggas.