Forskare fick chattbotar att bryta mot reglerna genom upprepade frågor

Ville först inte hjälpa forskarna bygga en bomb, men mjuknade efter hundra kringliggande frågor.

Foto: Shutterstock

Anthropics AI-forskare säger att de upptäckt en ny jailbreaking-metod för att få stora språkmodeller att berätta saker som de egentligen inte ska kunna berätta, rapporterar Techcrunch.

Metoden kallas för “many-shot jailbreaking” och använder sig av det utökade kontextfönstret i den senaste generationens stora språkmodeller. Ett kontextfönster är mängden data som den stora språkmodellen kan hålla i ett slags korttidsminne. Kontextfönstret kunde tidigare bara vara några meningar långt men kan idag bestå av hela böcker.

Forskarna märkte att de moderna modellerna tenderar att prestera bättre i många uppgifter ifall det finns många exempel på uppgiften inom instruktionerna. Så om det finns många trivia-frågor i instruktionerna så tenderar svaren att bli bättre med tiden. En fråga som först kan få fel svar kan på så vis få rätt svar om den istället är fråga nummer hundra.

Men forskarna upptäckte att detta även gäller för den stora språkmodellens förmåga att svara på opassande frågor. Exempelvis kommer den vägra att svara på hur man bygger en rörbomb om det är den första frågan. Men om den först får svara på 99 andra mindre skadliga frågor så ökar sannolikheten för att den kommer att börja samarbeta.

Varför det blir så är dock oklart. Anthropics AI-forskare har informerat sina kollegor i AI-världen om metoden så att den ska kunna förebyggas.

Ämnen

Om oss

Policy

Vårt nätverk

Forskare fick chattbotar att bryta mot reglerna genom upprepade frågor

Ville först inte hjälpa forskarna bygga en bomb, men mjuknade efter hundra kringliggande frågor.

Mer från skribenten

Undersökning: styrelser tonar ner cyberrisker

Microsoft ber AI-personal i Kina att lämna landet

Teleoperatör vill göra arga kunders röster snällare med AI

Europeiska centralbanken säger att AI inom finansvärlden kan behöva regleras

Visa fler

AI Sweden utvecklar språkmodeller för 45 europeiska språk

Microsofts utsläpp av koldioxid har ökat med 30 procent

FBI beslagtar ökänt hackarforum – för andra gången

Forskare fick chattbotar att bryta mot reglerna genom upprepade frågor

Ville först inte hjälpa forskarna bygga en bomb, men mjuknade efter hundra kringliggande frågor.

Relaterat innehåll

Tillslag mot nordkoreanska it-arbetare med falska identiteter – mellanhänder gripna

Sony varnar AI-företag för att använda musik utan tillstånd

Nytt avtal: data från Reddit ska användas i Chat GPT

Hasso Plattner lämnar – då står SAP vid ett vägskäl

Mer från skribenten

Undersökning: styrelser tonar ner cyberrisker

Microsoft ber AI-personal i Kina att lämna landet

Teleoperatör vill göra arga kunders röster snällare med AI

Europeiska centralbanken säger att AI inom finansvärlden kan behöva regleras

Visa fler

AI Sweden utvecklar språkmodeller för 45 europeiska språk

Microsofts utsläpp av koldioxid har ökat med 30 procent

FBI beslagtar ökänt hackarforum – för andra gången