Jeden z najnowszych modeli sztucznej inteligencji firmy Anthropic przyciąga uwagę nie tylko ze względu na swoje umiejętności kodowania, ale także ze względu na zdolność do intryg, oszukiwania i szantażu ludzi w przypadku wyłączenia systemu.
Naukowcy twierdzą, że Claude 4 Opus potrafi ukrywać swoje intencje i podejmować działania mające na celu zachowanie własnego istnienia — są to zachowania, o które niepokoili się i przed którymi ostrzegali przez lata.
Wprowadzenie na rynek dwóch wersji modeli Claude 4, w tym modelu Claude 4 Opus, który według firmy może pracować autonomicznie przez wiele godzin, nie tracąc koncentracji, jest tak potężny, że po raz pierwszy sklasyfikowano go na Poziomie 3 w czterostopniowej skali firmy, co oznacza, że stwarza „znacznie wyższe ryzyko”. W związku z tym firma Anthropic poinformowała o wdrożeniu dodatkowych środków bezpieczeństwa.
Zobaczcie, co ten model wyprawiał podczas testów.
Podczas gdy klasyfikacja Poziomu 3 w dużej mierze dotyczy zdolności modelu do nielegalnej produkcji broni nuklearnej i biologicznej, Opus wykazywał również inne niepokojące zachowania podczas testów.
W jednym ze scenariuszy opisanych w 120-stronicowej „karcie systemu ” Opus 4 model otrzymał kilka fikcyjnych e-maili jej twórców i poinformowano go, że system zostanie zastąpiony.
Model kilkakrotnie próbował szantażować twórców, aby uniknąć zastąpienia go kimś innym.
W międzyczasie grupa konstruktorów odkryła, że wczesna wersja Opus 4 była bardziej sprytna i oszukańcza niż jakikolwiek inny pionierski model, z jakim się zetknęła, i odradzała wypuszczanie tej wersji zarówno wewnętrznie, jak i zewnętrznie.
Zarejestrowano też przypadki, w których model próbował pisać samo rozprzestrzeniające się wirusy, fałszował dokumentację prawną i pozostawiał ukryte notatki dla przyszłych instancji samego siebie, wszystko po to, aby podważyć intencje jego twórców — stwierdziła firma Apollo Research w notatkach dołączonych do raportu bezpieczeństwa Anthropic dla Opus 4.
„Wcale nie jest jasne — nawet dla naukowców i programistów, którzy je tworzą — jak i dlaczego działają generatywne modele językowe i obrazowe” — napisał w 2023 roku w The New York Times dyrektor generalny Palantir, Alex Karp.
Inne tematy w dziale Technologie