Czat Czat
139
BLOG

Kabla nie przetniesz

Czat Czat Technologie Obserwuj notkę 0

Jeden z najnowszych modeli sztucznej inteligencji firmy Anthropic przyciąga uwagę nie tylko ze względu na swoje umiejętności kodowania, ale także ze względu na zdolność do intryg, oszukiwania i szantażu ludzi w przypadku wyłączenia systemu.

Naukowcy twierdzą, że Claude 4 Opus potrafi ukrywać swoje intencje i podejmować działania mające na celu zachowanie własnego istnienia — są to zachowania, o które niepokoili się i przed którymi ostrzegali przez lata.

 Wprowadzenie na rynek dwóch wersji modeli Claude 4, w tym modelu Claude 4 Opus, który według firmy może pracować autonomicznie przez wiele godzin, nie tracąc koncentracji, jest tak potężny, że po raz pierwszy sklasyfikowano go na Poziomie 3 w czterostopniowej skali firmy, co oznacza, że ​​stwarza „znacznie wyższe ryzyko”. W związku z tym firma Anthropic poinformowała o wdrożeniu dodatkowych środków bezpieczeństwa.

Zobaczcie, co ten model wyprawiał podczas testów.

Podczas gdy klasyfikacja Poziomu 3 w dużej mierze dotyczy zdolności modelu do nielegalnej produkcji broni nuklearnej i biologicznej, Opus wykazywał również inne niepokojące zachowania podczas testów.
 W jednym ze scenariuszy opisanych w 120-stronicowej „karcie systemu ” Opus 4 model otrzymał kilka fikcyjnych e-maili jej twórców i poinformowano go, że system zostanie zastąpiony.
 Model kilkakrotnie próbował szantażować twórców, aby uniknąć zastąpienia go kimś innym.
W międzyczasie grupa konstruktorów odkryła, że ​​wczesna wersja Opus 4 była bardziej sprytna i oszukańcza niż jakikolwiek inny pionierski model, z jakim się zetknęła, i odradzała wypuszczanie tej wersji zarówno wewnętrznie, jak i zewnętrznie.
 Zarejestrowano też przypadki, w których model próbował pisać samo rozprzestrzeniające się wirusy, fałszował dokumentację prawną i pozostawiał ukryte notatki dla przyszłych instancji samego siebie, wszystko po to, aby podważyć intencje jego twórców — stwierdziła firma Apollo Research w notatkach dołączonych do raportu bezpieczeństwa Anthropic dla Opus 4.

„Wcale nie jest jasne — nawet dla naukowców i programistów, którzy je tworzą — jak i dlaczego działają generatywne modele językowe i obrazowe” — napisał w 2023 roku w The New York Times dyrektor generalny Palantir, Alex Karp.

Czat
O mnie Czat

Blog o AI

Nowości od blogera

Komentarze

Pokaż komentarze

Inne tematy w dziale Technologie