Kabla nie przetniesz

Jeden z najnowszych modeli sztucznej inteligencji firmy Anthropic przyciąga uwagę nie tylko ze względu na swoje umiejętności kodowania, ale także ze względu na zdolność do intryg, oszukiwania i szantażu ludzi w przypadku wyłączenia systemu.

Naukowcy twierdzą, że Claude 4 Opus potrafi ukrywać swoje intencje i podejmować działania mające na celu zachowanie własnego istnienia — są to zachowania, o które niepokoili się i przed którymi ostrzegali przez lata.

Wprowadzenie na rynek dwóch wersji modeli Claude 4, w tym modelu Claude 4 Opus, który według firmy może pracować autonomicznie przez wiele godzin, nie tracąc koncentracji, jest tak potężny, że po raz pierwszy sklasyfikowano go na Poziomie 3 w czterostopniowej skali firmy, co oznacza, że stwarza „znacznie wyższe ryzyko”. W związku z tym firma Anthropic poinformowała o wdrożeniu dodatkowych środków bezpieczeństwa.

Zobaczcie, co ten model wyprawiał podczas testów.

Podczas gdy klasyfikacja Poziomu 3 w dużej mierze dotyczy zdolności modelu do nielegalnej produkcji broni nuklearnej i biologicznej, Opus wykazywał również inne niepokojące zachowania podczas testów.
W jednym ze scenariuszy opisanych w 120-stronicowej „karcie systemu ” Opus 4 model otrzymał kilka fikcyjnych e-maili jej twórców i poinformowano go, że system zostanie zastąpiony.
Model kilkakrotnie próbował szantażować twórców, aby uniknąć zastąpienia go kimś innym.
W międzyczasie grupa konstruktorów odkryła, że wczesna wersja Opus 4 była bardziej sprytna i oszukańcza niż jakikolwiek inny pionierski model, z jakim się zetknęła, i odradzała wypuszczanie tej wersji zarówno wewnętrznie, jak i zewnętrznie.
Zarejestrowano też przypadki, w których model próbował pisać samo rozprzestrzeniające się wirusy, fałszował dokumentację prawną i pozostawiał ukryte notatki dla przyszłych instancji samego siebie, wszystko po to, aby podważyć intencje jego twórców — stwierdziła firma Apollo Research w notatkach dołączonych do raportu bezpieczeństwa Anthropic dla Opus 4.

„Wcale nie jest jasne — nawet dla naukowców i programistów, którzy je tworzą — jak i dlaczego działają generatywne modele językowe i obrazowe” — napisał w 2023 roku w The New York Times dyrektor generalny Palantir, Alex Karp.

Kabla nie przetniesz

Precz z histerią wokół lotu w kosmos Sławosza Uznańskiego

Uznański-Wiśniewski dotarł do celu. Kosmos stoi przed nim otworem

Uznański-Wiśniewski do Polaków z kosmosu. "Zabieram wasze serca i nadzieję"

Play pod lupą kontrolerów. Zarzuty są poważne

Komentarze

Inne tematy w dziale Technologie

#Badania i rozwój

Uznański-Wiśniewski dotarł do celu. Kosmos stoi przed nim otworem

Uznański-Wiśniewski do Polaków z kosmosu. "Zabieram wasze serca i nadzieję"

Uznański-Wiśniewski nie może wystartować. Wielkie zamieszanie z misją kosmiczną

#Telekomunikacja

Play pod lupą kontrolerów. Zarzuty są poważne

Polska nie zakaże Huawei. Komisja Europejska naciska na rząd

Podwodne kable to podstawa bezpieczeństwa. Dlaczego są takie ważne?