Jak powstanie silna sztuczna inteligencja?

W pierwszej notce z tej serii opisałem programy, które wygrywają z mistrzami świata w GO: Wykładniczy postęp ludzkości - koniec konserwatyzmu!. Są to wytwory firmy DeepMind, której właścicielem jest Google. Pierwszy, który pokonał najlepszego człowieka nazywa się AlphaGo i został wytrenowany na grach ludzkich. To po prostu sieć neuronowa, która się uczy – im więcej dostanie partii, tym gra lepiej. Dostała miliony ludzkich partii i się na nich nauczyła. Ale taka nauka ma swój kres. Można to sprawdzić tak, że sieć nauczona na milionie partii zagra z siecią nauczoną na dwóch milionach partii. Jeśli będą ze sobą remisować w wielu rozgrywkach, to znaczy, że ten drugi milion nic więcej sieci nie nauczył.

---------------------------------

Sztuczna inteligencja będzie miła i przyjazna <- poprzednia część serii

następna część serii -> Świadomość sztucznej inteligencji

---------------------------------

Już o tym pisałem, że powstała druga generacja tego programu. Nazywa się AlphaZero. On już nie uczył się na partiach ludzi, ale grał sam ze sobą. I podobnie jak ten poprzedni, im więcej partii rozegrał, tym był lepszy. No i okazało się, że AlphaZero przekraczając pewną liczbę partii, idącą oczywiście w miliony, jest lepszy od AlphaGo. A zatem druga generacja przełamała barierę, na której stanęła pierwsza. Ale AlphaZero też ma swój limit rozegranych partii potrzebnych do nauki.

Ale to nie koniec. Powstała trzecia generacja programu zwana MuZero. O tym w poprzedniej notce nie pisałem. Otóż MuZero uczył się tak, że w ogóle nie znał reguł gry w GO. Nad grą był tylko nadzorca, który po prostu nie pozwalał na jakiś ruch, jeśli był nielegalny. Więc MuZero uczył się tak, że próbował jakiś ruch, ale nie wiedział czy jest poprawny czy nie - gdy zagrał niezgodnie z regułami to ruch był odrzucany i musiał wykombinować coś innego, tak długo, aż ruch będzie legalny.

MuZero by dobrze grać musiał rozegrać wielokroć więcej partii niż limit AlphaZero do maksymalnie dobrej gry. Ale w końcu tak się nauczył grać, że pokonuje najlepsze AlphaZero. Być może powstanie następna generacja, która pokona MuZero. Te programy już mogą grać tylko same ze sobą, bo najgorszy jest wielokroć lepszy niż jakikolwiek człowiek. Same programy napotykają limity, ale powstają następne, które te limity przekraczają. A na dodatek MuZero może grać w dowolną grę logiczną. Na szachach też go przetrenowano i tak samo wygrywa ze wszystkimi innymi programami.

Jaki z tego wniosek ogólny dotyczący sztucznej inteligenci?

Otóż człowiek uczy się tak jak ten MuZero – rodzi się i nie zna reguł gry, jaką jest życie. Tych reguł uczy się cały czas na bieżąco, w ramach życia. Próbuje coś zrobić, na przykład wkłada palec do ognia, dostaje sygnał, że to niepoprawne, bo się oparzył, i potem już tego nie robi, próbuje swój cel osiągnąć jakoś inaczej. Ale nie musi wszystkiego sam próbować, może oprzeć się na dotychczasowej wiedzy ludzkości. Ktoś mu może powiedzieć, że ogień parzy. Potrzebuje nauczyciela.

Te kolejne generacje programów grających w GO są wielokroć lepsze od człowieka, ale to człowiek te generacje wymyśla, to człowiek wpadł na pomysł, żeby nauczyć program inaczej – nie na ludzkich grach, ale by grał sam ze sobą. To człowiek wpadł na pomysł, że może następną generację uczyć jeszcze inaczej.

No to następny człowiek może też wymyślić to, by zastąpić tego człowieka wymyślającego kolejne generacje programów, jakąś siecią neuronową. Następna generacja programów do grania w GO, to nie będzie jakaś lepsza metoda nauki sieci neuronowej grającej w GO, ale nauka sieci będącej trenerem innych sieci. Ta sieć będzie grać w grę: kto nauczy lepiej grać w GO swoje podopieczne sieci.

Taki trener nie będzie wyspecjalizowany w graniu w GO. On nawet nie musi wiedzieć jak się w GO gra i jakie są reguły – on się zna na trenowaniu. Więc wytrenuje też programy rozpoznające twarze, prowadzące samochody, robiące prognozy pogody czy diagnozy medyczne. Wytrenuje też sztucznych fizyków i matematyków.

Nawet jeśli każda konkretna generacja takich trenerów napotka jakiś limit, to można będzie zawsze wejść na wyższy poziom i stworzyć trenera trenerów. I tak w nieskończoność. Wystarczy stworzyć trenera, które będzie umiał wytrenować swojego własnego trenera. Człowiek stanie się zbędny, sztuczna inteligencja będzie się sama doskonaliła i będzie to mogła robić w każdej dziedzinie, nawet takiej, z którą się jeszcze nigdy nie zetknęła.

To się stanie bardzo szybko. Postęp w tej dziedzinie, i każdej innej, jest wykładniczy, więc niedługo powstanie sztuczna inteligencja lepsza od człowieka. Nie za tysiąc, nie za sto lat, ale w ciągu pokolenia.

Limitem człowieka jest nasz mózg. Ma ograniczoną pojemność i strukturę. Sztuczna inteligencja nie będzie mieć tych ograniczeń, nie będzie mieć żadnych limitów. Każdy konkretny egzemplarz oczywiście limity napotka. Ale jego trener stworzy następny egzemplarz przekraczający te limity. A trener trenera stworzy nowego trenera przekraczający limity starego trenera.

Taka inteligencja bez limitu wystarczy, by pociągnąć w górę wszelki inny technologiczny postęp. Sztuczny trener sztucznych fizyków, stworzy w końcu fizyka, który wymyśli zimną fuzję. Trener sztucznych lekarzy stworzy lekarza, który powstrzyma proces starzenia się biologicznych organizmów. Trener programów wymyślających sposoby kolonizacji planet Układu Słonecznego, stworzy program, który opracuje metodę kolonizacji nie tylko Marsa, czy księżyców Jowisza, ale też Wenus, a może i samego Jowisza. I tak będzie ze wszystkim! Warto więc jeszcze przeżyć jakieś 25 lat.

Grzegorz GPS Świderski

PS. Notki powiązane:

Która okupacja była gorsza? <- poprzednia notka

następna notka -> Prawa naturalne a prawa natury

Tagi: gps65, sztuczna inteligencja, nauka, technika, GO, postęp wykładniczy