Czy komputery mogą być mądrzejsze od ludzi?

Jak komputery mogą być mądrzejsze od ludzi, skoro to my je wymyśliliśmy?

Najlepszą ilustracją tego jak samouczące się sieci neuronowe mogą być mądrzejsze nie tylko od programistów, którzy je stworzyli, ale też od wszystkich ludzi, od których się uczyły, jest historia programu do grania w GO.

Pierwsza wersja programu AlphaGo, symulująca sieć neuronową, stworzona przez zespół DeepMind, pokonała człowieka, bo została nauczona partii, które rozgrywali ludzie. To można tłumaczyć ilościowo - nauczyła się po prostu na wielokroć większej liczbie gier niż jakikolwiek człowiek jest w stanie w życiu rozegrać i prześledzić. Ale sieć AlphaGo osiągnęła swój limit - nie grała już lepiej, mimo że ciągle była uczona coraz to większą liczbą rozegranych przez ludzi partii. Czyli osiągnęła poziom wyższy od ludzi, ale jakoś ludźmi ograniczony.

Następnej wersji, nazwanej AlphaGoZero, która miała dużo prostszą architekturę od poprzedniczki, już uczono inaczej - ona w ogóle nie dostawała ludzkich partii, ale grała sama ze sobą. Czyli została oderwana całkowicie od ludzi i się nie uczyła, ale trenowała samotnie. No i sieć AlphaGo sromotnie przegrała z AlphaGoZero. A zatem druga wersja weszła na wielokroć wyższy poziom, niż poziom ludzki. To już był postęp jakościowy. Ale też osiągnął swój limit.

Więc stworzono trzecią wersję, MuZero, jeszcze prostszą. Ona w ogóle nie wiedziała, jakie są zasady GO - i ona po dużo większej liczbie rozegranych ze sobą partii w końcu przekroczyła limit AlphaGoZero i ją pokonała. Teraz wystarczy stworzyć następną wersję, która już nie będzie grać w GO, ale będzie polepszać te kolejne znane wersje, by wszelkie limity przekraczać w nieskończoność.

Żaden człowiek nie wie, jak te programy grają w GO. W ten sposób można zrobić samouczące się sieci rozwiązujące wszystkie problemy możliwe do wyodrębnienia. A potem się je połączy w jedną całość, która będzie samą siebie polepszać. Tak powstanie komputer mądrzejszy od człowieka. To się już powoli dzieje.

Twórcy programu są zaskoczeni rozgrywkami, ale to nic dziwnego, bo oni nie potrafiliby ograć chińskiego nastolatka grającego w GO od dzieciństwa. Ale zaskoczeni są też i koreańscy mistrzowie w GO, którzy obserwują partie rozgrywane między MuZero i widzą ruchy, których nie ma w żadnych podręcznikach skupiających wiedzę ludzi z kilku tysięcy lat grania w GO.

Warto jeszcze dodać, że przed stworzeniem programu AlphaGo opartego na sieci neuronowej, najlepsze programy grające w GO, oparte na algorytmach z funkcją oceny pozycji (czyli takich, które pierwsze pokonały mistrza w szachach) były gorsze od przeciętnego gracza. W szachach postęp odbywał się powoli, ale systematycznie, a w GO niedawno nastąpił gwałtowny skok. Podobnie może być z silną sztuczną inteligencją.

To, co tu piszę, to duży skrót tego, co napisał mój kolega ze szkoły: Sztuczna inteligencja w grach logicznych - polecam te artykuły, bo choć tłumaczą to wszystko dość szczegółowo, to są napisane tak, by to zrozumiał informatyczny laik.

W bardzo dużym uproszczeniu sieci neuronowe działają tak, że są utworzone z warstw (tak jak ogry czy cebula). W każdej warstwie jest sieć podobna do ludzkich neuronów i synaps, ale połączenia warstw są już wymyślone przez człowieka i dostosowane do konkretnych rozwiązań - inaczej to wygląda gdy to jest rozpoznawanie tekstu (OCR), a inaczej gdy to jest GO. Ale do tego tworzenia struktur powiązań też można, zamiast człowieka, zatrudnić inną sieć, też złożoną z warstw i jakąś strukturą powiązań. I jak ta sieć zrobić coś, co polepszy granie w GO czy rozpoznawanie OCR (i milion innych zastosowań), to ona może to polepszenie wdrożyć w samej siebie. Więc w następny rozdaniu jeszcze lepiej polepszy to GO, OCR i milion innych szczegółowych rozwiązań, w tym samą siebie. A działać może bezmyślnie - po prostu losowo zmieniać sieć do grania w GO i sprawdzać, czy gra lepiej.

A teraz będzie bardzo duże uproszczenie działania ludzkiego mózgu: składa się on z dwóch rodzajów danych, które można nazwać: „hardware” i „software”. „Hardware” to w miarę statyczna sieć powiązań neuronów synapsami - to się tworzy w dzieciństwie, poprzez wspólne oddziaływanie bodźców zewnętrznych i kodu genetycznego - i potem pozostaje w miarę niezmienne. Ale to ciągle jest po prostu informacja, czyli dane. To tworzy naszą inteligencję.

„Software” to poziomy pobudzeni neuronów, czyli dane dynamiczne, nabywane na skutek oddziaływania środowiska, coś, co się ciągle zmienia - to tworzy naszą pamięć, wiedzę, mądrość - ale to też informacja. Ten „software” mocno się zmienia w trakcie życia osobnika, a zmiany „hardware” to zmienność związana z milionami lat ewolucji, czyli coś, co się zmienia bardzo powoli.

Sztuczna inteligencja może działać tak, że komputerowa sieć neuronowa nie tylko bardzo szybko się uczy, modyfikując poziomy pobudzeń, czyli „software”, ale też może równie szybko modyfikować swoje połączenia synaptyczne i struktury, jakie tworzą, czyli „hardware”. Sztuczny „hardware” i „software” mogą się tak samo uczyć i być równie dynamiczne. Ten sposób przyspieszy ewolucję pierdylion razy i wcale nie będzie do tego potrzebować oddziaływań chemicznych tak jak mózg. Mądrość to kwestia informatyczna, a nie chemiczna.

Grzegorz GPS Świderski

PS. Notki powiązane: