AI między wiedzą a internetowym chaosem

Fakt1 - Sztuczna inteligencja jest zbyt ważna, aby pozostawić ją chaosowi

Sztuczna inteligencja AI stała się jedną z najważniejszych technologii XXI wieku. Jej wpływ na gospodarkę, naukę i społeczeństwo można porównać jedynie z rewolucją przemysłową lub pojawieniem się Internetu.
Jednocześnie wokół AI narasta chaos informacyjny i organizacyjny. Technologia ta jest ignorowana przez część elit decyzyjnych, deformowana przez polityków i marketing technologiczny a także dewastowana przez masowe generowanie niskiej jakości treści przez firmy i użytkowników końcowych.
Czy w ten sposób chcemy rozwijać jedną z najpotężniejszych technologii w historii?

Fakt 2 - AI jako akcelerator przetwarzania informacji
Podstawową cechą sztucznej inteligencji jest jej zdolność do astronomicznego przyspieszenia przetwarzania danych. Algorytmy AI są w stanie analizować ogromne zbiory informacji w czasie, który dla człowieka byłby niewyobrażalny.
Oznacza to między innymi:
- szybsze odkrycia naukowe,
- automatyzację procesów gospodarczych,
- optymalizację systemów logistycznych,
- nowe modele zarządzania informacją.
Wniosek - AI staje się podstawowym i uniwersalnym narzędziem w przetwarzaniu i rozwoju wiedzy.

Fakt 3 - AI jako główny czynnik rozwoju cywilizacyjnego
Współczesne gospodarki coraz wyraźniej opierają się na danych i procesach.
Państwa oraz przedsiębiorstwa, które potrafią gromadzić dane, modelować je, oraz przetwarzać przy pomocy AI uzyskują ogromną przewagę rozwojową.
W tym sensie AI staje się jednym z głównych wyznaczników rozwoju cywilizacyjnego.

Kluczowy problem nr1 : jakość danych
Systemy AI są tak dobre jak dane, na których "pracują".
Możliwe są dwa scenariusze:
Scenariusz dobry - dane ustrukturyzowane, modele obiektowe, dane procesowe i biznesowe, jasno zdefiniowane w postaci grafów.
Scenariusz zły - tekstowy „bełkot” generowany przez różne instytucje wspomagane twórczością o charakterze tekstowym w internecie.
UWAGA - nie jestem całkowitym wrogiem informacji tekstowej ale należy ją eliminować z procesów AI, brak struktury danych powoduje że taka informacja wejściowa zanieczyszcza a niekiedy dewastuje trening AI

Kluczowy problem nr 2 : metoda treningu modelu
Drugim kluczowym elementem jest sposób trenowania systemów AI.
Możliwe są dwa rodzaje treningu:
a/ trening profesjonalny oparty na dobrych praktykach i zdefiniowanych scenariuszach z kontrolą zwrotną jakości danych wynikowych,
b/ masowy, chaotyczny, trening na przypadkowych danych z internetu brak kontroli jakości dominacja treści generowanych przez użytkowników końcowych.

LLM - najważniejsze obecne zagrożenie
Najbardziej popularnym kierunkiem rozwoju AI (szacunkowo ponad 90% biznesu) stały się dziś modele LLM (Large Language Models) oraz technika RAG (Retrieval-Augmented Generation) która zwiększa precyzję modelu poprzez dostarczenie im tzw kontekstu, czyli wiedzy specjalistycznej . Są to systemy oparte na architekturze transformer, które analizują i generują tekst.
Ogromna popularność modeli LLM/RAG wynika z prostoty użycia, wystarczy wpisać pytanie i otrzymujemy natychmiast odpowiedź w znanym każdemu interfejsie językowym .
Jednak to właśnie LLM w długim horyzoncie rozwoju technologicznego rodzi poważne problemy o charakterze strategicznym:
- LLM operują głównie na tekście,
- są trenowane na ogromnych zbiorach danych z internetu,
- powielają błędy i chaos informacyjny.
W efekcie system AI zaczyna uczyć się internetowego szumu informacyjnego.
Może to prowadzić do paradoksu im więcej danych tekstowych powstaje, tym niższa staje się średnia jakość wiedzy w systemach AI.

Społeczna produkcja „śmieci językowych”
Rozwój generatywnej AI doprowadził do zjawiska masowej produkcji treści. Powstają miliony artykułów,
automatyczne posty,,generowane komentarze oraz teksty bez wartości merytorycznej
Jeżeli te treści stają się materiałem treningowym dla kolejnych modeli AI, powstaje pętla degradacji jakości informacji.

Potrzeba nowego podejścia do AI

Rozwój AI nie jest wyłącznie problemem technologicznym. Jest to również problem cywilizacyjny i społeczny. Jeżeli sztuczna inteligencja ma rzeczywiście wspierać rozwój cywilizacyjny to potrzebne jest zaangażowanie środowisk naukowych, elit gospodarczych, polityków, mediów oraz instytucji publicznych.
Oto przykładowa lista treści które należy promować
a/ procesy gospodarcze i społeczne powinny być opisywane poprzez formalnie zdefiniowane modele danych i grafy procesów, a nie dominujące obecnie tekstowe dokumenty i procedury.
b/ największy potencjał AI leży w analizie danych liczbowych i obiektowych modeli danych (patrz BLOG1), dane tekstowe zanieczyszczają czysty proces oparty na modelu danych ustrukturalizowanych.
c/ profesjonalne procedury treningowe -trening AI powinien być prowadzony w oparciu o dobre praktyki inżynierii danych z kontrolą jakości danych treningowych.

WNIOSKI

Od decyzji podejmowanych dziś zależy czy AI stanie się narzędziem rozwoju czy fabryką cyfrowego chaosu. Sztuczna inteligencja jest zbyt ważna, aby uczyć ją internetowym bełkotem.

Wariant negatywny - jeżeli pozwolimy, aby sztuczna inteligencja była trenowana na przypadkowych danych tekstowych, marketingowych treściach i internetowym szumie a dominującym modelem był LLM/RAG ( bo jest wygodny do "konsumpcji" i do zabawy w AI) to oznacza , że marnujemy największą technologiczną szansę XXI wieku.
Wariant pozytywny - jeżeli skupimy się na modelowaniu danych liczbowych lub słownikowych, grafach wiedzy, modelach obiektowych informacji i dobrych praktykach procesów społeczno-gospodarczych (dla treningu AI) wtedy wtedy sztuczna inteligencja może stać się najpotężniejszym narzędziem rozwoju wiedzy i gospodarki.