DANE to odbicie naszej rzeczywistości które może być przetwarzane umysłowo lub komputerowo.
Przetwarzanie danych było wyzwaniem dla człowieka przez tysiące lat, od samych jego narodzin. Przetwarzanie danych (przez umysł człowieka) zaczęło się od wielkiego falstartu, czyli ... od ukształtowania się różnych języków. Stworzenie na Ziemi językowej wieży babel skomplikowało przekazywanie informacji przez tysiące lat. No ale któż wtedy wiedział, że rzeczywistość należy odzwierciedlać tak aby jej 'obraz' był łatwo i wiernie przekazywany pomiędzy ludźmi.
Następnym etapem w przetwarzaniu danych była epoka piśmiennictwa a w szególności epoka druku.Z chwilą nastania epoki piśmiennictwa dane (fakty, zdarzenia) były rejstrowane przez kronikarza lub dziejopisarza. Później informację taką wielokrotnie przepisywano, często z niedokładnościami, tłumaczono na inne języki i przerabiano. W kolejnych dokumentach fakty czy zdarzenia mogły już być opisane całkiem inaczej. Dokładna lektura kronik Galla, Widukinda, Thietmara opisujących początki Polski to zimny prysznic dla historyków. Jest tam setki kompromitujących pomyłek których nie można tłumaczyć tym, że dziejopisarz czegoś zapomniał. Błędy wynikały z przyjętych standardów pisania ówczesnych kronik, dopuszczających również niedokładności a nawet niedbalstwo. Ciekawostką jest że najważniejsza kronika Galla Anonima była dyktowana, aby lepiej kontrolować 'efekt dźwiękowy własnych słów'. Główny nacisk w tej relacji był stawiany na rytm, rym i 'muzykalność' przekazywanej informacji,
Rewolucja w przetwarzaniu danych nastąpiła z chwilą wprowadzenia i upowszechnienia technolgii informacyjnych. Nastąpiła epoka przetwarzania danych prze KOMPUTER. Przykład przetwarzania danych i wynikającego z tego szum informacyujny omawiałem już w blogu Czy zmiecie nas lawina informacyjnego szumu
Nie trzeba daleko się rozglądać aby wychwycić istotę szumu informacyjnego i dużych strat społeczno-gospodarczych wynikających z niewłaściwego przetwarzania danych.
Zastanówmy się chwilę nad elementarnym, szkolnym algorytmem przetwarzania danych jak najszybciej dojechać z punktu A do punktu B przy wykorzystaniu różnych środków transportu publicznego.
Model danych jest dla takiego przykładu prosty, należy zbudować tabelkę zawierającą współrzędne początku i końca połączenia (w standardowym zapisie współrzędnych na przykład format Well-known text WKT, układ współrzędnych WGS84) oraz czas odjazdu i przyjazdu. Dane o takim połączeniu należy jeszcze uzupełnić kilkoma dodatkowymi parametrami np koszt przejazdu, komfort przejazdu, czas opóźnienia o różnych porach dnia, czy jest zainstalowane WIFI itp. Algorytm do obliczenia optymalnej trasy przejazdu dla tak przygotowanych danych o połączeniach jest w stanie zaprojektować każdy student informatyki czy matematyki.
Jeśli model danych w tym przykładzie jest taki prosty to dlaczego w praktyce nie działają wiarygodnie serwisy wyznaczające optymalną trasę przejazdu różnymi środkami publicznymi na terenie całego kraju.
Problemi tkwi w jakości danych. Nawet w najprostszych procesach dane muszą być kompletne. Ponadto dane muszą dokładnie odzwierciedlać rzeczywistość, muszą być też zgodne ze stanem faktycznym. W rezultacie tego przy niedokładnych i niekompletnych danych wyszukane połączenia są niewiarygodne. Na przykład uwzględniona jest tylko część środków transportu, w innym przypadku dane zawężone są do jakiegoś miasta, regionu, albo też wprowadzone dane są nieaktualne. Można na przykład odnaleźć w serwisie internetowym połączenie z miejscowości podwarszawskiej do Warszawy, a po przyjściu na przystanek może okazać się, że ten przewoźnik już nie jeździ, albo dzisiaj wyjątkowo nie jedzie a jednocześnie są połączenia o wiele lepsze których nie ma w serwisie.
Co trzeba zrobić aby ten algorytm zadziałał. Należy stworzyć przwoźnikom możliwość bezpłatnego wprowadzenia swoich danych do jednej centralnej bazy a wykonawcom serwisów należy zapewnić bezpłatne korzystanie z tych danych. Wtedy wszyscy uczestnicy procesu optymalne połączenie będą chętnie korzystali z takiej bazy i zapewnią jej wiarygodne dane.
Po wdrożeniu kompletnego procesu optymalne połączenie móglibyśmy powiedzieć do kumunikatora internetowego Proszę o tani bilet jutro rano do Szczecina. Otrzymalibyśmy od komunikatora kilka pytań pomocniczych w stylu Czy o 8.00 rano wyjazd jest OK? Czy jedzie Pan z miejsca obecnego pobytu? Po udzieleniu dodatkowych odpowiedzi otrzymalibyśmy komunikat końcowy "Szanowny kliencie, trasa została zaprojektowana bilet został kupiony, wysłany na skrzynkę pocztową, identyfikator pobrano z wzoru tęczówki, pieniądze pobrano z Pana konta w centralnej bazie Klientów, fakturę elektroniczną wystawiono w oparciu o dane z Centralnej Bazy Firm, proszę o godz. 8.00 wyjść przed swój dom, zatrzyma się tam prywatny samochód, dowiezie Pana do najbliszego przystanku a póżniej będzie 1 przesiadka w na stacji kolejowej Y, szczegóły w załączonej mapie/opisie przejazdu, życzymy przyjemnej podróży. Chyba wszyscy zgodzą się, że nawet taki najprostszy porządek w danych zawartych w jednej tabelce, przy implementacji wszystkich pozostałych procesów wyszukania trasy i zakupu biletu, stwarza obywatelowi zupełnie inny komfort życia i przynosi niemałe korzyści gospodarcze.
A co by było gdyby uporzadkować dziesiątki, setki, tysiące takich tabel stanowiących odbicie rzeczywistości i ich wzajemne powiązania? Sprawy w urzędach (w różnych referatach), centralne bazy adresów, centralna baza podziałów geodezyjnych, centralna baza firm i klientów, wsparcie spraw sądowych, transakcje kupna sprzedaży, wstępne diagnozy medyczne, wszystko to są obszary modelowania i przetwarzania danych które mogą być wdrażane już od dziś. Bez wątpienia panowałby wtedy informatyczny raj na Ziemi a wraz z nim wielki rozwój gospodarczy i społeczny.
Niestety są to jednocześnie obszary których realizacja wymaga ingerencji państwa. W większości byłyby to projekty wieloletnie i wieloetapowe. Nie nadają się więc do programów wyborczych.
Powie ktoś, przecież to wszysytko dużo kosztuje. Takie argumenty to wielki błąd w myśleniu. Wspomniane projekty przyniosłyby same zyski materialne i niematerialne takie jak: komfort życia obywateli, setki tysiący miejsc pracy dla osób z wysokimi kwalifikacjami, likwidacja dziesiątek, setek tysięcy nieefektywnych miejsc pracy polegających najczęściej na wypełnianiu formularzy z powielaną wielokrotnie informacją.
Przy braku istotnego wsparcia dla tych programów ze strony państwa musimy z niepokojem przyglądać się się jak narasta bałagan i szum informacyjny.
Działa to jak kij włożony w szprychy roweru, koła postępu społeczno-gospodarczego wprawdzie kręcą się nadal, ale CIĘŻKO i POWOLI.
Czy problem przetwarzania danych zatacza u nas kolejny krąg historyczny? Czy grozi nam kolejna wieża BABEL?
Inne tematy w dziale Społeczeństwo