Przyszłości nie szukaj w Google

specjalista od sztucznej inteligencji, logiki rozmytej i systemów informacyjnych.

Niedługo można będzie skończyć szkołę średnią, nie otwierając żadnej książki. Dwadzieścia lat temu było to możliwe bez otwierania komputera. W ciągu paru dziesięcioleci technologia komputerowa i internet przeobraziły podstawy wiedzy, informacji i edukacji.

Dziś na twardym dysku laptopa mieści się więcej książek niż w księgarni z 60 tys. tytułów. Liczba stron sieci przekroczyła podobno 500 miliardów – dość, by wypełnić dziesięć nowoczesnych samolotów transportowych odpowiednią liczbą 500-stronicowych, półkilogramowych książek.

Analogie uwidoczniają ogrom eksplozji informacyjnej i związane z nią zagrożenia. Jedynym instrumentem pozwalającym żeglować po tym oceanie informacji są wyszukiwarki internetowe, których nie należy mylić z takim czy innym oprogramowaniem, kolejnym guzikiem do naciskania pozwalającym zlokalizować najbliższą pizzerię. Wyszukiwarki są najpotężniejszym narzędziem dystrybucji informacji, bogactwa i – owszem – dezinformacji.

Kiedy myślimy o przeglądaniu sieci, pierwszy przychodzi nam do głowy rzecz jasna Google. Nie ma przesady w stwierdzeniu, że to on uczynił internet tym, czym jest dziś. Na Google wykształciło się nowe pokolenie odmienne od pokolenia rodziców. Najlepiej docenić to może pokolenie wyżu demograficznego, które rock and rolla poznało jako dzieci, a Google jako rodzice.

Działanie Google opiera się na algorytmach statystycznych. Ale wykorzystujące je narzędzia nie zwracają uwagi na jakość informacji – po prostu dlatego, że informacja wartościowa nie zawsze jest najpopularniejsza i na odwrót. Możemy dowolnie długo gromadzić statystyki, lecz nie oczekujmy, że dadzą cokolwiek ponad to, do czego służą.

Systemy gromadzenia statystyk działają retrospektywnie. Potrzebują czasu na sporządzenie odsyłaczy i na ich zebranie. Dlatego nowe publikacje i często zmieniające zawartość strony dynamicznie są poza zasięgiem instrumentów pomiaru popularności, a przeglądanie takiego materiału narażone jest na wszelkie techniki manipulacji.

Przykładowo, dzięki niedoskonałości obecnych metod przeglądania sieci powstała nowa gałąź technik optymalizacji (pozycjonowania) wyszukiwania – chodzi o podwyższanie rankingu stron w wykorzystujących kryterium popularności wyszukiwarkach typu Google. To przemysł idący w miliardy dolarów. Kto ma więcej pieniędzy, może wywindować swoją stronę wyżej od innych, lepszych, bardziej godnych zaufania. Nigdy od czasu powstania Google jakość informacji nie była tak podatna na komercjalizację.

Określona działaniem wyszukiwarek jakość informacji zadecyduje o przyszłości ludzkości, ale zapewnienie jakości wymagać będzie rewolucyjnego podejścia, przełomu technologicznego oznaczającego wyjście poza statystykę. Ta rewolucja trwa – nazywa się technologią semantyczną.

Pomysł polega na tym, żeby nauczyć komputery, jak funkcjonuje świat. Kiedy np. komputer napotka słowo bill, musi wiedzieć, że ma ono po angielsku 15 znaczeń. Kiedy napotka sformułowanie kill the bill, wywnioskuje, że bill może w tym kontekście oznaczać jedynie projekt ustawy, a kill jej „uwalenie”.

Z kolei kill bill może być tylko tytułem filmu Tarantino. Taki ciąg wnioskowań pozwoli w końcu uchwycić i oddać precyzyjne znaczenie całych fraz i fragmentów tekstu.

Osiągnięcie takiego poziomu sprawności w ujmowaniu języków w komputerowe algorytmy wymaga stworzenia pewnej ontologii. Nie sprowadza się ona do słownika znaczeń i synonimów. Jest mapą powiązanych pojęć i znaczeń odzwierciedlającą relacje takie jak między pojęciami bill i kill.

Zbudowanie ontologii obejmującej całą wiedzę świata jest ogromnym przedsięwzięciem wymagającym kompetencji i wysiłku porównywalnego z tym, jakiego wymaga stworzenie wielotomowej encyklopedii. Ale jest wykonalne. Podjęły się tego liczne firmy z całego świata, m.in. Hakia, Cognition Search i Lexxe. Wkrótce ujrzymy efekty.

Jak technologia semantyczna rozwiąże problem jakości informacji? Odpowiedź jest prosta – dzięki precyzji. Kiedy komputery osiągną semantyczną precyzję w obsłudze języków naturalnych, jakość informacji nie będzie musiała zamienić się w ilość, zanim – inaczej niż dziś w sieci – dotrą one do użytkownika końcowego.

Technologia semantyczna proponuje inne gwarancje jakości – wykrywa bogactwo i powiązania pojęciowe w danym tekście. Jeśli pojawia się zdanie w rodzaju: Bush killed the last bill in the Senate (Bush uwalił ostatnią ustawę w Senacie), czy reszta tekstu zawiera podobne pojęcia? Czy może ta strona to spam, w którym popularne zdanka towarzyszą reklamom? Technologia semantyczna umie to odróżnić.

Człowiek czyta z ograniczoną szybkością (200-300 słów na minutę). Wobec ogromu dostępnych informacji skuteczne decyzje wymagają dziś zastosowania technologii semantycznej w każdym obszarze selekcjonowania wiedzy. Nie możemy pozostawić wiedzy na łasce statystyk popularności i pieniędzy.

Więcej na http://www.gazeta.pl/