Informowaliśmy już o tym, że Google planuje ulepszyć swój algorytm wyszukiwania obrazów. Firma zrobiła kolejny krok w stronę udoskonalenia swojej technologii.
Google całkiem nieźle radzi sobie z wyszukiwaniem treści w sieci, pod warunkiem, że mówimy tu o konkretnych zwrotach, zagadnieniach czy pojęciach zapisanych za pomocą słów. Znacznie gorzej wygląda sytuacja z wyszukiwaniem obrazów. O ile w przypadku prostych zapytań wyszukiwarka zwróci dość trafne wyniki, to przy cięższych, unikalnych frazach, w wynikach wyszukiwania zobaczymy obrazy zupełnie nie związane z tematem.
Programiści Google zrobili co prawda spore postępy w rozwijaniu technologii rozpoznawania obrazu, ale do niedawna algorytmy były w stanie rozpoznać wyłącznie obiekty, a nie kontekst, w jakim zostały zaprezentowane. Dzięki współpracy Google i Stanford University ma się to zmienić. Firmy opracowały system składający się z dwóch niezależnych sieci neuronowych, jednej zajmującej się rozpoznawaniem obrazu i drugiej odpowiedzialnej za przetwarzanie i analizowanie procesu wyrażania się, który składa luźne frazy w całe zdania. Dzięki temu system nie tylko rozpozna przedmioty na zdjęciu, ale także poglądowo opisze całą scenę. Pozwoli to ujednolicić algorytmy do wyszukiwania obrazów i fraz.

Rozpoznanie: Two pizzas sitting on top of a stove top oven
Na razie system jest w fazie testów i Google musi nauczyć go prawidłowego opisywania obrazów, ale już teraz widać, że technologia ta działa znacznie lepiej, niż rozwiązania stosowane do tej pory. Narzędzie nie tylko odnotowuje, ze na zdjęciu jest motor i jakaś postać, jest w stanie dość dokładnie opisać całą sytuację i wskazać, że na zdjęciu widzimy osobę na motorze jadącą po piaszczystej drodze. Nowe algorytmy są znacznie bardziej szczegółowe niż te, które prezentowano kilka tygodni temu i rozpoznają obiekty, których poprzednie oprogramowanie nie wychwytywało.
Mimo dużych postępów w dopracowywaniu kodu, technologia ta wciąż boryka się z wieloma problemami i nie jest w stanie poprawnie opisać wszystkich elementów. Doskonale widać to na powyższym zdjęciu, gdzie program m.in. źle rozpoznaje kolory, myli znak drogowy z lodówką pełną jedzenia czy żółty samochód ze szkolnym autobusem.
Programiści potrzebują jeszcze trochę czasu, by dopracować to narzędzie i wyeliminować najpoważniejsze błędy, które zdarza mu się popełniać. Jeśli to się uda, proces wyszukiwania obrazów będzie na pewno o wiele przyjemniejszy.
Pod warunkiem, że będziemy wpisywali frazy w języku angielskim, bo dobrze wiemy, jak Google radzi sobie z polską składnią. Tak czy inaczej warto mieć ten projekt na oku, jest to jedna z ciekawszych inicjatyw wyszukiwarkowego giganta. Za kilkanaście miesięcy czy kilka lat może okazać, się, że wpisując nawet najbardziej skomplikowaną frazę, znajdziemy dokładnie taki obraz, jakiego szukaliśmy.