Linki międzyjęzykowe w Wikipedii (ang. interlanguage links, lub szerzej interwiki links) umieszczane przy poszczególnych artykułach wskazują artykuły na ten sam temat w innych edycjach językowych projektu[źródło]. Znaleźć je można w jednej z ramek w lewej kolumnie – w polskiej edycji ramka zatytułowana jest „w innych językach”. Przykładowo, artykuł Warszawa z polskiej edycji posiada m.in. linki do Warsaw, Warschau i Varsovie. Każda z tych stron posiada linki do pozostałych i w efekcie sieć wszystkich tych linków tworzy strukturę nazywaną w teorii grafów kliką. Można by więc myśleć o zbiorze tych linków jako o słowniku wielojęzycznym, ale…
Technicznie rzecz biorąc, dodanie linku międzyjęzykowego A → B nie spowoduje automatycznego pojawienia się linku B → A, autor musi zadbać o to sam. Podobnie, istnienie linków A → B i B → C nie spowoduje pojawienia się linku A → C. W silniku MediaWiki, o który oparte są wszystkie edycje językowe Wikipedii, nie ma mechanizmu gwarantującego spójność dodawanych linków międzyjęzykowych. Łącznie między wszystkimi edycjami językowymi Wikipedii istnieje blisko 90 mln omawianych przez nas linków, pokazujących relacje pomiędzy ponad 11,5 mln artykułów.
Przy braku mechanizmów wymuszających spójność naturalne jest, że pojawia się mnóstwo niepożądanych sytuacji, które z grubsza podzielić możemy na dwie kategorie. Pierwsza to brak połączenia między dwoma artykułami na ten sam temat, druga to istnienie połączenia między dwoma artykułami na nie do końca tożsame tematy. Ta ostatnia jest z punktu widzenia wiarygodności projektu dużo bardziej poważna, a jednocześnie trudniejsza do automatycznego naprawienia. W dalszej części artykułu skupimy się na tych właśnie sytuacjach.
Co ciekawe, samo pojawienie się błędnego linku w danym sąsiedztwie często (choć nie zawsze) wykryć można przy użyciu bardzo prostej, mechanicznej procedury: wyznaczamy zbiór wszystkich artykułów osiągalnych z danego, a następnie sprawdzamy, czy jesteśmy w stanie osiągnąć inny artykuł z tej samej edycji językowej co startowy.
Przykład, który może być już nieaktualny w chwili, gdy będziesz to czytał(a): artykuł pl:Województwo krakowskie (I Rzeczpospolita) zawiera link międzyjęzykowy do en:Kraków Voivodeship (14th century-1795), który z kolei wskazuje na pt:Voivodia da Cracóvia, a ten prowadzi do pl:Województwo krakowskie. Zauważ, że użyliśmy tu notacji <kod języka>:<tytuł artykułu>
aby zwięźle wyrazić przynależność artykułów do edycji językowych (odpowiednio: polskiej, angielskiej, portugalskiej, polskiej).
Rzut oka na treść owych czterech artykułów (nie tylko tytuły!) pozwala zauważyć, że pierwsze dwa artykuły odnoszą się do województwa krakowskiego od XIV w. do 1795 r., trzeci obejmuje okres od XIV w. do 1998 r., natomiast ostatni – lata 1945-1998. W pełni równoważne są jedynie dwa pierwsze artykuły i bezspornie zasługują one na połączenie, natomiast z linkami (2)-(3) i (3)-(4) sytuacja jest bardziej skomplikowana.
Tu dotykamy kluczowego problemu: usuwać czy nie usuwać linki międzyjęzykowe łączące artykuły na bardzo zbliżone, częściowo pokrywające się, ale nie tożsame tematy? Z jednej strony linki te są pożyteczne, gdyż czytelnik otrzymuje cenną informację o tym, że dany temat poruszony jest w danym miejscu w danej edycji językowej, a czytając ze zrozumieniem oba teksty wyłapie bez problemu różnice w zakresie tematycznym. Z drugiej strony, myśląc globalnie, suma takich linków utożsamia w rezultacie całkowicie różne pojęcia.
Drugie trudne pytanie to jak traktować linki językowe do przekierowań (ang. redirects), które rozszerzają znaczenie, na przykład: en:Mother-in-law posiada link międzyjęzykowy do ru:Тёща, co jest przekierowaniem do ru:Родство, który to artykuł posiada link międzyjęzykowy do en:Kinship. Na to wszystko nakładają się wreszcie różnice kulturowe oraz lingwistyczne, znacznie utrudniające rozstrzygnięcie tego, czy dwa artykuły opisują dokładnie ten sam temat. Poza tym, zakres tematyczny artykułu może zmieniać się w czasie, a co za tym idzie, także poprawność poszczególnych linków.
No dobrze, rzuciliśmy okiem na dwa przykłady, ale na ile opisywany problem jest powszechny i jak bardzo mogą ostatecznie różnić się utożsamiane znaczenia? Aby odpowiedzieć na to pytanie, przeprowadziłem analizę sieci linków międzyjęzykowych, a wyniki umieściłem na tej stronie (w języku angielskim). Okazuje się, że ok. 5% artykułów, które zawierają jakiekolwiek linki międzyjęzykowe, wchodzi w skład fragmentów sieci zawierających problematyczne linki. Wzięcie każdego linku międzyjęzykowego za dobrą monetę utożsamia tak odległe pojęcia, jak np. pl:Budownictwo, pl:Grudzień, pl:Grupa przemienna, pl:Miasto, pl:Muzyka country i pl:Poezja. Te wyniki znacznie przekroczyły moje wyobrażenie o skali problemu.
Fragment szkieletu sieci linków międzyjęzykowych, obrazujący pomieszanie znaczeń widziane z perspektywy polskiej edycji językowej. Szkielet powstał przez ściągnięcie otoczeń poszczególnych polskich artykułów do punktów.
Co możemy zrobić? W pierwszej kolejności, usuwać ewidentnie błędne linki. Spójrz np. na tę ścieżkę: pl:Kran → it:Rubinetto → es:Grifo → pl:Gryf (mitologia). W tym przypadku usuwam błędny link z włoskiego artykułu do es:Grifo, a zamiast niego wprowadzam link do es:Llave de paso. Dokładniej, linki umieszczone są w treści źródłowego artykułu, zazwyczaj na samym dole, więc wybieram edycję włoskiego artykułu, zmieniam link i zapisuję stronę.
Jak znaleźć kolejne przykłady? Pod podanym przeze mnie wcześniej adresem wpisz w okienku wyszukiwania kilka liter i wybierz „search” – pojawi się lista angielskich artykułów o tytułach rozpoczynających się podanymi literami. Wybierz jeden z nich, a następnie artykuł docelowy. W wyniku zobaczysz ścieżkę linków międzyjęzykowych łączących oba artykuły. Przeanalizuj przejścia i ustal, które z nich są błędne. Zaimplementowałem heurystykę zgadującą podział artykułów na poszczególne znaczenia, bazującą na analizie struktury sieci (nie na treści artykułów!). Może Ci ona odrobinę pomóc, ale pamiętaj, że z pewnością daje ona w wielu miejscach błędne wyniki. Odgadnięte znaczenie zobaczysz po kliknięciu w niebieską ikonę informacyjną znajdującą się przy danym artykule, a linki łączące artykuły o różnych znaczeniach oznaczone są na czerwono. Miłej pracy!
Łukasz Bolikowski
PS. W tekście używam konsekwentnie angielskiego terminu „link” zamiast polskiego odpowiednika „odnośnik”. W mojej ocenie b. częste występowanie w tekście długich słów tj. „odnośnika”, „odnośników”, „odnośnikami” obniżyłoby jego i tak nienajwyższą czytelność. Purystów przepraszam.