• Home
  • Technologie
    • Bezpieczeństwo
    • Sprzęt
    • Oprogramowanie
    • Mobile
  • Kryptowaluty
  • Marketing
    • Reklama
    • Social Media
  • Finanse
  • Felietony
  • [IP]
  • Kontakt
    • Reklama w OSnews
    • Pakiet Public Relations
    • Content Marketing w OSnews
OSnews.pl
OSnews.pl
  • Home
  • Technologie
    • Bezpieczeństwo
      Prawda czy fikcja? Popularny były haker twierdzi, że ma 7 miliardów dolarów w BTC

      Prawda czy fikcja? Popularny były haker twierdzi, że ma 7 miliardów dolarów w BTC

      Certyfikat SSL, a hosting – dlaczego warto poszukać serwera z darmowymi certyfikatami?

      Certyfikat SSL, a hosting – dlaczego warto poszukać serwera z darmowymi certyfikatami?

      75-latek dorabiał do emerytury na szyfrowaniu cudzych danych

      75-latek dorabiał do emerytury na szyfrowaniu cudzych danych

      Ujawniono najczęściej używane hasła w 2016 roku

      Ujawniono najczęściej używane hasła w 2016 roku

    • Sprzęt
      Tanie laptopy poleasingowe – czym się charakteryzują i co je różni od nowego sprzętu z marketu?

      Tanie laptopy poleasingowe – czym się charakteryzują i co je różni od nowego sprzętu z marketu?

      Jaki tablet dla dziecka?

      Jaki tablet dla dziecka?

      Pancerne laptopy – sprzęt, który sprawdza się w każdych warunkach

      Pancerne laptopy – sprzęt, który sprawdza się w każdych warunkach

      Zadbaj o swój kręgosłup i spraw sobie wygodne krzesło biurowe

      Zadbaj o swój kręgosłup i spraw sobie wygodne krzesło biurowe

    • Oprogramowanie
      Jak zrobić dobrze wyglądające wideo nawet jeśli nie jesteś profesjonalistą

      Jak zrobić dobrze wyglądające wideo nawet jeśli nie jesteś profesjonalistą

      Ta firma potrafi śledzić ruch przy pomocu dźwięku zamiast światła

      Ta firma potrafi śledzić ruch przy pomocu dźwięku zamiast światła

      Dzięki Google nasze smartfony będą na tyle inteligentne, że będą rozpoznawać ludzi i przedmioty w filmach wideo

      Dzięki Google nasze smartfony będą na tyle inteligentne, że będą rozpoznawać ludzi i przedmioty w filmach wideo

      Tłumacz Google wspomagany sztuczną inteligencją działa z trzema nowymi językami

      Tłumacz Google wspomagany sztuczną inteligencją działa z trzema nowymi językami

    • Mobile
      Prawdziwie multimedialny Samsung Galaxy A5 (2017)

      Prawdziwie multimedialny Samsung Galaxy A5 (2017)

      LTE w smartfonie - nie tylko do social media

      LTE w smartfonie - nie tylko do social media

      Nadchodzące premiery smartfonów - Samsung Galaxy S9, LG G7 i inne

      Nadchodzące premiery smartfonów - Samsung Galaxy S9, LG G7 i inne

      Kupujemy smartfon. O czym pamiętać?

      Kupujemy smartfon. O czym pamiętać?

  • Kryptowaluty
  • Marketing
    • Reklama
    • Social Media
  • Finanse
  • Felietony
  • [IP]
  • Kontakt
    • Reklama w OSnews
    • Pakiet Public Relations
    • Content Marketing w OSnews
  • Follow
    • Facebook
    • Twitter
    • RSS

Linki międzyjęzykowe w Wikipedii (ang. interlanguage links, lub szerzej interwiki links) umieszczane przy poszczególnych artykułach wskazują artykuły na ten sam temat w innych edycjach językowych projektu[źródło]. Znaleźć je można w jednej z ramek w lewej kolumnie – w polskiej edycji ramka zatytułowana jest „w innych językach”. Przykładowo, artykuł Warszawa z polskiej edycji posiada m.in. linki do Warsaw, Warschau i Varsovie. Każda z tych stron posiada linki do pozostałych i w efekcie sieć wszystkich tych linków tworzy strukturę nazywaną w teorii grafów kliką. Można by więc myśleć o zbiorze tych linków jako o słowniku wielojęzycznym, ale…

Technicznie rzecz biorąc, dodanie linku międzyjęzykowego A → B nie spowoduje automatycznego pojawienia się linku B → A, autor musi zadbać o to sam. Podobnie, istnienie linków A → B i B → C nie spowoduje pojawienia się linku A → C. W silniku MediaWiki, o który oparte są wszystkie edycje językowe Wikipedii, nie ma mechanizmu gwarantującego spójność dodawanych linków międzyjęzykowych. Łącznie między wszystkimi edycjami językowymi Wikipedii istnieje blisko 90 mln omawianych przez nas linków, pokazujących relacje pomiędzy ponad 11,5 mln artykułów.

Przy braku mechanizmów wymuszających spójność naturalne jest, że pojawia się mnóstwo niepożądanych sytuacji, które z grubsza podzielić możemy na dwie kategorie. Pierwsza to brak połączenia między dwoma artykułami na ten sam temat, druga to istnienie połączenia między dwoma artykułami na nie do końca tożsame tematy. Ta ostatnia jest z punktu widzenia wiarygodności projektu dużo bardziej poważna, a jednocześnie trudniejsza do automatycznego naprawienia. W dalszej części artykułu skupimy się na tych właśnie sytuacjach.

Co ciekawe, samo pojawienie się błędnego linku w danym sąsiedztwie często (choć nie zawsze) wykryć można przy użyciu bardzo prostej, mechanicznej procedury: wyznaczamy zbiór wszystkich artykułów osiągalnych z danego, a następnie sprawdzamy, czy jesteśmy w stanie osiągnąć inny artykuł z tej samej edycji językowej co startowy.

Przykład, który może być już nieaktualny w chwili, gdy będziesz to czytał(a): artykuł pl:Województwo krakowskie (I Rzeczpospolita) zawiera link międzyjęzykowy do en:Kraków Voivodeship (14th century-1795), który z kolei wskazuje na pt:Voivodia da Cracóvia, a ten prowadzi do pl:Województwo krakowskie. Zauważ, że użyliśmy tu notacji <kod języka>:<tytuł artykułu> aby zwięźle wyrazić przynależność artykułów do edycji językowych (odpowiednio: polskiej, angielskiej, portugalskiej, polskiej).

Rzut oka na treść owych czterech artykułów (nie tylko tytuły!) pozwala zauważyć, że pierwsze dwa artykuły odnoszą się do województwa krakowskiego od XIV w. do 1795 r., trzeci obejmuje okres od XIV w. do 1998 r., natomiast ostatni – lata 1945-1998. W pełni równoważne są jedynie dwa pierwsze artykuły i bezspornie zasługują one na połączenie, natomiast z linkami (2)-(3) i (3)-(4) sytuacja jest bardziej skomplikowana.

Tu dotykamy kluczowego problemu: usuwać czy nie usuwać linki międzyjęzykowe łączące artykuły na bardzo zbliżone, częściowo pokrywające się, ale nie tożsame tematy? Z jednej strony linki te są pożyteczne, gdyż czytelnik otrzymuje cenną informację o tym, że dany temat poruszony jest w danym miejscu w danej edycji językowej, a czytając ze zrozumieniem oba teksty wyłapie bez problemu różnice w zakresie tematycznym. Z drugiej strony, myśląc globalnie, suma takich linków utożsamia w rezultacie całkowicie różne pojęcia.

Drugie trudne pytanie to jak traktować linki językowe do przekierowań (ang. redirects), które rozszerzają znaczenie, na przykład: en:Mother-in-law posiada link międzyjęzykowy do ru:Тёща, co jest przekierowaniem do ru:Родство, który to artykuł posiada link międzyjęzykowy do en:Kinship. Na to wszystko nakładają się wreszcie różnice kulturowe oraz lingwistyczne, znacznie utrudniające rozstrzygnięcie tego, czy dwa artykuły opisują dokładnie ten sam temat. Poza tym, zakres tematyczny artykułu może zmieniać się w czasie, a co za tym idzie, także poprawność poszczególnych linków.

No dobrze, rzuciliśmy okiem na dwa przykłady, ale na ile opisywany problem jest powszechny i jak bardzo mogą ostatecznie różnić się utożsamiane znaczenia? Aby odpowiedzieć na to pytanie, przeprowadziłem analizę sieci linków międzyjęzykowych, a wyniki umieściłem na tej stronie (w języku angielskim). Okazuje się, że ok. 5% artykułów, które zawierają jakiekolwiek linki międzyjęzykowe, wchodzi w skład fragmentów sieci zawierających problematyczne linki. Wzięcie każdego linku międzyjęzykowego za dobrą monetę utożsamia tak odległe pojęcia, jak np. pl:Budownictwo, pl:Grudzień, pl:Grupa przemienna, pl:Miasto, pl:Muzyka country i pl:Poezja. Te wyniki znacznie przekroczyły moje wyobrażenie o skali problemu.

Fragment szkieletu sieci linków międzyjęzykowych, obrazujący pomieszanie znaczeń widziane z perspektywy polskiej edycji językowej. Szkielet powstał przez ściągnięcie otoczeń poszczególnych polskich artykułów do punktów.

Co możemy zrobić? W pierwszej kolejności, usuwać ewidentnie błędne linki. Spójrz np. na tę ścieżkę: pl:Kran → it:Rubinetto → es:Grifo → pl:Gryf (mitologia). W tym przypadku usuwam błędny link z włoskiego artykułu do es:Grifo, a zamiast niego wprowadzam link do es:Llave de paso. Dokładniej, linki umieszczone są w treści źródłowego artykułu, zazwyczaj na samym dole, więc wybieram edycję włoskiego artykułu, zmieniam link i zapisuję stronę.

Jak znaleźć kolejne przykłady? Pod podanym przeze mnie wcześniej adresem wpisz w okienku wyszukiwania kilka liter i wybierz „search” – pojawi się lista angielskich artykułów o tytułach rozpoczynających się podanymi literami. Wybierz jeden z nich, a następnie artykuł docelowy. W wyniku zobaczysz ścieżkę linków międzyjęzykowych łączących oba artykuły. Przeanalizuj przejścia i ustal, które z nich są błędne. Zaimplementowałem heurystykę zgadującą podział artykułów na poszczególne znaczenia, bazującą na analizie struktury sieci (nie na treści artykułów!). Może Ci ona odrobinę pomóc, ale pamiętaj, że z pewnością daje ona w wielu miejscach błędne wyniki. Odgadnięte znaczenie zobaczysz po kliknięciu w niebieską ikonę informacyjną znajdującą się przy danym artykule, a linki łączące artykuły o różnych znaczeniach oznaczone są na czerwono. Miłej pracy!

Łukasz Bolikowski

PS. W tekście używam konsekwentnie angielskiego terminu „link” zamiast polskiego odpowiednika „odnośnik”. W mojej ocenie b. częste występowanie w tekście długich słów tj. „odnośnika”, „odnośników”, „odnośnikami” obniżyłoby jego i tak nienajwyższą czytelność. Purystów przepraszam.

  • Tags
  • interwiki
  • narzędzia
  • wikipedia
  • wikitools
Facebook Twitter Google+ LinkedIn Pinterest
Następny wpis Linux 2.6.27.8
Poprzedni wpis TechTalk: OpenSolaris: "odkryj nowe możliwości"

Warto przeczytać

5 niezbędnych narzędzi do skutecznego prowadzenia e-biznesu Marketing

5 niezbędnych narzędzi do skutecznego prowadzenia e-biznesu

Ile kosztuje bezpieczeństwo Twojej rodziny? Marketing

Ile kosztuje bezpieczeństwo Twojej rodziny?

Wikipedia wspiera Bitcoiny Bezpieczeństwo

Wikipedia wspiera Bitcoiny

Tagi

android apple bezpieczeństwo biznes cenzura Debian edukacja facebook Firefox firma google gry hardware imprezy intel internet iphone kaspersky KDE kraj Laptopy Linux media microsoft mobile mozilla open-source oprogramowanie piractwo prawo press-release programowanie prywatność reklama Samsung smartfon Smartfony software standardy Ubuntu UNIX usa windows Wydania Wydarzenia

O blogu



OSNews to serwis poświęcony nowym technologiom oraz ich roli we współczesnym biznesie. Opowiadamy o przydatnych usługach, zmianach na rynku oraz najnowszym oprogramowaniu, które ułatwi Tobie pracę.
  • Home
  • Technologie
  • Kryptowaluty
  • Marketing
  • Finanse
  • Felietony
  • [IP]
  • Kontakt
  • Back to top

Meta

  • Zaloguj się
  • Kanał wpisów
  • Kanał komentarzy
  • WordPress.org

Kontakt

Masz jakieś pytania? Chcesz podzielić się swoimi uwagami na temat serwisu? Nie ma sprawy, po prostu napisz do nas maila.

OSNews.pl
Conrada 30
01-920 Warszawa
redakcja@osnews.pl
© OSnews.pl 2016-2023. All rights reserved.