Kategorie:
27

reCAPTCHA po roku działania ocaliła ponad 17 tysięcy książek

Rok temu badacze z Carnegie Mellon University pracujący pod kierownictwem profesora Luisa von Ahna stworzyli system reCAPTCHA, który wykorzystując mechanizmy odróżniania ludzi od maszyn na witrynach internetowych pomaga w rozpoznawaniu treści starych książek i pism, by przenieść je do postaci elektronicznej.

Teraz uczeni przedstawili efekty działania swojego programu, wdrożonego na przynajmniej kilkudziesięciu tysiącach witryn w Internecie. Okazuje się, że dzięki reCAPTCHA użytkownicy dokonują transkrypcji 160 książek dziennie, z ponad 99% dokładnością, mimo że większość z nich nie ma pojęcia, że uczestniczy tym samym w jakiejkolwiek użytecznej pracy.

Każdego dnia na łamach serwisów korzystających z tego systemu rozwiązuje się ponad 100 milionów testów CAPTCHA, a choć każdemu z użytkowników zajmuje to zaledwie kilka sekund, to przekłada się to setki tysięcy godzin ludzkiej pracy. Przez pierwszy rok działania systemu rozwiązano łącznie ponad 1,2 miliarda testów, co przełożyło się na odcyfrowanie 440 milionów słów i w konsekwencji ocalenie ponad 17600 książek.

Osoby zainteresowane wykorzystaniem projektu reCAPTCHA w swoim serwisie mogą zapoznać się z jego dokumentacją na reCAPTCHA Wiki oraz pobrać pliki instalacyjne pod adresem recaptcha.net/resources.html.

Więcej informacji: http://webhosting.pl/reCAPTCHA.po.roku.d...cy.ksiazek

«
»

Znalazłeś literówkę? Zgłoś ją używając formularza!


Jeśli uważasz, że ten nius jest nieobiektywny, przedstawia nieprawdziwe wydarzenie, jest spamem lub nie spełnia standardów serwisu, napisz raport.

Niusy na podobny temat:

Komentarze (RSS)

Komentarze są prywatnymi opiniami dodających je osób. Prosimy o zachowanie kultury wypowiedzi. Komentarze obraźliwe oraz obniżające poziom serwisu będą usuwane. Więcej w regulaminie komentowania.

19 komentarzy

zwiń wątek sadysta  15 August 2008 o godz. 11:03 #
Gravatar

Haha, świetne. Teraz tylko czekać aż jakiś oszołom upomni się o wynagrodzenie za swoją nieświadomą pracę :]

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
zwiń wątek sobi3ch  20 August 2008 o godz. 1:27 #
Gravatar

Jezeli ksiazka warta jest X to o ile powinien sie domagac user za swoja prace.. przetlumaczenie paru liter? :)

 
 
zwiń wątek Michal  15 August 2008 o godz. 12:24 #
Gravatar

Bardzo pomyslowe.

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
 
zwiń wątek Moarc  15 August 2008 o godz. 12:29 #
Gravatar

A gdzie te książki można pobrać? :D

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
zwiń wątek kocio  15 August 2008 o godz. 13:27 #
Gravatar

Currently, we are helping to digitize books from the Internet Archive and old editions of the New York Times.

[ http://recaptcha.net/learnmore.html ]

 
 
zwiń wątek faw  15 August 2008 o godz. 14:46 #
Gravatar

Ci ludzie są genialni. :P Naprawdę, świetna akcja.

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
 
zwiń wątek szczuro  15 August 2008 o godz. 17:14 #
Gravatar

zastanawiałem się jak to działa skoro treść jest nieznana więc nie ma z czym porównać. doczytałem, że słowa które ocr nie przeczytał poprawnie są łączone z tymi co przeczytał poprawnie i jeśli to drugie jest ok to zakładają, że pierwsze także. Ale w takim razie jak dochodzą do tego, które jest poprawnie odczytane przez OCR a które nie ?:)

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
zwiń wątek Moarc  15 August 2008 o godz. 17:24 #
Gravatar

Myślę, że po prostu dopiero po przekroczeniu pewnej liczby takich samych inputów dla jakiegoś wyrazu zostaje on uznany za odczytany poprawnie (tak, wyniki są zbierane wiele razy z wielu miejsc.)

zwiń wątek jij  15 August 2008 o godz. 17:44 #
Gravatar

Ok, ale tu chodzi o to, po czym odróżnia, że tekst jest poprawny. W zwykłym CAPTCHA jest losowany tekst, wyświetlany i trzeba go przepisać, po czym jest porównywany z zapisanym wcześniej na serwerze. A tutaj tekst nie jest znany.

Zapewne działa to tak: Jest pobierane słowo z dokumentu, po czym jest zniekształcane. Użytkownik pisze co to jest a program sprawdza czy podany ciąg może być tym tekstem. Łatwiej jest napisać program OCR który znając odpowiedź sprawdzi, czy mniej więcej pasuje niż rozpoznać sam tekst.

zwiń wątek Moarc  15 August 2008 o godz. 18:30 #
Gravatar

Mówię przecież: jest rozpoznawane po tym, że kilka osób odczytało wyraz tak samo.

 
zwiń wątek szczuro  15 August 2008 o godz. 18:39 #
Gravatar

ze strony reCAPTCHA

"More specifically, each word that cannot be read correctly by OCR is placed on an image and used as a CAPTCHA."

 
zwiń wątek jij  17 August 2008 o godz. 3:43 #
Gravatar

@Moarc Czyli co, za pierwszym razem gdy jest nowe słowo można sobie wpisać co się chce, tak? Tak wynika z tego co napisałeś.

 
 
zwiń wątek szczuro  15 August 2008 o godz. 18:42 #
Gravatar

z tego wynikałoby ze pierwsze inputy nie są zabezpieczeniem, bo można wpisać co się chce a i tak łyknie :) poza tym na stronie jest wyraznie o OCR napisane :)

zwiń wątek AlexJ  16 August 2008 o godz. 22:19 #
Gravatar

Czyli nadal w sumie nikt nie odpowiedział, jak to działa, zanim setki userów wpiszą dane słowo, z czego większością oczywiście będą poprane formy?

Zanim system "dowie" się w jakikolwiek sposób, co prezentuje dany wyraz, nie jest w stanie porównać tego, co użytkownik wpisał z tym, co wyświetlił. Jednak jeśli właśnie podczas tej operacji ma być rozszyfrowywana zawartość fragmentu tekstu, to jak to może być technologicznie rozwiązane?

Jij pisze, że "Łatwiej jest napisać program OCR który znając odpowiedź sprawdzi, czy mniej więcej pasuje niż rozpoznać sam tekst." To by mogło działać, ale sama istota tego systemu nie może polegać na "mniej więcej pasuje", tylko na filtrowaniu tzw. robaków internetowych, które tworzą konta na stronach w celu spamowania, czy używają formularzy na stronach w celu wysłania nieprzyjemnej treści ofierze.

Dobrym i prostym rozwiązaniem byłoby wymaganie podwójnego wpisania tekstu, jednego niesprawdzanego, a drugiego sprawdzanego, jednak to, który byłby sprawdzany, a który dopiero "ludzko-OCRowany", byłoby losowe i niewidoczne dla użytkownika, dlatego musiałby wpisać dwa teksty poprawnie, równie się starając przy odczycie (wiem, wiem, że jestem genialny, ;-) . Dzięki temu zdecydowaną większość w skali masowej, dzięki rotacji słów, wpisań danego słowa na podstawie obrazka stanowiły by wpisania poprawne, a w razie wątpliwości mogłoby to być sprawdzane przez pracownika.

To wie ktoś, jak to dokładnie działa?

 
zwiń wątek AlexJ  16 August 2008 o godz. 22:46 #
Gravatar

Dobra, sorry, że odpowiadam samemu sobie… Ale patrzę na Wikipedię i zobaczyłem tam, że jest dokładnie tak, jak pomyślałem ;) . Czyli rzeczywiście reCAPTCHA jest bardzo dobrze przemyślanym i podwójnie pożytecznym rozwiązaniem.

 
 
 
 
zwiń wątek szatox (ktoś)  15 August 2008 o godz. 18:27 #
Gravatar

Tylko czym to reCAPTCHA właściwie jest?

I na czym polega "nieświadoma praca"?

(Poniżej tego poziomu komentarze nie będą zagnieżdżane)
zwiń wątek haael  15 August 2008 o godz. 21:32 #
Gravatar

To jest taki test, że wyświetla się obrazek z tekstem, który dla umiejącego czytać człowieka jest banalnie prosty, ale niemożliwy do rozszyfrowania dla komputera. Tylko ktoś, kto umie przepisać tekst z obrazka, jest wpuszczany na stronę.

Tylko taki CAPTCHA to darmowy OCR. Ludzie rozpoznają tekst na obrazkach i go przepisują. Wystarczy teraz słowo po słowie umieścić całą zeskanowaną książkę w testach CAPTCHA, po posłuszni internauci przepiszą ją do postaci tekstowej.

Alan Turing zamontował kiedyś przy drzwiach do swojego ogródka dźwignię, która poruszała pompą podlewającą jego roślinki. Każdy, kto przechodził przez tą bramkę, mimowolnie przyczyniał się do nawadniania ogródka.

zwiń wątek Moarc  15 August 2008 o godz. 21:39 #
Gravatar

Człowieku. Nie Turing, tylko zdaje się Edison, nie ogródek, tylko zbiornik z wodą na dachu domu!

zwiń wątek szatox (ktoś)  16 August 2008 o godz. 0:20 #
Gravatar

prawie jak w dowcipie o radiu Erewap :)

Odpowiedzi do komentarza szczuro dość dobrze wyjaśniają o co chodzi, no ale jak pisałem swój, to jeszcze ich nie było…

 
 
 
 

Uwaga! Niektóre komentarze, m.in. te dodane przez niezalogowanych i nowych użytkowników, są ręcznie moderowane. Jeśli Twój komentarz nie ukaże się od razu, nie dodawaj go ponownie, tylko cierpliwie poczekaj na akceptację.

W komentarzach możesz używać prostych znaczników HTML. Przykłady:
  • Link: <a href="http://osnews.pl">OSnews: niusy IT</a>,
  • Wytłuszczenie: <strong>tekst pogrubiony</strong>,
  • Kursywa: <em>tekst pochylony</em>,
  • Przekreślenie: <strike>tekst przekreślony</strike>,
  • Kod: <code>printf("blok kodu");</code>,
  • Cytat: <blockquote>cytat</blockquote>
Uwaga: jeśli dodasz nieznany znacznik, będzie on niewidoczny, gdyż system filtruje takie znaczniki.

Wszystkie autorskie niusy w serwisie publikowane są na licencji Creative Commons Uznanie autorstwa 2.5 Polska.

Twoja sugestia