reCAPTCHA po roku działania ocaliła ponad 17 tysięcy książek
- Dodano: 15 August 2008
- Wprowadził: init.d
- Komentarze: 19
Rok temu badacze z Carnegie Mellon University pracujący pod kierownictwem profesora Luisa von Ahna stworzyli system reCAPTCHA, który wykorzystując mechanizmy odróżniania ludzi od maszyn na witrynach internetowych pomaga w rozpoznawaniu treści starych książek i pism, by przenieść je do postaci elektronicznej.
Teraz uczeni przedstawili efekty działania swojego programu, wdrożonego na przynajmniej kilkudziesięciu tysiącach witryn w Internecie. Okazuje się, że dzięki reCAPTCHA użytkownicy dokonują transkrypcji 160 książek dziennie, z ponad 99% dokładnością, mimo że większość z nich nie ma pojęcia, że uczestniczy tym samym w jakiejkolwiek użytecznej pracy.
Każdego dnia na łamach serwisów korzystających z tego systemu rozwiązuje się ponad 100 milionów testów CAPTCHA, a choć każdemu z użytkowników zajmuje to zaledwie kilka sekund, to przekłada się to setki tysięcy godzin ludzkiej pracy. Przez pierwszy rok działania systemu rozwiązano łącznie ponad 1,2 miliarda testów, co przełożyło się na odcyfrowanie 440 milionów słów i w konsekwencji ocalenie ponad 17600 książek.
Osoby zainteresowane wykorzystaniem projektu reCAPTCHA w swoim serwisie mogą zapoznać się z jego dokumentacją na reCAPTCHA Wiki oraz pobrać pliki instalacyjne pod adresem recaptcha.net/resources.html.
Więcej informacji: http://webhosting.pl/reCAPTCHA.po.roku.d...cy.ksiazek
Znalazłeś literówkę? Zgłoś ją używając formularza!
Jeśli uważasz, że ten nius jest nieobiektywny, przedstawia nieprawdziwe wydarzenie, jest spamem lub nie spełnia standardów serwisu, napisz raport.
Niusy na podobny temat:
Komentarze są prywatnymi opiniami dodających je osób. Prosimy o zachowanie kultury wypowiedzi. Komentarze obraźliwe oraz obniżające poziom serwisu będą usuwane. Więcej w regulaminie komentowania.
19 komentarzy
Wszystkie autorskie niusy w serwisie publikowane są na licencji Creative Commons Uznanie autorstwa 2.5 Polska.
Haha, świetne. Teraz tylko czekać aż jakiś oszołom upomni się o wynagrodzenie za swoją nieświadomą pracę :]
Jezeli ksiazka warta jest X to o ile powinien sie domagac user za swoja prace.. przetlumaczenie paru liter?
Bardzo pomyslowe.
A gdzie te książki można pobrać?
[ http://recaptcha.net/learnmore.html ]
Ci ludzie są genialni.
Naprawdę, świetna akcja.
zastanawiałem się jak to działa skoro treść jest nieznana więc nie ma z czym porównać. doczytałem, że słowa które ocr nie przeczytał poprawnie są łączone z tymi co przeczytał poprawnie i jeśli to drugie jest ok to zakładają, że pierwsze także. Ale w takim razie jak dochodzą do tego, które jest poprawnie odczytane przez OCR a które nie ?:)
Myślę, że po prostu dopiero po przekroczeniu pewnej liczby takich samych inputów dla jakiegoś wyrazu zostaje on uznany za odczytany poprawnie (tak, wyniki są zbierane wiele razy z wielu miejsc.)
Ok, ale tu chodzi o to, po czym odróżnia, że tekst jest poprawny. W zwykłym CAPTCHA jest losowany tekst, wyświetlany i trzeba go przepisać, po czym jest porównywany z zapisanym wcześniej na serwerze. A tutaj tekst nie jest znany.
Zapewne działa to tak: Jest pobierane słowo z dokumentu, po czym jest zniekształcane. Użytkownik pisze co to jest a program sprawdza czy podany ciąg może być tym tekstem. Łatwiej jest napisać program OCR który znając odpowiedź sprawdzi, czy mniej więcej pasuje niż rozpoznać sam tekst.
Mówię przecież: jest rozpoznawane po tym, że kilka osób odczytało wyraz tak samo.
ze strony reCAPTCHA
"More specifically, each word that cannot be read correctly by OCR is placed on an image and used as a CAPTCHA."
@Moarc Czyli co, za pierwszym razem gdy jest nowe słowo można sobie wpisać co się chce, tak? Tak wynika z tego co napisałeś.
z tego wynikałoby ze pierwsze inputy nie są zabezpieczeniem, bo można wpisać co się chce a i tak łyknie
poza tym na stronie jest wyraznie o OCR napisane
Czyli nadal w sumie nikt nie odpowiedział, jak to działa, zanim setki userów wpiszą dane słowo, z czego większością oczywiście będą poprane formy?
Zanim system "dowie" się w jakikolwiek sposób, co prezentuje dany wyraz, nie jest w stanie porównać tego, co użytkownik wpisał z tym, co wyświetlił. Jednak jeśli właśnie podczas tej operacji ma być rozszyfrowywana zawartość fragmentu tekstu, to jak to może być technologicznie rozwiązane?
Jij pisze, że "Łatwiej jest napisać program OCR który znając odpowiedź sprawdzi, czy mniej więcej pasuje niż rozpoznać sam tekst." To by mogło działać, ale sama istota tego systemu nie może polegać na "mniej więcej pasuje", tylko na filtrowaniu tzw. robaków internetowych, które tworzą konta na stronach w celu spamowania, czy używają formularzy na stronach w celu wysłania nieprzyjemnej treści ofierze.
Dobrym i prostym rozwiązaniem byłoby wymaganie podwójnego wpisania tekstu, jednego niesprawdzanego, a drugiego sprawdzanego, jednak to, który byłby sprawdzany, a który dopiero "ludzko-OCRowany", byłoby losowe i niewidoczne dla użytkownika, dlatego musiałby wpisać dwa teksty poprawnie, równie się starając przy odczycie (wiem, wiem, że jestem genialny,
. Dzięki temu zdecydowaną większość w skali masowej, dzięki rotacji słów, wpisań danego słowa na podstawie obrazka stanowiły by wpisania poprawne, a w razie wątpliwości mogłoby to być sprawdzane przez pracownika.
To wie ktoś, jak to dokładnie działa?
Dobra, sorry, że odpowiadam samemu sobie… Ale patrzę na Wikipedię i zobaczyłem tam, że jest dokładnie tak, jak pomyślałem
. Czyli rzeczywiście reCAPTCHA jest bardzo dobrze przemyślanym i podwójnie pożytecznym rozwiązaniem.
Tylko czym to reCAPTCHA właściwie jest?
I na czym polega "nieświadoma praca"?
To jest taki test, że wyświetla się obrazek z tekstem, który dla umiejącego czytać człowieka jest banalnie prosty, ale niemożliwy do rozszyfrowania dla komputera. Tylko ktoś, kto umie przepisać tekst z obrazka, jest wpuszczany na stronę.
Tylko taki CAPTCHA to darmowy OCR. Ludzie rozpoznają tekst na obrazkach i go przepisują. Wystarczy teraz słowo po słowie umieścić całą zeskanowaną książkę w testach CAPTCHA, po posłuszni internauci przepiszą ją do postaci tekstowej.
Alan Turing zamontował kiedyś przy drzwiach do swojego ogródka dźwignię, która poruszała pompą podlewającą jego roślinki. Każdy, kto przechodził przez tą bramkę, mimowolnie przyczyniał się do nawadniania ogródka.
Człowieku. Nie Turing, tylko zdaje się Edison, nie ogródek, tylko zbiornik z wodą na dachu domu!
prawie jak w dowcipie o radiu Erewap
Odpowiedzi do komentarza szczuro dość dobrze wyjaśniają o co chodzi, no ale jak pisałem swój, to jeszcze ich nie było…