Dla tych, którzy narzekają na słabe wsparcie dla języka polskiego w programach OCR o otwartym kodzie, interesujący może się okazać właśnie powstały projekt.
Tesseract-polish służy opracowaniu metody, która zapewni wysokiej jakości rozpoznawanie tekstów w języku polskim dla programu Tesseract OCR.
Aplikacja ta została uwolniona przez Google w 2006 roku i ma opinię jednego z najskuteczniejszych dostępnych silników OCR.
W projekcie przyda się pomoc osób chętnych drukować, skanować, a następnie żmudnie poprawiać znak po znaku pliki treningowe dla silnika Tesseract. Przydadzą się też pomysły na opracowanie jak najlepszych danych słownikowych.
Dla zainteresowanych przyłączeniem się do projektu powstał krótki dokument TrainingPL, wprowadzający w temat.