Warning: file_put_contents(): Only 0 of 3 bytes written, possibly out of free disk space in /www/index.php on line 95

Warning: file_put_contents() expects at least 2 parameters, 1 given in /www/index.php on line 96

Warning: file_put_contents(): Only 0 of 41 bytes written, possibly out of free disk space in /www/index.php on line 98
Вы можете помочь в распознавании (OCR) либгена | Либрусек

Вы можете помочь в распознавании (OCR) либгена

Forums: 

Stager проработал метод массового распознавания djvu-части либгена, в которой числится приблизительно 80 000 книг без текстового слоя. Вы можете принять участие и помочь в создании коллекции, пригодной для полнотекстового поиска. Страница начинания: http://lbc.rsl.ru/massocr/

Цитата:
Распознавание текста в библиотеке LibraryGenesis
цель инициативы - распознать и дополнить текстовым слоем все сканированные в картинках книги в библиотеке.
Распознавание производится силами участников инициативы, с помощью свободного программного обеспечения, на безвозмездной основе.

Если вы хотите присоединиться к инициативе - вам нужно иметь компьютер под управлением Linux, с установленной программой tesseract для распознавания, ocrodjvu для обработки djvu файлов, и скриптом на python, координирующим работу.
Описание скрипта, инструкции по установке, ссылки на скачивание.

обсуждение на форуме либгена: http://genofond.org/viewtopic.php?p=38917#p38917

Пожалуйста, присодединяйтесь - вместе результат заставит себя ждать возможно не год, а пару месяцев!

ИСТОЧНИК

X