Вы здесьРаспределённые корректоры
Опубликовано ср, 26/11/2008 - 03:54 пользователем Jolly Roger
Нахально пользуясь популярностью Либрусека, позволю себе вбросить в массы одну интересную идею - subj. Итак: Имеет существовать уже довольно давно система "Распределенные корректоры" (подробно читать здесь: http://kapija.narod.ru/Translations/dp_russ.htm ) Суть желаемого российского варианта: любой желающий заводит аккаунт редактора, открывает некий проект и заливает на сервер сканы страниц. После чего кликает клич по друзьям и знакомым (или, к примеру, посетителям некоей библиотеки... :) ), кои заходят на страничку проекта и исполняют роль корректоров - каждому из них выдается маленький кусок скана и окно с распознанным текстом, каковой вычитывается с исправлением ошибок и сохраняется. Выглядит это где-то так:
Скрипты настроены так, что каждый кусок выдается минимум двум корректорам - это дает некую гарантию качества вычитки. После окончания вычитки готовый распознанный и откорректированный текст предоставляется в распоряжение редактора и не выкладывается в публичный доступ - это позволяет с наглой мордой заявлять о нераспространении, типа "делал для себя - отлезьте, копирасты!" А где потом текст всплывёт - так это я не знаю... ;) Надобно отметить, что подобная система в рунете один раз уже была запущена - на сайте "Православная беседа", году где-то в 2003м ( http://kirrr.livejournal.com/12630.html ) , но сейчас проект закрыт ( http://pravbeseda.ru/ocrlab/ ), хотя книги, в нём распознанные и вычитаные, доступны (напр.: http://www.pravbeseda.ru/library/index.php?page=book&id=720 ). Проблема, как я помню, состояла в том, что "душой" того проекта был Братец ДыкЪ ( http://pravbeseda.ru/arc/old_agora/pravbeseda_common/1046713286.html ), занимавшийся им "по остаточному принципу", что было тяжело, и в критически малом числе добровольных корректоров в связи с нераскрученностью и православной спецификой проекта... З.Ы. Чего это я вдруг?... Это я в качестве конструктивного отклика вот на это...
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Larisa_F RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 день
Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 день Larisa_F RE:За иллюминатором (серия) - чего не хватает? 1 день Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 день Rebellioner RE:Подайте бедному копеечку на книжку с литреса... 2 дня sem14 RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 4 дня larin RE:Пропал абонемент 1 неделя tvv RE:DNS 1 неделя MrMansur RE:<НРЗБ> 1 неделя Stager RE:Беженцы с Флибусты 2 недели Tramell RE:Серия "Библиотека французской литературы" (Макбел) 2 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 недели sem14 RE:Современная корейская литература. Книжная серия... 2 недели sem14 RE:Серия "Символы времени" издательства "Аграф" 3 недели sem14 RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 3 недели sem14 RE:«Юмористическая серия» 3 недели larin RE:Оплатил. Абонемент не отображается 3 недели larin RE:Оплатил, но абонемент не отображается 1 месяц Впечатления о книгах
Stager про Курилкин: Звезданутые [СИ] (Космическая фантастика, Попаданцы, Юмористическое фэнтези, Самиздат, сетевая литература)
12 01 Детский сад - штаны на лямках. Жаль, что хорошая идея бездарно изложена. Жаль, что у современных авторов главный герой - лжец и торгаш. Ну а грамматические ошибки и уверенность автора, что муравьи плюются - так кого ныне удивишь дремучаестью? Оценка: неплохо
mysevra про Китаева: Вдова колдуна (Фэнтези)
12 01 Какая милая история! Вывод: открой пошире глаза – десять лет могла быть счастлива, а она превозмогала. Оценка: хорошо
mysevra про Гравицкий: В зоне тумана (Боевая фантастика)
12 01 Я не для того читаю про Зону, чтобы окунуться в «тонкий» психологизм и душевную драму, этого в жизни хватает. Мне действие подавай и загадки, побольше загадок. Так что книга не зашла. Оценка: неплохо
mysevra про Сорокин: Смерть со школьной скамьи (Полицейский детектив)
12 01 Хотелось бы чего-то кроме описания личной жизни главного героя и особенностей социалистического строя. Где собственно заявленный «детектив»? Мало, мало. Оценка: неплохо
Paul von Sokolovski про Алмазный: Казачонок 1860. Том 1 (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература)
11 01 Пока не впечатляет, это даже не вторично, а четвертично ( простите за термин:) надеюсь, автор распишется и сюжет и герои оживут. Будем ждать... Оценка: неплохо
Paul von Sokolovski про Алексеев: Время «Ч» [litres] (Боевая фантастика, Попаданцы)
11 01 Ну, вот и окончание эпопеи. Ещё один вариант русского царства, готового к переходу в империалистический период развития. Вполне читательно и развлекательно, всё в пределах канона. Автору спасибо, а он пусть благодарит читателей ……… Оценка: хорошо
Barbud про Старицын: Балаклава Красная (Альтернативная история, Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
11 01 Дерьмовенько, как и все прочее у этого автора. Герои скучны, безэмоциональны и безмысленны, как какие-то юниты в компьютерной игре. Клик мышкой - на суше врага разбили, еще клик - на море эскадру потопили, новый клик - заводы ……… Оценка: плохо
Barbud про Алмазный: Казачонок 1860. Том 1 (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература)
11 01 Скучно, вторично. Сюжет этого писева очень напоминает опусы еще одного воспевателя казачества, почти калька, но написано намного хуже, хотя, казалось бы, хуже уже некуда. Однако же вот... Оценка: плохо
lorealke про Arladaar: Калгари 88 (Самиздат, сетевая литература)
11 01 Читать, ЕСЛИ: Вам нравятся спортивные драмы, технические детали тренировок и жанр попаданцев. Выкинуть в мусорку, ЕСЛИ: Вас тошнит от бесконечных описаний того, как фигуристка выполнила «прыжок в три с половиной оборота ……… Оценка: хорошо
obivatel про Вперёд в прошлое
10 01 2 Barbud, и у вас, и у автора наблюдается непонимание прописных истин управления 1. У любой проблемы ВСЕГДА есть как минимум одно очевидное недорогое легкореализуемое НЕВЕРНОЕ решение 2. Никто не правит в одиночку. 3. ………
obivatel про Возвращение Безумного Бога
10 01 То ли ИИ писал по мотивам корейских манг (типа, Она открыл книга и дёрнул за обложка) , то ли одно из двух. Множественные нарушения логики, противоречия описаний и событий, несоответствия хронологии событий -- всё это режет ………
Никос Костакис про Махров: Спасибо деду за Победу! Это и моя война [litres] (Боевая фантастика, Попаданцы)
09 01 Рубашка броская – косоворотка белого цвета в национальном стиле, с вышитым воротником и этим… как его? – не помню, вокруг застежек, короче". ______________________________ Дело происходит возле украинского "бандеравского" села. Косоворотка, как украинская одежда??? Ну-ну... |
Комментарии
Отв: Распределённые корректоры
Ох-ох...
Позволю себе привести забавную дискуссию, разгоревшуюся не так давно в Гостевой Фензина. Извините, если здесь уже всплывало :)
Головой думайте Пятница, 31. Октября 2008 18:37
Ну и ну, народ. Ну и ну.
Скажите, а вы вообще способны АДЕКВАТНО оценивать окружающую действительность?
Способны?
Ну тогда скажите мне: Кто во всем рунете сканирует фантастику?
Подумайте. Не торопитесь.
Ну а если напрягаться неохота, вот вам готовый ответ:
Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют.
Головой думайте:
И чего, в этом свете, стоят ваши вопли: "Ухожу на другой ресурс!!!", "ноги моей здесь больше не будет!!!!!", а?
Представьте, что фензин закрылся. Где, собственно, вы собираетесь брать новые книги? Сами сканировать будете? Ну так начинайте, чего ж не сканируете? Только стонать способны...
-----
Между прочим, я тоже предпочитаю получать книги бесплатно. Но, в отличие от некоторых, могу оценить - кто чего стоит.
aaa:
Головой думайте, сакраментальный вопрос - откуда дровишки?
rr3:
Ну и ну. Судя по нездоровому пафосу и зацикленности на уникальности - думать Вы, к сожалению, не способны. Увидев торжественное объявление о ПЕРВОЙ отсканированной книге - сделали вывод, что книга была единственной.
"И нигде больше не сканируют" - скажите, имена sem14, amyat, aprod и многих других Вам о чем-нибудь говорят?
Головой думайте:
У меня-то с головой все в порядке, это у вас язык ее опережает. Вы, чем болтать, просто возьмите и перечислите: какая фантастика была отсканирована на либрусеке. Не распознана с чужого скана или djvu, а именно отсканирована.
Если сможете.
И продолжение:
Головой думайте (Пятница, 31. Октября 2008 18:37) :
....Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют...
-------
Сегодня подсчитал, А.Антонов на ЛИБРУСЕКе представлен 23-мя произведениями, а на ФЕНЗИНе таковых только 10.
Так что - головой думайте
Да я-то думаю:
Чего и вам желаю. Слово "сканирует" - подразумевает вреня настоящее (или вы посчитали, что я имел ввиду - от сотворения времен?). Раз уж вы не поленились занятся подсчетами, не поленитесь поинтересоваться, когда и где книги были отсканированы, а когда файлы были перекачаны на либрусек и переформатированы. А потом прикиньте, во сколько процентов попадут остальные - относящиеся к нынешнему времени.
aaa:
А почему вы решили, что я ДОЛЖЕН ЭТИМ ИНТЕРЕСОВАТЬСЯ?
Я вижу счет - 23:10, и все остальное меня волнует мало.
Кстати, а где доказательства что только ФЕНЗИН занимается сканированием.
Пока я видел только голословные заявления, и не менее голословные обвинения
О как!:
Получается, интересоваться вы этим НЕ ДОЛЖНЫ, зато, что-то ДОЛЖЕН вам я?
Вы посчитали 23 к 10 и что? Все?
Я вот посмотрел автора, откинул эротику и боевики (которые вы почему-то посчитали?), посмотрел остальные книги - и не нашел среди них отсканенных в последнее время.
НО, может быть нашли вы? Не-а, вы оказывается и не искали. Вам это не интересно. Но, голословен, конечно я.
А вы тогда кто? Своей головой думать совсем не хочется?
aaa:
А почему вы решили, что я вас к чему-то обязываю.
Я просто констатировал факт.
Без комментариев.
У вас - одни лозунги. Фактов нет.
Тоже без комментариев.
У меня нет никакой возможности проверить, кто, где и что сканирует.
Как нет и такого желания.
Я читатель, а не следователь.
И меня это интересует не больше, чем страна и компания в которой сделали сахар, для моего утреннего кофе
Кстати, чем вам боевики не угодили?
Вместе с эротикой.
Про боевики и эротику:
Эротика - это наше все. Только вот разговор был о сканировании фантастики - вы это как-то упустили. Фензин - это вообще сайт, посвященный фантастике.
По поводу лозунгов:
Хм.. Я вам высказал мнение завсегдатая различных книжных сайтов и форумов, результат, если хотите, многолетнего мониторинга сети. Я бы не назвал это лозунгами. Другое дело - вы можете с моим мнением не согласиться. В таком случае, человек, как правило, пытается разобраться в ситуации самостоятельно - но этого вы тоже не хотите. Вы хотите от меня фактов и доказательств.
По поводу фактов:
Ну факты - они просты: вы видете прямо перед собой ресурс, регулярно выкладывающий отсканированную им фантастику - и не видете подобного на других ресурсах. Если вы знаете другой такой ресурс (кроме БСЧ) - поделитесь знанием.
По поводу доказательств: а что вы готовы счесть доказательством? Какого рода доказательства устроили бы лично вас?
aaa:
Ну с эротикой все ясно - тут у нас полное совпадение.
А как насчет боевиков?
Ах да, мы ж про фантастику!
Извините, увлекся.
Я люблю книжки читать, а не с мониторингом разбираться.
А что вы можете предложить.
Вот и мне интересно:
Мое мнение - вас не устраивает. Самостоятельно изучить вопрос - не-а, это не для вас. На вопрос "что вас бы устроило?" - вы, похоже, и сами не знаете, что ответить.
Вы хотите, чтобы я вам посоветовал - что делать?
aaa:
Вас зовут Н. Г. Чернышевский?
Или В. И. Ульянов-Ленин?
Вы серьезно считаете, что будучи в 2500 км от Москвы и 12000 км от Эквадора,
не имея никакого отношения ни к правоохранителям, ни к правооблаЖателям,
я займусь исследованием вопросов "что происходит?", "кто виноват?" и "что делать?"
Я лучше кофе попью с хз чьего производства сахаром :)
-------------------------------------------------------------------------------------------------------------
Неужели ситуация действительно настолько плачевна? :)
Что до сабжевого проекта - лично я всеми конечностями за, и готова поддерживать по мере сил. Только один вопрос к Jolly Roger - возможен ли запуск такого проекта тут, на либрусеке, или я чего-то не понимаю?
Отв: Распределённые корректоры
Ну это уж точно не ко мне вопрос. "Мопед не мой", я просто на удачу запускаю идею в ноосферу...
Уверен лишь, что если такой проект появится, то мы его задействуем в интересах Либрусека наверняка. :)
Отв: Распределённые корректоры
Спокойствие, только спокойствие.... У нас и у самих планшетные сканеры найдутся! :)
Если серьезно, источник сканов в Рунете далеко не единственный - раз.
Предлагаемый проект - не распределенное сканирование и не распределенный OCR, а именно вычитка. Ей тут и так только ленивый не занимается. :) Думаю, что прочитать и вычитать интересующую книгу целиком - более удобно, чем покусочно.
Отв: Распределённые корректоры
Ну дык. Олдмаглиб и Ершов - с ходу.
Да, но "гуртом батька бить легчей" и такая система позволяет производить вычитку гораздо быстрее и качественнее.
Отв: Распределённые корректоры
Возможно, просто непривычно как-то. Скажем так: я - эгоист, и горд тем, что сам этого достиг. Если кто-нибудь такую систему развернет, готов принять участие в тестировании и эксплуатации. Но поднимать сам даже и пытаться не буду, зашиваюсь :(
Отв: Распределённые корректоры
И это, и то - не очень умные стенания в стиле - ах! что же будет!
В свое время я и сам сканировал книжки и уж с десяток то их по инету гуляет в моем скане. Но потом оказалось, что народ успевает сосканить и выложить раньше, чем я доберусь до любимых авторов (в смысле пока куплю, пока найду время сосканить...). Так что долго ничего не сканил.
Если вдруг окажется, что то, что мне нравится, в бумаге уже давно есть, а в электронном формате нету, будьте спокойны - найду время купить и отсканить. Конечно только тех авторов, которых уважаю. Но вкусы у всех разные, так что не пропадем.
Кроме того, ИМХО, сегодня важнее вычитка. Книжки, в которых все время нужно мысленно одни буквы заменять другими и гадать иногда, что же вообще было написано, уже подзадолбали с тех же фензиновских времен.
А в предлагаемой системе поучаствовал бы безусловно.
Отв: Распределённые корректоры
Что-й то я плохо себе реализацию представляю...
Открытый ОЦР, понимающий русский язык, считай один - CuneiForm.
Сырой, как мох в болоте (я про невиндовый вариант).
Далее - требования к сканам. Они должны быть, видимо, в виде пачки постраничных файлов - а так никто не сканит.
Ну, дежавю ещё можно раздербанить на джипеги, но какчество от этого не повысится... А ПДФ - вообще труба дело.
Угу, ЦПУ-лоад такая хрень будет давать нехилый (хоть и бурстами) - не каждому хостеру понравится.
Вот...
А так - что ж, взять вики-движок (может, докрутить чего), да и выложить "документ", как серию "прошитых" страниц.
В начальный момент - предварительный ОЦР + "иллюстрация" скана.
Правьте до посинения.
Отв: Распределённые корректоры
Идея очень хорошая! Для примера: Сейчас ищу книгу Смирнов Андрей "Дары волшебства". В электронке пока нет, а бумагу не покупаю лет 8. Если бы был скан - помог вычитать. И таких как я, надеюсь здесь много. Так что, дерзай народ мы вас поддержим! А то загнётся литрес с непутёвым фензином - где оперативно брать новинки книжного рынка? Да и качество вычитки некоторых имеющихся текстов оставляет жалкое впечатление.
Отв: Распределённые корректоры
Идея вполне себе интересная. IMHO OCR тут не причем, здесь скорее вычитка и набор ( плюс возможно верстка ) из сканов страниц. Я думаю хранилище страниц из одной книги + какой-нибудь VCS + веб морда/софтина + координатор на каждую книгу -- таким, например, может быть вариант для подобной вычитки экземпляра книги. Оверлода для провайдера здесь не будет, сканеры заливают страницы -> вычитывальщики лочат выложенные страницы и коммитят вычитанне ( набранное ) -> координатор скриптом ( или руками ) собирает готовое -> выкладывает в библиотеку и закрывает текущий проект если нужно ( все готово ).
Думаю, важен такой проект будет не столько для книг в fb2, склолько для книг, в которых важно соответствие верстки.
Вот такое IMHO.
Отв: Распределённые корректоры
Ну, положим, сам редактор можно из WYMeditor'а сделать...
Он - уже "XMLный", для ФБ2 мало чего надо...
А если не FB2/XHTML - тогда как? Что у нас такого для вёрстки есть?
Отв: Распределённые корректоры
Да, с версткой конечно засада, на ум, кроме TeX, быстро ничего не пришло.
Отв: Распределённые корректоры
ото ж...
Отв: Распределённые корректоры
Да можно даже не Вики,а любой нормальный движок с гибкой настройкой прав доступа.
Отв: Распределённые корректоры
Права - сакс.
История/откат - рулез.