Горе оцифровщики или проблема соурсов

В который раз сталкиваюсь с проблемой горе-оцифровщиков, сейчас это был "Владыка Сардуора" Зыкова - количество ошибок просто огромно, формат местами потерян полностью, местами у отдельных параграфов отсутствует конец (известный баг Файнридера) , кое какой текст повторяется 2 раза и т.д. ... Собственно попросту говоря файл не вычитали. Я не хочу наезжать на тех кто оцифровывал - иметь книгу даже в таком виде лучше чем вообще не иметь, однако передо мной возникла следующая проблема:
Я хотел бы поправить/вычитать - но не могу, нет сканов. Да кой какие мелкие ошибки можно исправить и без них НО при таких серьезных "повреждениях" текста при оцифровке одной логики не хватает.
В результате возникла у меня такая мысля:

А почему бы не завести возможность на Либрусеке например "присоединения" сканов к тексту книги?
Причем сделать это надо "умно" - во первых чтобы сканы не были "отдельной" книгой а только "цеплялись" к существующей, во вторых, чтоб не появлялись в "новинках" и ежедневных и прочих архивах и подобное.
Собственно качество не должно быть особенно высоким, 5-6 мегабайтные дежавю например вполне должно хватить, ведь цель не OCR а всего лишь возможность "сверится" , проверить форматирование, недостающие или неоднозначно оцифрованые слова и тому подобное.
Идея конечно для всеобщего обсуждения но в первую очередь понятно Илье - имплементировать и предоставлять место на дисках в конечном итоге все таки ему :)

Комментарии

Здравая мысль. Я за. Вопрос где выкладывать?

Вот так, например?
Хотя... а поможет? ИМХО "правильный" OCR'щик сам проверит на ляпы, а ленивый и скан не выложит. :(

Аватар пользователя Captain Scarlett

А что мешает в данном случае (Зыков) обратиться непосредственно к автору оцифровки? http://huge-library.ru/user/Hornet/

Тем что Зыков это только последний пример, а на такое натыкаешься постоянно.

Действительно, проще спросить-попросить (на форумах, в либах) скинуть сканы отдельных страниц, чем каждую книгу в виде сканов в сеть тащить.

Если честно то от тебя я такого не ожидал.
Скажи какие именно ты будешь страницы просить и как? - Номера то не сохраняются. Ну предположим куски текста будешь давать -ты считаешь это "не сложно"?
И это если таких страниц штук пять еще можно, а если их много?
Не говоря уже про то что это поможет только исправить ошибки и недостающие слова, а как форматирование проверять?
Плюс, на каких таких форумах? Особенно если книга редкая так вообще...

Lord KiRon написал:

Ну предположим куски текста будешь давать -ты считаешь это "не сложно"?

Ага, так и делал, когда надо было.

Lord KiRon написал:

И это если таких страниц штук пять еще можно, а если их много?

Сколько надо, столько и просил. Или доставал книгу и правил по ней.

Lord KiRon написал:

Плюс, на каких таких форумах? Особенно если книга редкая так вообще...

На разных. Зависит от книги.
Но обычно на околокнижных, как ни странно )
На альде, на фикшене, на ебуках, тут...
По своей тематике - на собачьих форумах...

Т.е. когда это надо не для каждой книги, а для некоторых, да еще и не раритетных (которые легко купить на том же алибе), проще найти источник и сверить с ним.
А совсем редкости, конечно, надо в дежавю, тут без вопросов.

А учитывая, что сабжевая книга стоит 100+ р и свободно доступна для заказа (http://www.findbook.ru/search/d1?title=%C2%EB%E0%E4%FB%EA%E0+%D1%E0%F0%E4%F3%EE%F0%E0&r=0&s=1&viewsize=15&startidx=0) - вообще проблемы не вижу.

Как раз сейчас делаю книгу, которой в продаже нет. (Нигде не нашел за пару лет.) А у меня был исходник без иллюстраций.
Поднял задницу, пошел в ленинку, заплатил и переснял все, что было нужно.
А что делать, охота пуще неволи ))

Делается книга Djvu. Заливается в качестве дубля. Обьединяется с fb2. Все. В базе есть, в новинках\книгах не видна. При необходимости можно скачать и свериться. Механизм для этого уже есть, ничего нового придумывать не надо. Как вариант(предпочтительный) заливается на файлообменник и ссылка поститься в комментах или аннотации.

В принципе да, но в результате "пухнет" база, ежедневные дополнения и т.д., да и если честно при отсутствии "кнопочки" на которую человек посмотрев сможет подумать "а это что такое и для чего?" большинство сканеровщиков/оцифровщиков просто не подумают что нужно залить, тем более когда еще с ФТП "мучатся" и коменты писать ...
Психология она такая штука... ну как с кнопкой "donate" - всегда можно было перевести деньги но в месяц всего несколько сотен набиралось а последнее время и того поменьше, а как повесили на главной и с описанием "на что" то сразу за 3 дня $900 накидали.
А с файлообменника кстати файлы имеет склонность исчезать.

Идея-то полезная... Но, это надо: чтобы сканировал, распознавал, и вычитывал один человек; чтобы заливал он изначально именно на либрусек (а не, к примеру, на БСЧ:)); чтобы он умел собирать "правильные" djvu. Со всеми можно договориться и всему научиться, но ты ж сам писал: "Психология она такая штука..." В результате, функция будет если и реализована, то очень мало востребована - овчинка выделки не стоит.

Угу, но если функция не будет реализована то вообще никто делать не будет - святых и трудоголиков втоде TaKir-а ;) не так то много.
А так может хоть что то будет.

Lord KiRon написал:
Угу, но если функция не будет реализована то вообще никто делать не будет - святых и трудоголиков втоде TaKir-а ;) не так то много.
А так может хоть что то будет.

Боюсь, что не поможет. Тут верно говорили: добросовестный оцифровщик проверит свою работу, недобросовестный - никакого ДежавВю ни делать ни заливать не станет.
Хотя, если у того же "недобросовестного" целенаправленно попросить исходники конкретного файла, то он скорее всего их пришлет.
Так что, ИМХО, не сильно поможет в вычитке добавление такой функции, не стоит овчинка выделки. А жаль.:(

locksmith написал:
Идея-то полезная... Но, это надо: чтобы сканировал, распознавал, и вычитывал один человек; чтобы заливал он изначально именно на либрусек (а не, к примеру, на БСЧ:)); чтобы он умел собирать "правильные" djvu. Со всеми можно договориться и всему научиться, но ты ж сам писал: "Психология она такая штука..." В результате, функция будет если и реализована, то очень мало востребована - овчинка выделки не стоит.

К сожалению, БСЧ по функционалу к Либрусеку не приблизится (а вот чисто визуально мне там приятнее), но опять-таки таких случаев как с Зыковым и Беккером там точно не будет (по крайней мере пока новинки проходят через меня). Соответственно, сканов там не будет (и неважно, что функционала под это нет, (смеётся)), однако в принципе, всё что я сам сканировал, у меня на винте и при желании может быть залито на либрусек.
Но в целом скажу так: 1) идея неплохая б) халтурщики могут и забить на это, как забивают на вычитку в) качественно вычитанные книги в "мелком" дажавю смысла имеют мало, если только действительно проверить оформление г) заливка больших сканов вызывает вопрос места, так как использование файлообменников не выдерживает никакой критики, так как встаёт большущая проблема с умиранием ссылок.
Где-то так.

P.S. Я бы всё-таки первоочередной необходимой идеей назвал перекрёстную базу "кто чего сканирует/планирует". Хотя бы в виде ссылок на форумы различных библиотек. И желательно без флуда в соответствующих темах.

Lord KiRon написал:
А с файлообменника кстати файлы имеет склонность исчезать.
Нуу, месяц-то они всяко лежат (если, конечно, не давать имён вида "пиратский скан копирайтной книги.djvu" :) ), а за это время если не понадобится, значит... хотя нет, ничего это не значит: то ли .fb2 OK, то ли его ещё не нашёл тот, кому нужно.

Что-то не пойму - а зачем все эти костыли?
Зачем исправлять кривизну чужих рук? Если сделал кто-то криворукий кривую книжку, можно считать что ее просто нет.

Тебе очень хочется делать двойную работу? То есть вместо того чтобы просто вычитать еще и лишний раз купить, отсканировать и т.д.

Да не делай, вычитай то, что у тебя есть под рукой или свои сканы.
А то, чего у тебя нет, сделает кто-то другой )

Да. Я лучше сам сделаю работу с нуля, чем буду за кем-то разгребать

Вычитал. В одном месте, где была действительно непонятка, просто зашёл в соседний книжный магазин. Единственный повторяющийся кусок убрал. Возможно где-то не смог полностью восстановить изначальный книжный формат, но на удобство прочтения это никак повлиять не должно.

vovavg написал:
В одном месте, где была действительно непонятка, просто зашёл в соседний книжный магазин. Единственный повторяющийся кусок убрал.
Тебе хорошо. А есть такая книга - Полищук "Звёздный человек", в ней не хватает нескольких страниц, книга шестьдесят какого-то года, можно ещё купить в alib.ru, но вместе с доставкой мне обойдётся в больше четверти зарплаты. :(

Рыжий Тигра написал:
А есть такая книга - Полищук "Звёздный человек", в ней не хватает нескольких страниц, книга шестьдесят какого-то года, можно ещё купить в alib.ru, но вместе с доставкой мне обойдётся в больше четверти зарплаты. :(

http://lib.rus.ec/b/76475

Flint написал:
Рыжий Тигра написал:
Полищук "Звёздный человек", в ней не хватает нескольких страниц
http://lib.rus.ec/b/76475
Во-во, я о ней:
Цитата:
Иногда Солнце заслоняет Меркурий, иногда Меркурий черной точкой проходит по диску Солнца. С той стороны, что обращена к Солнцу, он горяч, с другой стороны холод… Это очень интересная планета, // растущую со скоростью взрыва. С двух противоположных ее концов солнечное вещество уплотняется, уплотняется при температурах в сотни миллионов градусов… по вашей шкале температур. Ядра водорода и гелия, лития и бора соединяются вместе, превращаясь в более тяжелые ядра железа и кремния, урана и золота, свинца, ртути… Эти-то уплотнения и есть зародыши планет.
Вот в точке разрыва как раз и не хватает нескольких страниц. :(

Рыжий Тигра написал:
Полищук "Звёздный человек", в ней не хватает нескольких страниц, книга шестьдесят какого-то года, можно ещё купить в alib.ru, но вместе с доставкой мне обойдётся в больше четверти зарплаты. :(

http://www.libex.ru/detail/book299242.html
160р. всего

TaKir написал:
160р. всего
Плюс доставка в соседнюю страну. Книга, конечно, хорошая, но я морально не готов выкинуть туеву хучу денег на несколько недостающих страниц - кризис... :(
Кстати, а почему только одно предложение? Я как-то летом на алибе искал - было больше десятка. Ну, я честно каждому продавцу выслал письмо с просьбой эти страницы отсканить или хоть сфоткать. Все честно признались, что нечем / не умеют / не получилось, и только один - что сканы не рассылает в принципе. :)
Аватар пользователя Ronja_Rovardotter

Рыжий Тигра написал:
Плюс доставка в соседнюю страну.

В порядке справки. Летом доставка книги из Донецка в Россию (несколько дальше Москвы) ценной бандеролью обошлась всего в 70-80 рублей. Книга дошла в пункт назначения дней за 10 (может меньше, точно не помню).
Не так уж все и страшно :)

Ronja_Rovardotter написал:
доставка книги из Донецка в Россию [...] Не так уж все и страшно :)
То, может, вместо фонда сканов для вычитки заведём фонд бумажных оригиналов? Ведь, к примеру, проблему отсутствующих страниц наличие скана не вылечит - скорее всего, в нём не будет этих же страниц. :(
Аватар пользователя Ronja_Rovardotter

Рыжий Тигра написал:
может, вместо фонда сканов для вычитки заведём фонд бумажных оригиналов?

:)) и чтоб каждая книга в двух экземплярах, один из них - контрольный в несгораемом сейфе. А храниться они будут в Эквадоре, в книжном кафе у Ильи, книги для которого он просил присылать.

Рыжий Тигра написал:
Ведь, к примеру, проблему отсутствующих страниц наличие скана не вылечит - скорее всего, в нём не будет этих же страниц. :(

Кстати, да. Вся проблема в том, что из процесса оцифровки никак не исключить злополучный человеческий фактор. Остается решать вопрос с каждой книгой в индивидуальном порядке.

Короче как всегда вместо обсуждения о том как решать имеющуюся проблему получил два варианта стандартных ответов: 1.А я такой герой что и без этого обхожусь. 2.Все равно большинство пользоваться не будет а я ...(дальше см 1).
Дело ваше конечно, но насчет первого флаг вам в руки, дальше комментировать не буду, а насчет второго... ну и вычитывают то единицы, большинство не вычитывает, так можем и загрузку новых версий отменим, все равно мало кто вычитывает, а кому надо могут и библиотекарям на мыло послать - это по этой же логике.
Короче как хотите, я предложение высказал, его как всегда обосрали, ну и... собственно мне оно тоже не сильно надо, хотелось как лучше...

Lord KiRon написал:
вместо обсуждения о том как решать имеющуюся проблему
А чё там обсуждать-то? Простейшее решение уже найдено: .fb2 в библиотеку, .pdf/.djvu скана на ifolder, линк на скан в отзыв к .fb2. Я, по крайней мере, буду выкладывать так. Мне идея нравится, а реализация неудобств не вызывает.

Что касается тебя так это вообще не к тебе тема :), после твоих вычитываний ошибок почти не остается а если и попадаются то совсем не такие что требуют сорсы.

Lord KiRon написал:
после твоих вычитываний ошибок [...] не такие что требуют сорсы.
А не факт, что всегда так будет: если придётся быстро OCR'ить толстую пачку книг? Или ещё лучше - сканить и OCR'ить толстую пачку "на выезде" в спешке?

Да понятно всем, что ты хотел как лучше. Никто и не собирался твоё предложение обсирать, идея-то хорошая, особенно если тексты сюда приходили бы только через OCR. Просто тут даже при наличии такой опции, которую ты предлагаешь, перед OCR-щиком встаёт психологическая проблема о признании собственной работы некачественной (требующей ещё и PDF/DJVU-дополнения), а на это не у каждого хватит духа. В итоге получим, что добросовестные OCR-щики будут кроме своего качественного FB2 выкладывать ещё и PDF/DJVU (просто на всякий случай - а вдруг они где-нибудь ошиблись), а недобросовестные продолжать лепить корявые FB2 и считать, что так правильно.
А ещё не надо забывать, что тексты сюда приносят не только оцифровщики - такие пользователи при всём желании не смогут воспользоваться этим сервисом, зато потом имеют шанс получить от ревнителей чистоты наезд типа: "А почему выложили невычитанный текст, а скан к нему не приложили?"

У Вас взгляд на вопрос не правильный :) не надо думать что "работа не качественная" надо думать:
а. Добавление скана повышает "коллаборацию" - ну не было у оцифровщика сил вычитывать вот он и дает другим "отполировать" :)
б. Это еще и сохранение источника, на будущее, вдруг кого заинтересует не только текст а именно сама книга, ее оформление скажем, фонты и т.д.

Lord KiRon написал:

б. Это еще и сохранение источника, на будущее, вдруг кого заинтересует не только текст а именно сама книга, ее оформление скажем, фонты и т.д.

Интересно, насколько это востребовано.
Всегда делаю djvu со своих сканов. С удовольствием бы их куда-нибудь вывалил. В основном для таких любителей. Как бы понять, стоит ли.

Цитата:
А почему бы не завести возможность на Либрусеке например "присоединения" сканов к тексту книги?

Вроде логично... может стоит такое завести?

Понимаю о чём речь,но... Последнее время читаю новинки исключительно в редакторе и попутно исправляю найденные ошибки. Хотя бы для собственной библиотеки. Зыкова почти закончил и не встретил особых трудностей. А уж дубль-текст убрать ума особо не надо. Единственная проблема с некоторыми словами написанными курсивом. Я его убрал, как не имеющего смысловой нагрузки. Проблему вычитки можно решить проще. Достаточно в примечаниях писать: вычитано - не вычитано.

"Вычитано" тоже разной степени бывает ;)

Цитата:
"Вычитано" тоже разной степени бывает ;)

Согласен. Но всё же это лучше, чем ничего и значительно проще сделать, чем сканы выкладывать. Либо надо отменять принцип "вики", чтобы выкладывали только библиотекари. А это противоречит политике либрусека.

Lord KiRon написал:
"Вычитано" тоже разной степени бывает ;)

Тут, кстати о сканах, с "Башней шутов" http://lib.rus.ec/node/157773 проблема образовалась.

Я вот что хочу сказать: Качество вычитки напрямую зависит от качества ОКР, а качество ОКР зависит... правильно,от качества сканирования.
А происходит это потому, что сканируют люди пользуясь установками по умолчанию. А здесь и разрешение 200 дпи, и полноцвет, который файнридеру и на фиг не нужен, и лезущий везде, где только сумеет, фон.
Отсюда и...
Давно хотел поговорить на эту тему.
Могу поделиться опытом получения качественных сканов со сложных оригиналов. Это кому-нибудь надо?

mazay написал:

Могу поделиться опытом получения качественных сканов со сложных оригиналов. Это кому-нибудь надо?

Ну конечно надо. Всегда полезно узнать что-то новое.
Для хорошего сканирования, кроме разрешения и проч. ещё важно хорошо открывать и прижимать книгу. Книгу надо предварительно "поломать". Сначала открыть на максимум на середине (слышится приятный хруст). Потом на середине от середины - в ту и другую сторону, и т. д. раз десять. Ну вот, книга уже выглядит непрезентабельно, а значит к сканированию готова.

Ну, за недельку-другую напишу. Сейчас просто дома сканер недоступен.
А куда выложить? Рассылать во все стороны не смогу.
Ау! Библиотекари! Это, наверное, относится к ЧаВо?

mazay написал:
Ну, за недельку-другую напишу. Сейчас просто дома сканер недоступен.
А куда выложить? Рассылать во все стороны не смогу.
Ау! Библиотекари! Это, наверное, относится к ЧаВо?

Можно в ЧаВо, можно в своём блоге сделать тему, а библиотекари внесут в ЧаВо. Как Вам удобнее.
Лишь бы написали. ;)

niksi написал:
Для хорошего сканирования, кроме разрешения и проч. ещё важно хорошо открывать и прижимать книгу. Книгу надо предварительно "поломать".
Совершенно не обязательно, если под руками правильный CCD-сканер. (Бывают ещё "неправильные" - с матрицами микролинз, у них если бумага отстаёт от стекла на полмиллиметра - всё, привет резкости, сливай воду; CCD-сканер отлично берёт при расстоянии до бумаги в сантиметр-два.) У меня сканер HP-2410, пластмассовенький, не особо шустрый, но зато берёт неломанные книги! :)

mazay написал:
...Качество вычитки напрямую зависит от качества ОКР...

Боюсь не соглашусь с вами, точнее да, но качество "ленивой" вычитки когда быстренько так набегом просматривают. При нормальной вычитке, когда читают все, а затем еще и сверяют форматирование - такой проблемы нет.
Хотя хорошие сканы это всегда хорошо конечно, экономит кучу времени и облегчает работу.

Lord KiRon написал:
mazay написал:
...Качество вычитки напрямую зависит от качества ОКР...

Боюсь не соглашусь с вами, точнее да, но качество "ленивой" вычитки когда быстренько так набегом просматривают. При нормальной вычитке, когда читают все, а затем еще и сверяют форматирование - такой проблемы нет.
Хотя хорошие сканы это всегда хорошо конечно, экономит кучу времени и облегчает работу.

Если строго подойти к вопросу, то звучать это должно так:
Чем выше качество сканирования, тем меньше ошибок распознавания, тем меньше придется вычитывающему вносить исправлений. Вычитка будет достаточно быстрой и комфортной, то есть, ошибок будет пропущено меньше.
А в случае выкладывания невычитанного текста, тем более!

Lord KiRon а нельзя в следующий раз сканировать, что-бы тире отображались?
Я об Академии вампиров. Осталось страниц 50.
А! Я понял это нарочно, что-бы я читал каждое слово.:(

Академия вампиров будет на Старом Чародее ( http://bomanuar.com/forum/index.php?topic=231.0 ) .
Сюда выложил очень поганого качества Dejavu для тех кому не терпится а так же для верификации ошибок в будущем. FB2 с него делать точно не надо.

Lord KiRon это называется подлянка. Я сижу второй день и почти доделал, сверяю каждую букву.
А оказывается есть скан лучше. Очень нехорошо. Не по товарищески. Я даже не знаю как это назвать!

Это называется что нужно организовываться о чем я давно говорю. Тогда бы я не покупал те книги которые к тому моменту когда они приходят уже появляются в сети, никто бы не делал одну и ту же книгу два раза и т.д.
Но народ поднял крик в стиле "зачем это нужно" , "те кому надо и так знают" , "есть топик на форуме" , вот да кстати есть топик на форуме - кто вам виноват что вы на форум старого чародея не заглядываете ?;)
А серьёзно - это очень раздражает, да.

Страницы

X