Координация сканирования и вычитки

Для лучшей координации сканирования новых книг запустил сервис http://lib.rus.ec/ocr

Комментарии

Аватар пользователя Миррима

sem14 написал:
жму руку

(кагбэ между прочим) А у меня опять выходные...

Миррима написал:
sem14 написал:
жму руку

(кагбэ между прочим) А у меня опять выходные...

Там laurentina1 ждёт-не дождётся какую-ту книгу. ;)

golma1 написал:
После этого проверяю текст на склеенные абзацы - см. Советы TaKir'a.

Мне проще делать это, и еще многое другое скриптом EmEditor, который абсолютно нагляден, прост, дополняется по мере вычитывания книг, поскольку можно включать новые и новые ошибки.
Вот кусочек этого скрипта:
\!\l - поиск восклицательный знак-нижний регистр
\?\l - поиск вопросительный знак-нижний регистр
\!\u - поиск восклицательный знак-верхний регистр
\?\u - поиск вопросительный знак-верхний регистр

GMAP написал:
golma1 написал:
После этого проверяю текст на склеенные абзацы - см. Советы TaKir'a.

Мне проще делать это, и еще многое другое скриптом EmEditor, который абсолютно нагляден, прост, дополняется по мере вычитывания книг, поскольку можно включать новые и новые ошибки.
Вот кусочек этого скрипта:
\!\l - поиск восклицательный знак-нижний регистр
\?\l - поиск вопросительный знак-нижний регистр
\!\u - поиск восклицательный знак-верхний регистр
\?\u - поиск вопросительный знак-верхний регистр

Мммм...
Это, во-первых, ещё одна программа, которую нужно запускать. А во-вторых, в ФР у Вас есть возможность сразу сравнить с исходным текстом. С моей точки зрения, это громадное преимущество по сравнению с другими программами.

А что значит в этом скрипте "нижний/верхний регистр"?

golma1 написал:
А что значит в этом скрипте "нижний/верхний регистр"?

!а ?а !А ?А
Зачем мне вычитывать глазами технические ошибки OCR FR, если скрипт это сделает быстрее и надежнее? Учитывая, что FR способен насажать уйму собственных ошибок, без всяких указаний на таковые. Лучше я потрачу время именно на вычитывание, то бишь на смысловые ошибки, которые не выявит ни один из существующих редакторов.

GMAP написал:
golma1 написал:
А что значит в этом скрипте "нижний/верхний регистр"?

!а ?а !А ?А

Тогда я не поняла, что именно он ищет. Мы, кажется, говорили о склеенных абзацах?

GMAP написал:

Зачем мне вычитывать глазами технические ошибки OCR FR, если скрипт это сделает быстрее и надежнее? Учитывая, что FR способен насажать уйму собственных ошибок, без всяких указаний на таковые. Лучше я потрачу время именно на вычитывание, то бишь на смысловые ошибки, которые не выявит ни один из существующих редакторов.

Конечно. Если у Вас есть скрипт, который исправляет технические ошибки OCR (мы ведь не о "Поиске по регэкспам" в ФБЕ говорим, не так ли? Хотя он делает именно это), то быстрее скрипт это сделает ужо всяко. Насчёт надёжнее не знаю, надо сравнивать.

"Смысловые ошибки" - это я опять не поняла. Вы про вычитку текста, что ли?

golma1 написал:
Тогда я не поняла, что именно он ищет. Мы, кажется, говорили о склеенных абзацах?

Ищет нечто вроде опе!чатка или А?збука. Такие ошибки бывают, а что до абзацев, то там анализ идет по регистру буквы/запятой/ и следующему Enter, или дефис-Enter, или Enter-дефис, когда FR вместо тире лепит дефис в прямой речи. Я же говорил, это только кусочек для примера, на самом деле, в скрипте длииииная строчка, которая постоянно пополняется.
golma1 написал:
"Смысловые ошибки" - это я опять не поняла. Вы про вычитку текста, что ли?

Да. Где поезд поет вместо ухода :-)

Поскольку народ проявил некоторый, хотя и очень робкий интерес к вылавливанию технических блох в текстах с помощью скрипта EmEditor, вот реальный пример, который можете использовать, добавляя или убавляя необходимое:
[^а-яА-Яa-zA-Z0-9\s\.\,\—\?\!\-\*\(\)\«\»\;\:]
При поиске с данным скриптом пропускаются все русские буквы (оба регистра, кроме ё), все латинские буквы (оба регистра), все цифры, пробелы, точки, запятые, тире, вопросительные и восклицательные знаки, дефисы, "звездочки", скобки, кавычки, точки с запятой и двоеточия. Остальные знаки будут подсвечены. Если что-то нужно добавить или убавить, это легко делается, ибо наглядно. Знак ^ в начале служит отрицанием, то есть, ^а-я - НИ одна из букв русского алфавита (кроме ё) в нижнем регистре и т.д. При добавлении любого другого знака, перед ним ставится \ (бэкслэш). Допустим, нужно исключить из поиска апостроф, это будет так: \'
По мере отработки скрипта, продолжение следует...

Аватар пользователя alexej36

Цитата:
Поскольку народ проявил ... интерес к вылавливанию технических блох в текстах с помощью скрипта EmEditor

GMAP, Вы так свой продукт рекламировать собрались?

alexej36 написал:
Вы так свой продукт рекламировать собрались?

Угу. А еще ФайнРидер, АфтерСкан, ОРФО, Ворд, WinXР и еще мно-о-ого чего по части своего программного обеспечения. Можно было сразу догадаться и не напрягать себе топтанием батонов.
Аватар пользователя Isais

alexej36 написал:
Цитата:
Поскольку народ проявил ... интерес к вылавливанию технических блох в текстах с помощью скрипта EmEditor

GMAP, Вы так свой продукт рекламировать собрались?

*зевая* Этого продукта все равно нет на рынке в сборке FBE. Так что его синтаксис как-то... Пусть хоть обрекламится.

Иногда у сканировщиков возникают ситуации, когда отсканировано много книг, и непонятно, кто и когда их будет распознавать, верстать и вычитывать. Ну, или просто нашёлся скан, которым самому заниматься неохота или руки не доходят, а отдать некому.

Предлагаю рассмотреть возможность выкладывать сканы на стадии "отсканировал". Наверное, в виде единого архива.
Соответственно, сканы может скачать любой зарегистрированный user, доступившись к карточке книги.

После того, как книга залита сканы можно будет с сайта убрать и слить в долговременное хранилище, на тот случай, "чтобы были".

Думаю, что выгоды от реализации такого предложения будет достаточно: во-первых, затраченный на сканирование труд гарантированно не пропадёт и будет использован теми, кто однажды начнёт распознавать и верстать книгу, а во-вторых постепенно появится хранилище сканов, которые можно будет использовать при последующей вычитке.

VolgoDon написал:

Думаю, что выгоды от реализации такого предложения будет достаточно: во-первых, затраченный на сканирование труд гарантированно не пропадёт и будет использован теми, кто однажды начнёт распознавать и верстать книгу, а во-вторых постепенно появится хранилище сканов, которые можно будет использовать при последующей вычитке.

Ничего тут не гарантировано. Люди скачают, и будут читать со сканов. Или засунут в FR, быстро конвертнут в док/фб2, прочтут книгу как есть, с ошибками, да и удалят. Если вы не против такого обращения со своими сканами, то вольному - воля.
А насчет хранилища... могу слить туда штук 400x200мб=80гб. Кто-то готов расшарить под меня 80 гигабайт на случай, если вдруг когда-нибудь кто-нибудь что-нибудь захочет вычитать?

niksi написал:
...Люди скачают, и будут читать со сканов. Или засунут в FR, быстро конвертнут в док/фб2, прочтут книгу как есть, с ошибками, да и удалят. Если вы не против такого обращения со своими сканами, то вольному - воля.
А насчет хранилища... могу слить туда штук 400x200мб=80гб. Кто-то готов расшарить под меня 80 гигабайт на случай, если вдруг когда-нибудь кто-нибудь что-нибудь захочет вычитать?

1) Сто человек скачают-прочитают-выкинут, а сто первый сделает книгу. Я лично не против.
2) 80 Гб - это не много. Это очень даже МАЛО. При этом не забывайте, что сканы от уже выложенных книг хранить на сервере не нужно. Они должны подниматься по запросу на последующую вычитку.
3) Если идея приемлема в принципе, то предлагаю (товарищу под ником larin) реально оценить общую потребность в физических ресурсах (storage) и сообщить мне цифру (money). Дальше обсудим, стоит ли овчинка выделки.

VolgoDon написал:

2) 80 Гб - это не много. Это очень даже МАЛО. При этом не забывайте, что сканы от уже выложенных книг хранить на сервере не нужно. Они должны подниматься по запросу на последующую вычитку.

Конечно мало. Но это от одного человека. Если от всех?
Как не надо хранить на сервере? А где же их хранить, что значит "должны подниматься"? Заливаться на сервер по чьему-то требованию? Не понятно как-то.

niksi написал:

Конечно мало. Но это от одного человека. Если от всех?
Как не надо хранить на сервере? А где же их хранить, что значит "должны подниматься"? Заливаться на сервер по чьему-то требованию? Не понятно как-то.

Возможно, я невнятно изложил своё предложение. Попробую пояснить.

Скан следует хранить на сервере с момента получения карточкой статуса "отсканировал" до момента выкладывания книги. После того, как книга выложена, скан держать на сервере не нужно. Он сливается в ахрив (на DVD, на ленточку, на Blu-Ray disk и т.п.) и лежит себе там и кушать не просит. Если однажны найдётся читатель, который заявит, что книга содержит ошибки, не исправимые без оригинала (скана), то один из библитекарей обращается за исходником к высшей администрации сайта и по прошествии некоторого времени та ему выдаёт этот скан. Вот и всё.

VolgoDon написал:
niksi написал:

Конечно мало. Но это от одного человека. Если от всех?
Как не надо хранить на сервере? А где же их хранить, что значит "должны подниматься"? Заливаться на сервер по чьему-то требованию? Не понятно как-то.

Возможно, я невнятно изложил своё предложение. Попробую пояснить.

Скан следует хранить на сервере с момента получения карточкой статуса "отсканировал" до момента выкладывания книги. После того, как книга выложена, скан держать на сервере не нужно. Он сливается в ахрив (на DVD, на ленточку, на Blu-Ray disk и т.п.) и лежит себе там и кушать не просит. Если однажны найдётся читатель, который заявит, что книга содержит ошибки, не исправимые без оригинала (скана), то один из библитекарей обращается за исходником к высшей администрации сайта и по прошествии некоторого времени та ему выдаёт этот скан. Вот и всё.


Ясно. Не противник вашей идеи, но сильно сомневающийся. Успехов.
И вряд ли мы найдем такого человека/человек, которые будут хранить и выдавать сканы.
-------
В качестве идеи (или в порядке бреда?). Сделать отдельный ресурс: библиотека сканов. С сылкой на либрусеке на этот ресурс.
В карточку постить ссылку на этот ресурс (вручную?). Еще можно сделать ссылку на странице книги на Л: "у этой книги имеются сканы".
Основная проблема: диски. Потому что идея эта носится в воздухе. И не реализовано до сих по причине деньгозатратности, видимо.
ЗЫ. Сканы сканам рознь. Если мои весят 200 мб. на книгу, то скачал сейчас не свои фотосканы - 700 мб. на книгу 440 страниц.

лично я все сканы перевожу в джвю, размеры до 100 мег (самый большой был) и храню на двд-болвашках... на всякий пожарный т.с.
это раньше - стирал... :(

niksi написал:
Основная проблема: диски. Потому что идея эта носится в воздухе. И не реализовано до сих по причине деньгозатратности, видимо.

Не так давно проносился слух, что на либрусеке теперь не только текстовые, но и аудиокниги будут. Одна аудиокнига - от 200 до 1000 метров, то есть, сравнимо со сканом. Так что я не думаю, что диски - это основная проблема. Основатель википедии на возражения, касающиеся ограниченности места, всегда отвечал "hard disks are cheap". Проблема, да, но не основная. Просто, я думаю, что хранение аудиокниг привносит в библиотеку новое измерение, а вот новаторство хранилища сканов не так очевидно.

И вообще, у нас тут сообщество энтузиастов. Кому сильно захочется, тот и бумажную книжку купит, чтобы особо грязный текст вычитать. Я лично так делал уже не один раз.

VolgoDon написал:

Попробую пояснить.

Скан следует хранить на сервере с момента получения карточкой статуса "отсканировал" до момента выкладывания книги. После того, как книга выложена, скан держать на сервере не нужно. Он сливается в ахрив (на DVD, на ленточку, на Blu-Ray disk и т.п.) и лежит себе там и кушать не просит. Если однажны найдётся читатель, который заявит, что книга содержит ошибки, не исправимые без оригинала (скана), то один из библитекарей обращается за исходником к высшей администрации сайта и по прошествии некоторого времени та ему выдаёт этот скан. Вот и всё.

Мне, честно говоря, идея тоже не кажется очень привлекательной, но обсудить можно - вдруг Ларин захочет осуществить. В-)

Первым же пунктом: зачем хранить сканы после заливки книги? Достаточно хранить pdf или djvu, сделанные из сканов. Объём минимум раз в 10 меньше.

golma1 написал:

Первым же пунктом: зачем хранить сканы после заливки книги? Достаточно хранить pdf или djvu, сделанные из сканов. Объём минимум раз в 10 меньше.

Не каждый может сделать такой красивый pdf, как ты :)
Наверное надо разделить вопросы, чтобы что-то решить.
1. Главный: Нужна ли библиотека сканов тех книг, которых нет. Надо ее делать? как?
2. Второстепенный. Нужна ли библиотека сканов или pdf/djvu файлов уже сделанных книг? Как ее сделать?

А что мешает человеку, желающему с книгой ознакомиться раньше, обратиться к верстальщику. Один отсканировал, второй сверстал, третий (видимо, желающий книгу) вычитал. При других обстоятельствах сомнительная перспектива.

А идея неплоха, часто требуется скан, которого уже нет, стерт. Только где сделать такое хранилище?

laurentina1 написал:
А идея неплоха, часто требуется скан, которого уже нет, стерт. Только где сделать такое хранилище?
adrive.com ?

VolgoDon, а что Вам мешает потестировать свою идею? Это вам сканы девать некуда? Если речь о ваших сканах, так постите ссылки на файлообменники в карточках, и понаблюдайте в течение пары месяцев - сколько скачивают, и сколько сканов превратилось в книги. Может оно того и не стоит. И лучше как сейчас некоторые делают - пробовать через форум пристраивать.

niksi написал:
VolgoDon, а что Вам мешает потестировать свою идею? Это вам сканы девать некуда? Если речь о ваших сканах, так постите ссылки на файлообменники в карточках, и понаблюдайте в течение пары месяцев - сколько скачивают, и сколько сканов превратилось в книги. Может оно того и не стоит. И лучше как сейчас некоторые делают - пробовать через форум пристраивать.

Мешает то, что я не сканировщик. Я - user чужих сканов. Беру у тех, кто пристраивает через форум. Или просто вычитываю книги, залитые другими.

Давайте оценим расходы.
1) Пусть в работе одновременно 3000 карточек. По 1 Гб на книгу. Итого 3 Тб дискового пространства на сервере. Цена этого счастья 300 USD одноразово.
2) Пусть в месяц делается 3 000 новых книг. Итого 3 Тб Blu-Ray дисков. Или 120 Blu-Ray болванок. Я не знаю сколько они стоят оптом. Но допустим, 1 USD. Итого 120 USD в месяц.

Подправьте расчёты, если я в чём-то ошибаюсь.

Книги делает/вычитывает довольно узкий круг людей, у каждого своей работы хватает, и делать хранилище сканов в расчете на гипотетического помощника, который возможно захочет что-то вычитать - затея сомнительная. На практике -проще найти помощника через форум.
Мой вариант - распознать и сделать фб2, текст, и пдф с распознанным слоем. Все делается в одной программе(файнридер), фоном к основной работе на компьютере. Занимает мало места, можно хранить до оказии, или отдать на вычитку(если повезет и найдется охотник.).

Цитата:
Давайте оценим расходы.
1) Пусть в работе одновременно 3000 карточек. По 1 Гб на книгу. Итого 3 Тб дискового пространства на сервере. Цена этого счастья 300 USD одноразово.
2) Пусть в месяц делается 3 000 новых книг. Итого 3 Тб Blu-Ray дисков. Или 120 Blu-Ray болванок. Я не знаю сколько они стоят оптом. Но допустим, 1 USD. Итого 120 USD в месяц.
Подправьте расчёты, если я в чём-то ошибаюсь.

Давайте оценим риски.
1) Копирастия набирает обороты.
Как бы далеко не находился Эквадор, разумно ли подвешивать еще одну приманку в виде хранилища сканов?
2) Оборудование ломается.
Что если диски посыпятся? Возможно ли полное восстановление утраченной информации? Сколько сканов пропадет безвозвратно?

как вариант заводить сканировщикам фековые акки на дропбокс/яндексдиск и т.п. и давай в карточках уже ссылки на файлы с них.. Правда я не помню есть там ограничение на период хранения или нет)
Кажется на Ф., пол года - год назад, кто то создавал темку что собирает сканы книг, но щас её откопать думаю проблематично будет(

HEPO написал:
как вариант заводить сканировщикам фековые акки на дропбокс/яндексдиск и т.п. и давай в карточках уже ссылки на файлы с них.. Правда я не помню есть там ограничение на период хранения или нет)
вроде на adrive не затирают? А ещё есть filesonic, на нем теперь инфа хранится вечно, но только для того, кто зашел под правильным логин-паролем

Мне кажется, тема форума о предоставлении сканов должна быть одна: "Я такой-то предлагаю сканы..." и давать ссылку на свой блог или другую тему форума. И закрепить эту тему где-нибудь на видном месте. А то действительно, некоторые темы о предоставлении сканов затерялись.

Самая лучшая идея, на мой взгляд. И вынести эту тему туда же, где темы о вычитке и т.п. Чтоб было наглядно и доступно

На сканировщика, правда ляжет труд следить:
1) какие сканы отданы в работу и кому, а какие продолжают ждать своего распознавателя-верстальщика
2) действительно ли тот, кто взял скан, работает над ним. И если признаки работы отсутствуют - надо искать нового распознавателя
3) какие сканы обработаны, и заботиться о них в дальнейшем не нужно.

Короче говоря, это вся та работа, которая выполняется "Координацией сканирования и вычитки". При небольшом количестве сканов её можно проводить вручную. Как только сканов станет больше, начнутся проблемы с каждым из этапов.

Алексей_Н написал:
Мне кажется, тема форума о предоставлении сканов должна быть одна: "Я такой-то предлагаю сканы..." и давать ссылку на свой блог или другую тему форума. И закрепить эту тему где-нибудь на видном месте.

Да. Предложение хорошее. Согласен.

отдельную ссылку после Сканирования и Вычитки или сверху между Блоги и Форумы
что-то типа "Сканы" (хинт - предлагаю готовые сканы в обработку)
а вот как следить, работает ли человек над сканом или просто выпросил читать?

В качестве иллюстрации карточек, работа над которыми не может продолжаться из-за отсутствия сканов

http://lib.rus.ec/node/312403

Цитата:
2) действительно ли тот, кто взял скан, работает над ним. И если признаки работы отсутствуют - надо искать нового распознавателя

Поподробнее можно... Каким способом это сделать? Нагрянуть домой с проверкой?

Мне кажется, карточки, находящиеся без движения больше года, автоматически должны аннулироваться. А то карточек становится всё больше и полный список делается необъятным. Висит такая карточка, книга вроде делается, а на самом деле о ней уже давно все забыли.

Не, такого не надо. Книги быстро-то не делаются. Я, например, помню, что просил, вычитываю, отсканировал. Тогда непонятно будет у кого, что есть. Например, не нашлось времени за год у сканировщика взять книгу, а другой не взялся. А у меня через год нашлось время.

sibkron написал:
Не, такого не надо. Книги быстро-то не делаются. Я, например, помню, что просил, вычитываю, отсканировал. Тогда непонятно будет у кого, что есть. Например, не нашлось времени за год у сканировщика взять книгу, а другой не взялся. А у меня через год нашлось время.

Если в карточке есть какой-нибудь статус, то да. А простые "заявки", на которые никто не среагировал, нужно удалять. Это лишний балласт, тут я согласна с Алексеем_Н.

Без статусов, согласен.

Да и с карточками со статусом тоже надо что-то делать, если они лежат без движения больше года. Конечно же, не надо их удалять. Но вот написать в личку сообщение такого типа было бы неплохо:

Цитата:

Это сообщение от службы Координации и вычитки Либрусек. Ваша карточка /такая-то/ долгое время находится без движения. Пожалуйста, возобновите работы по ней или передайте другому.

С уважением,
СКВ Либрусек

Я не испытываю иллюзий, что такая напоминалка что-то сильно изменит, но и недооценивать её тоже не следует.

Присоединяюсь. Пустые карточки-заявки нужно периодически удалять.

Цитата:
а вот как следить, работает ли человек над сканом или просто выпросил читать?

Да никак. Все на доверии и здравом смысле, и гарантий никто не дает. Человек которому ты отдаешь книги может пропасть, книга может всплыть где угодно и в каком угодно виде. У кого-то действительно форс-мажор, и книга зависает на неопределенное время, кто-то тупо взял "на почитать" и большего ему не нужно. Риск есть всегда, поэтому этот сервис вспомогательный, да и сама идея следить за кем-то мне странна.

Цитата:
Это сообщение от службы Координации и вычитки Либрусек. Ваша карточка /такая-то/ долгое время находится без движения. Пожалуйста, возобновите работы по ней или передайте другому.

Что значит возобновить или передать другому. Заявка, она и есть заявка. Или выполняется, или удаляется.
На практике, если книга по заявке не появляется в течение полугода, ее появление в интернете становится чисто вероятностным, как и у тысяч других книг. И заявка, в это смысле, ничего не решает.
Повторюсь, речь идет о пустых карточках-заявках.
Аватар пользователя alexej36

Цитата:
Что значит возобновить или передать другому. Заявка, она и есть заявка. Или выполняется, или удаляется.
На практике, если книга по заявке не появляется в течение полугода, ее появление в интернете становится чисто вероятностным, как и у тысяч других книг. И заявка, в это смысле, ничего не решает.
Повторюсь, речь идет о пустых карточках-заявках.

Много ли книг сделано по пустым карточкам-заявкам... наверное только случайные совпадения... если отданы сканы в работу - по моему через пару месяцев стоит поинтересоваться как идут дела. А если "пользы" у человека нет - то вообще не стоит сканы высылать... ясно что ничего не умеет.

А еще бывает, что книга уже выложена, а карточка со статусами продолжает висеть. Хорошо, если кто-то случайно это обнаружит и удалит карточку, но в ряде случаев это так и может остаться незамеченным.

После добавления книги выдается: книгу давно уже ждут и два поля, одно уже со ссылкой на залитую книгу. Во второе вносишь её же, карточка вроде закрывается, но потом смотришь в Сканировании и вычитке - нет. Приходится и там закрывать... Не знаю, у кого как, я у меня так постоянно почему-то...

Аватар пользователя alexej36

ANSI_us написал:
После добавления книги выдается: книгу давно уже ждут и два поля, одно уже со ссылкой на залитую книгу. Во второе вносишь её же, карточка вроде закрывается, но потом смотришь в Сканировании и вычитке - нет. Приходится и там закрывать... Не знаю, у кого как, я у меня так постоянно почему-то...

Не нужно второму полю уделять внимание если первое верное.

вы не поняли... у меня почему-то выдает два одинаковых поля lib.rus.ec/b/пусто и скажем lib.rus.ec/b/хххххх со ссылкой на свежезалитую книгу... заполняй верхнее, не заполняй, всё равно идёшь на сканирование и вычитка и видишь висящую карточку с пустым полем-ссылкой...
поэтому я сразу иду туда и там даю ссылку на книгу (для закрытия карточки)

Страницы

X