Вы здесьКоординация сканирования и вычитки
Опубликовано пт, 03/12/2010 - 02:59 пользователем larin
Для лучшей координации сканирования новых книг запустил сервис http://lib.rus.ec/ocr
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
agent4707 RE:Подайте бедному копеечку на книжку с литреса... 3 часа
Саша из Киева RE:Хождение во власть. После путча 23 часа weis RE:Прошу переформатировать, распознать, etc... 1 день babajga RE:Алиса в стране чудес 4 дня tanyaguscha RE:Грушевое дерево 5 дней babajga RE:Ёжик, который хотел обнять Луну 5 дней babajga RE:Самый храбрый совёнок 5 дней babajga RE:Похититель домофонов 5 дней Саша из Киева RE:Неудавшийся священник 6 дней Саша из Киева RE:Хочу быть лётчиком 1 неделя Саша из Киева RE:Бессмертен подвиг ваш 1 неделя sem14 RE:Искатель жемчуга 1 неделя Larisa_F RE:Жизнь не отменяется 1 неделя Larisa_F RE:Из озера взметнулись молнии 1 неделя babajga RE:На краешке чуда 2 недели sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 2 недели Саша из Киева RE:Ведомственный притон 2 недели kusheyev RE:Заливка 3 недели Впечатления о книгах
Barbud про Поселягин: Прапорщики по адмиралтейству [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
23 04 Вот вроде же зарекался читать Поселянина, так нет - какой-то черт дёрнул открыть это поделие. Убедился, что уровень "творчества" автора если и изменился, то только к худшему. Жуткий нечитаемый картон, не осилил. Оценка: нечитаемо
Я бреду по берегу про Беляев: Ариэль (Научная фантастика)
23 04 В далекие школьные годы взахлеб зачитывался книгами Александра Беляева. Классика советской, российской, и мировой фантастики. Отлично! Оценка: отлично!
kolombok про Доктор [Афанасьев]
23 04 Ну а по мне, так понравилось, если бы я в детстве такие книжки читал... Это я пока о половине первой книги говорю, хорошо зашло хотя мне уже за (вставьте возраст). В целом скажу, за первую половину книги, годная молодая фантастика, ………
Belomor.canal про Анонимус: Выжига, или Золотое руно судьбы [litres] (Исторический детектив)
22 04 В отличии от всех предыдущих книг серии, необыкновенно динамичный триллер, почти без длиннот! Похоже, произошла смена команды Анонимуса и нас ждут захватывающее, профессионально сделанные книги! Оценка: отлично!
zhunter про Группа крови на плече
22 04 С удовольствием читал незатейливый боевичок, но ахинея про радиоактивные вещества просто убила и в землю закопала. Аутор, ты блин в школе то учился?
Isais про Пелевин: Орден желтого флага [OCR] (Социальная фантастика)
21 04 Я честно прочел 48% файла. Я честно высоко оценил блестящую стилизацию под литературу XVIII века. Имею право прийти к заключению: эту книгу следует читать в самом-самом, САМОМ последнем случае. Только когда в доме ………
Isais про Поганец: Дикий 2 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
21 04 Когда ни разу в жизни не видел ни книги, ни печатного текста вообще, но все равно зудит сочинить рОман ("что я, хуже других?"), получается вот такое... Оценка: нечитаемо
nik_ol про Полякова: Таинственная четверка (Крутой детектив, Детективы: прочее)
21 04 А Анна будет продолжать писать за Татьяну или всё? Александру комментарем ниже: мне, например, не всегда что-то грандиозное нужно литературное читать, типа Достоевского или Моэма, Булгакова или Ремарка! Иногда вот такие, ……… Оценка: хорошо
andmalin про Шопперт: Вовка-центровой – 6: Мундиаль [СИ] (Альтернативная история, Самиздат, сетевая литература)
21 04 Хорошая серия , мне понравилось. Оценка: отлично!
gleb99 про Кормильцев: Взлёт и падение СвЕнцового дирижабля (Контркультура, Публицистика)
20 04 Файл не найден". Может кто-то помочь с книгой?
Lan2292 про Воронков: Время еще не пришло [СИ] (Фэнтези, Попаданцы, Самиздат, сетевая литература)
20 04 Очень понравилось, прочитала отрываясь, что бы продлить удовольствие. Жду продолжения, спасибо автор. Оценка: отлично! |
Комментарии
Отв: Координация сканирования и вычитки
(кагбэ между прочим) А у меня опять выходные...
Отв: Координация сканирования и вычитки
Там laurentina1 ждёт-не дождётся какую-ту книгу. ;)
Отв: Координация сканирования и вычитки
Мне проще делать это, и еще многое другое скриптом EmEditor, который абсолютно нагляден, прост, дополняется по мере вычитывания книг, поскольку можно включать новые и новые ошибки.
Вот кусочек этого скрипта:
\!\l - поиск восклицательный знак-нижний регистр
\?\l - поиск вопросительный знак-нижний регистр
\!\u - поиск восклицательный знак-верхний регистр
\?\u - поиск вопросительный знак-верхний регистр
Отв: Координация сканирования и вычитки
Мммм...
Это, во-первых, ещё одна программа, которую нужно запускать. А во-вторых, в ФР у Вас есть возможность сразу сравнить с исходным текстом. С моей точки зрения, это громадное преимущество по сравнению с другими программами.
А что значит в этом скрипте "нижний/верхний регистр"?
Отв: Координация сканирования и вычитки
!а ?а !А ?А
Зачем мне вычитывать глазами технические ошибки OCR FR, если скрипт это сделает быстрее и надежнее? Учитывая, что FR способен насажать уйму собственных ошибок, без всяких указаний на таковые. Лучше я потрачу время именно на вычитывание, то бишь на смысловые ошибки, которые не выявит ни один из существующих редакторов.
Отв: Координация сканирования и вычитки
Тогда я не поняла, что именно он ищет. Мы, кажется, говорили о склеенных абзацах?
Конечно. Если у Вас есть скрипт, который исправляет технические ошибки OCR (мы ведь не о "Поиске по регэкспам" в ФБЕ говорим, не так ли? Хотя он делает именно это), то быстрее скрипт это сделает ужо всяко. Насчёт надёжнее не знаю, надо сравнивать.
"Смысловые ошибки" - это я опять не поняла. Вы про вычитку текста, что ли?
Отв: Координация сканирования и вычитки
Ищет нечто вроде опе!чатка или А?збука. Такие ошибки бывают, а что до абзацев, то там анализ идет по регистру буквы/запятой/ и следующему Enter, или дефис-Enter, или Enter-дефис, когда FR вместо тире лепит дефис в прямой речи. Я же говорил, это только кусочек для примера, на самом деле, в скрипте длииииная строчка, которая постоянно пополняется.
Да. Где поезд поет вместо ухода :-)
Отв: Координация сканирования и вычитки
Поскольку народ проявил некоторый, хотя и очень робкий интерес к вылавливанию технических блох в текстах с помощью скрипта EmEditor, вот реальный пример, который можете использовать, добавляя или убавляя необходимое:
[^а-яА-Яa-zA-Z0-9\s\.\,\—\?\!\-\*\(\)\«\»\;\:]
При поиске с данным скриптом пропускаются все русские буквы (оба регистра, кроме ё), все латинские буквы (оба регистра), все цифры, пробелы, точки, запятые, тире, вопросительные и восклицательные знаки, дефисы, "звездочки", скобки, кавычки, точки с запятой и двоеточия. Остальные знаки будут подсвечены. Если что-то нужно добавить или убавить, это легко делается, ибо наглядно. Знак ^ в начале служит отрицанием, то есть, ^а-я - НИ одна из букв русского алфавита (кроме ё) в нижнем регистре и т.д. При добавлении любого другого знака, перед ним ставится \ (бэкслэш). Допустим, нужно исключить из поиска апостроф, это будет так: \'
По мере отработки скрипта, продолжение следует...
Отв: Координация сканирования и вычитки
GMAP, Вы так свой продукт рекламировать собрались?
Отв: Координация сканирования и вычитки
Угу. А еще ФайнРидер, АфтерСкан, ОРФО, Ворд, WinXР и еще мно-о-ого чего по части своего программного обеспечения. Можно было сразу догадаться и не напрягать себе топтанием батонов.
Отв: Координация сканирования и вычитки
*зевая* Этого продукта все равно нет
на рынкев сборке FBE. Так что его синтаксис как-то... Пусть хоть обрекламится.Отв: Координация сканирования и вычитки
Иногда у сканировщиков возникают ситуации, когда отсканировано много книг, и непонятно, кто и когда их будет распознавать, верстать и вычитывать. Ну, или просто нашёлся скан, которым самому заниматься неохота или руки не доходят, а отдать некому.
Предлагаю рассмотреть возможность выкладывать сканы на стадии "отсканировал". Наверное, в виде единого архива.
Соответственно, сканы может скачать любой зарегистрированный user, доступившись к карточке книги.
После того, как книга залита сканы можно будет с сайта убрать и слить в долговременное хранилище, на тот случай, "чтобы были".
Думаю, что выгоды от реализации такого предложения будет достаточно: во-первых, затраченный на сканирование труд гарантированно не пропадёт и будет использован теми, кто однажды начнёт распознавать и верстать книгу, а во-вторых постепенно появится хранилище сканов, которые можно будет использовать при последующей вычитке.
Отв: Координация сканирования и вычитки
Ничего тут не гарантировано. Люди скачают, и будут читать со сканов. Или засунут в FR, быстро конвертнут в док/фб2, прочтут книгу как есть, с ошибками, да и удалят. Если вы не против такого обращения со своими сканами, то вольному - воля.
А насчет хранилища... могу слить туда штук 400x200мб=80гб. Кто-то готов расшарить под меня 80 гигабайт на случай, если вдруг когда-нибудь кто-нибудь что-нибудь захочет вычитать?
Отв: Координация сканирования и вычитки
1) Сто человек скачают-прочитают-выкинут, а сто первый сделает книгу. Я лично не против.
2) 80 Гб - это не много. Это очень даже МАЛО. При этом не забывайте, что сканы от уже выложенных книг хранить на сервере не нужно. Они должны подниматься по запросу на последующую вычитку.
3) Если идея приемлема в принципе, то предлагаю (товарищу под ником larin) реально оценить общую потребность в физических ресурсах (storage) и сообщить мне цифру (money). Дальше обсудим, стоит ли овчинка выделки.
Отв: Координация сканирования и вычитки
Конечно мало. Но это от одного человека. Если от всех?
Как не надо хранить на сервере? А где же их хранить, что значит "должны подниматься"? Заливаться на сервер по чьему-то требованию? Не понятно как-то.
Отв: Координация сканирования и вычитки
Возможно, я невнятно изложил своё предложение. Попробую пояснить.
Скан следует хранить на сервере с момента получения карточкой статуса "отсканировал" до момента выкладывания книги. После того, как книга выложена, скан держать на сервере не нужно. Он сливается в ахрив (на DVD, на ленточку, на Blu-Ray disk и т.п.) и лежит себе там и кушать не просит. Если однажны найдётся читатель, который заявит, что книга содержит ошибки, не исправимые без оригинала (скана), то один из библитекарей обращается за исходником к высшей администрации сайта и по прошествии некоторого времени та ему выдаёт этот скан. Вот и всё.
Отв: Координация сканирования и вычитки
Ясно. Не противник вашей идеи, но сильно сомневающийся. Успехов.
И вряд ли мы найдем такого человека/человек, которые будут хранить и выдавать сканы.
-------
В качестве идеи (или в порядке бреда?). Сделать отдельный ресурс: библиотека сканов. С сылкой на либрусеке на этот ресурс.
В карточку постить ссылку на этот ресурс (вручную?). Еще можно сделать ссылку на странице книги на Л: "у этой книги имеются сканы".
Основная проблема: диски. Потому что идея эта носится в воздухе. И не реализовано до сих по причине деньгозатратности, видимо.
ЗЫ. Сканы сканам рознь. Если мои весят 200 мб. на книгу, то скачал сейчас не свои фотосканы - 700 мб. на книгу 440 страниц.
Отв: Координация сканирования и вычитки
лично я все сканы перевожу в джвю, размеры до 100 мег (самый большой был) и храню на двд-болвашках... на всякий пожарный т.с.
это раньше - стирал... :(
Отв: Координация сканирования и вычитки
Не так давно проносился слух, что на либрусеке теперь не только текстовые, но и аудиокниги будут. Одна аудиокнига - от 200 до 1000 метров, то есть, сравнимо со сканом. Так что я не думаю, что диски - это основная проблема. Основатель википедии на возражения, касающиеся ограниченности места, всегда отвечал "hard disks are cheap". Проблема, да, но не основная. Просто, я думаю, что хранение аудиокниг привносит в библиотеку новое измерение, а вот новаторство хранилища сканов не так очевидно.
И вообще, у нас тут сообщество энтузиастов. Кому сильно захочется, тот и бумажную книжку купит, чтобы особо грязный текст вычитать. Я лично так делал уже не один раз.
Отв: Координация сканирования и вычитки
Мне, честно говоря, идея тоже не кажется очень привлекательной, но обсудить можно - вдруг Ларин захочет осуществить. В-)
Первым же пунктом: зачем хранить сканы после заливки книги? Достаточно хранить pdf или djvu, сделанные из сканов. Объём минимум раз в 10 меньше.
Отв: Координация сканирования и вычитки
Не каждый может сделать такой красивый pdf, как ты :)
Наверное надо разделить вопросы, чтобы что-то решить.
1. Главный: Нужна ли библиотека сканов тех книг, которых нет. Надо ее делать? как?
2. Второстепенный. Нужна ли библиотека сканов или pdf/djvu файлов уже сделанных книг? Как ее сделать?
Отв: Координация сканирования и вычитки
А что мешает человеку, желающему с книгой ознакомиться раньше, обратиться к верстальщику. Один отсканировал, второй сверстал, третий (видимо, желающий книгу) вычитал. При других обстоятельствах сомнительная перспектива.
Отв: Координация сканирования и вычитки
А идея неплоха, часто требуется скан, которого уже нет, стерт. Только где сделать такое хранилище?
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
VolgoDon, а что Вам мешает потестировать свою идею? Это вам сканы девать некуда? Если речь о ваших сканах, так постите ссылки на файлообменники в карточках, и понаблюдайте в течение пары месяцев - сколько скачивают, и сколько сканов превратилось в книги. Может оно того и не стоит. И лучше как сейчас некоторые делают - пробовать через форум пристраивать.
Отв: Координация сканирования и вычитки
Мешает то, что я не сканировщик. Я - user чужих сканов. Беру у тех, кто пристраивает через форум. Или просто вычитываю книги, залитые другими.
Отв: Координация сканирования и вычитки
Давайте оценим расходы.
1) Пусть в работе одновременно 3000 карточек. По 1 Гб на книгу. Итого 3 Тб дискового пространства на сервере. Цена этого счастья 300 USD одноразово.
2) Пусть в месяц делается 3 000 новых книг. Итого 3 Тб Blu-Ray дисков. Или 120 Blu-Ray болванок. Я не знаю сколько они стоят оптом. Но допустим, 1 USD. Итого 120 USD в месяц.
Подправьте расчёты, если я в чём-то ошибаюсь.
Отв: Координация сканирования и вычитки
Книги делает/вычитывает довольно узкий круг людей, у каждого своей работы хватает, и делать хранилище сканов в расчете на гипотетического помощника, который возможно захочет что-то вычитать - затея сомнительная. На практике -проще найти помощника через форум.
Мой вариант - распознать и сделать фб2, текст, и пдф с распознанным слоем. Все делается в одной программе(файнридер), фоном к основной работе на компьютере. Занимает мало места, можно хранить до оказии, или отдать на вычитку(если повезет и найдется охотник.).
Отв: Координация сканирования и вычитки
Давайте оценим риски.
1) Копирастия набирает обороты.
Как бы далеко не находился Эквадор, разумно ли подвешивать еще одну приманку в виде хранилища сканов?
2) Оборудование ломается.
Что если диски посыпятся? Возможно ли полное восстановление утраченной информации? Сколько сканов пропадет безвозвратно?
Отв: Координация сканирования и вычитки
как вариант заводить сканировщикам фековые акки на дропбокс/яндексдиск и т.п. и давай в карточках уже ссылки на файлы с них.. Правда я не помню есть там ограничение на период хранения или нет)
Кажется на Ф., пол года - год назад, кто то создавал темку что собирает сканы книг, но щас её откопать думаю проблематично будет(
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
Мне кажется, тема форума о предоставлении сканов должна быть одна: "Я такой-то предлагаю сканы..." и давать ссылку на свой блог или другую тему форума. И закрепить эту тему где-нибудь на видном месте. А то действительно, некоторые темы о предоставлении сканов затерялись.
Отв: Координация сканирования и вычитки
Самая лучшая идея, на мой взгляд. И вынести эту тему туда же, где темы о вычитке и т.п. Чтоб было наглядно и доступно
Отв: Координация сканирования и вычитки
На сканировщика, правда ляжет труд следить:
1) какие сканы отданы в работу и кому, а какие продолжают ждать своего распознавателя-верстальщика
2) действительно ли тот, кто взял скан, работает над ним. И если признаки работы отсутствуют - надо искать нового распознавателя
3) какие сканы обработаны, и заботиться о них в дальнейшем не нужно.
Короче говоря, это вся та работа, которая выполняется "Координацией сканирования и вычитки". При небольшом количестве сканов её можно проводить вручную. Как только сканов станет больше, начнутся проблемы с каждым из этапов.
Отв: Координация сканирования и вычитки
Да. Предложение хорошее. Согласен.
Отв: Координация сканирования и вычитки
отдельную ссылку после Сканирования и Вычитки или сверху между Блоги и Форумы
что-то типа "Сканы" (хинт - предлагаю готовые сканы в обработку)
а вот как следить, работает ли человек над сканом или просто выпросил читать?
Отв: Координация сканирования и вычитки
В качестве иллюстрации карточек, работа над которыми не может продолжаться из-за отсутствия сканов
http://lib.rus.ec/node/312403
Отв: Координация сканирования и вычитки
Поподробнее можно... Каким способом это сделать? Нагрянуть домой с проверкой?
Отв: Координация сканирования и вычитки
Мне кажется, карточки, находящиеся без движения больше года, автоматически должны аннулироваться. А то карточек становится всё больше и полный список делается необъятным. Висит такая карточка, книга вроде делается, а на самом деле о ней уже давно все забыли.
Отв: Координация сканирования и вычитки
Не, такого не надо. Книги быстро-то не делаются. Я, например, помню, что просил, вычитываю, отсканировал. Тогда непонятно будет у кого, что есть. Например, не нашлось времени за год у сканировщика взять книгу, а другой не взялся. А у меня через год нашлось время.
Отв: Координация сканирования и вычитки
Если в карточке есть какой-нибудь статус, то да. А простые "заявки", на которые никто не среагировал, нужно удалять. Это лишний балласт, тут я согласна с Алексеем_Н.
Отв: Координация сканирования и вычитки
Без статусов, согласен.
Отв: Координация сканирования и вычитки
Да и с карточками со статусом тоже надо что-то делать, если они лежат без движения больше года. Конечно же, не надо их удалять. Но вот написать в личку сообщение такого типа было бы неплохо:
Я не испытываю иллюзий, что такая напоминалка что-то сильно изменит, но и недооценивать её тоже не следует.
Отв: Координация сканирования и вычитки
Присоединяюсь. Пустые карточки-заявки нужно периодически удалять.
Да никак. Все на доверии и здравом смысле, и гарантий никто не дает. Человек которому ты отдаешь книги может пропасть, книга может всплыть где угодно и в каком угодно виде. У кого-то действительно форс-мажор, и книга зависает на неопределенное время, кто-то тупо взял "на почитать" и большего ему не нужно. Риск есть всегда, поэтому этот сервис вспомогательный, да и сама идея следить за кем-то мне странна.
Отв: Координация сканирования и вычитки
Что значит возобновить или передать другому. Заявка, она и есть заявка. Или выполняется, или удаляется.
На практике, если книга по заявке не появляется в течение полугода, ее появление в интернете становится чисто вероятностным, как и у тысяч других книг. И заявка, в это смысле, ничего не решает.
Повторюсь, речь идет о пустых карточках-заявках.
Отв: Координация сканирования и вычитки
Много ли книг сделано по пустым карточкам-заявкам... наверное только случайные совпадения... если отданы сканы в работу - по моему через пару месяцев стоит поинтересоваться как идут дела. А если "пользы" у человека нет - то вообще не стоит сканы высылать... ясно что ничего не умеет.
Отв: Координация сканирования и вычитки
А еще бывает, что книга уже выложена, а карточка со статусами продолжает висеть. Хорошо, если кто-то случайно это обнаружит и удалит карточку, но в ряде случаев это так и может остаться незамеченным.
Отв: Координация сканирования и вычитки
После добавления книги выдается: книгу давно уже ждут и два поля, одно уже со ссылкой на залитую книгу. Во второе вносишь её же, карточка вроде закрывается, но потом смотришь в Сканировании и вычитке - нет. Приходится и там закрывать... Не знаю, у кого как, я у меня так постоянно почему-то...
Отв: Координация сканирования и вычитки
Не нужно второму полю уделять внимание если первое верное.
Отв: Координация сканирования и вычитки
вы не поняли... у меня почему-то выдает два одинаковых поля lib.rus.ec/b/пусто и скажем lib.rus.ec/b/хххххх со ссылкой на свежезалитую книгу... заполняй верхнее, не заполняй, всё равно идёшь на сканирование и вычитка и видишь висящую карточку с пустым полем-ссылкой...
поэтому я сразу иду туда и там даю ссылку на книгу (для закрытия карточки)
Страницы