Вы здесь(OMG!) Координация сканирования и вычитки - черт ногу сломает
Опубликовано пн, 05/08/2013 - 15:26 пользователем Psychedelic
Когда у меня есть свободное время, я сканирую\распознаю\верстаю fb2. Насколько я понимаю ЦЕЛЬ этой фичи - в том, чтобы быстро найти книжную работу - сканировать, распознать, вычитать, исправить битый fb2 итп. с регистрацией того, кто будет ее делать, а также для того, чтобы не пересекались работы, т.к. чтобы Вася не делал ту же книгу, что делает сейчас Петя. Возможно конечно преследовались другие цели, к примеру ТОЛЬКО сбор статистики работы - тогда да (сарказм), этот функционал полностью покрывает цель, т.к. сколько я не рылся, я видел только одну статистику - кто че сделал. Итак подробно: Первая ошибка в том, что фильтр (значение "любое" на все колонки) находит людей которые: Ок, давайте поиграемся с фильтром. Моя цель найти: 1. Готовый скан 2. Электронный текст НЕ в книжных форматах (doc, rtf). Итак после 5 минут трехэтажных натягиваний нервов (т.е. методом тыка, не того результата и снова тыка), я наконец понял как найти нужное.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 2 дня
kopak RE:О группе Дятлова. О той самой, того самого... 2 дня ProstoTac RE:Таинственная личность админа Флибусты 4 дня Isais RE:Кармен Мола - Пурпурная сеть [litres] 6 дней Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 6 дней Isais RE:Катя Водянова - Дом и два жениха в придачу 1 неделя Aleks_Sim RE:Прошу переформатировать, распознать, etc... 2 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 3 недели Саша из Киева RE:Детям о Ленине (Издание 1965 года) 3 недели Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 4 недели babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц zlyaka RE:С Новым годом! 1 месяц SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Впечатления о книгах
obivatel про Калинин: Крым 1942 [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
11 02 Отлично написано: разобраны отдельные эпизоды и ошибки командования. Ну да, и соломинка может сломить спину верблюду, а на войне это бывает особенно часто. . Все изложенные факты общеизвестны и легко доступны в сети, ……… Оценка: отлично!
Belomor.canal про Сергеев: Альбом для марок [litres] (Современная проза, Биографии и Мемуары)
11 02 Великолепная обложка А. Бондаренко - стоит половины содержания книги. Сам же текст - это скорее не роман а ЖЖ, куда автор понапихал всякой всячины - справки выданные его родителям, частушки, присказки и прочая дребедень. Чего ……… Оценка: неплохо
Paul von Sokolovski про Ангелов: Когда время штормит (СИ) (Героическая фантастика, Попаданцы, Самиздат, сетевая литература)
11 02 Пусть будет неплохо, но работающие на связь смартфоны у попададанцев во времена Дрейка просто убивают... Без сотовых вышек, просто автору захотелось :) Оценка: неплохо
mysevra про Чайлд: Третьи врата [The Third Gate ru] (Ужасы, Фэнтези)
10 02 Это было ужасно предсказуемо. "Проклятие" разочаровало, в экспедиции бардак и отсутствие дисциплины, начальник-визионер туповат и ограничен, доктор - садист, с иезуитской нежностью истязающий свою жену, а главный герой оказался ……… Оценка: неплохо
DGOBLEK про Линч: Избранные места из «Экологии лабиринта» [Selected Scenes from the Ecologies of the Labyrinth ru] (Фэнтези)
10 02 На флибе нормальный файл есть, притом давным давно лежит, а не это самодельное убожество - без указания переводчика, оригинального названия и обложки.
udrees про Жак: Нефертити и Эхнатон [Nefertiti et Akhenaton ru] (История, Биографии и Мемуары)
09 02 Небольшая по объему исследовательская книга про знаменитую чету из Древнего Египта. Про Нефертити – супругу фараона Эхнатона – я как-то со школы слышал, а про Эхнатона не очень. В книге автор постарался описать их жизнь и ……… Оценка: плохо
udrees про Мансуров: Под игом чудовища (Боевая фантастика, Героическая фантастика, Эротика, Самиздат, сетевая литература)
09 02 Очень добро написанная книга в жанре фэнтези, ну или близком к нему, магии только нет. Средневековый антураж с его мечами и стрелами после деградации человечества после какой-то катастрофы, случившейся видимо давно. Так давно, ……… Оценка: отлично!
udrees про Мансуров: Под игом чудовищ. Книга 2 (Боевая фантастика, Героическая фантастика, Эротика, Самиздат, сетевая литература)
09 02 Хорошо написанная 2-я книга про события в средневековом антураже, только действие происходит в будущем после какой-то катастрофы, когда люди скатились в варварство. Описания событий хорошие, подробные, сюжет захватывает, по ……… Оценка: отлично!
udrees про Корнев: Аспект белее смерти [СИ] (Фэнтези, Приключения: прочее, Самиздат, сетевая литература)
09 02 Хорошо написанная книга про приключения беспризорника в жестоком фэнтезийном мире. Напоминает чем-то серию книг Шелега Дмитрия «Нелюдь», там такое же описание дна жизни банды малолетних беспризорников в жестоком видимо средневековом ……… Оценка: отлично!
udrees про Корнев: Лед. Кусочек юга (Альтернативная история, Боевая фантастика)
09 02 Прекрасное завершение серии про Льда. Написано все в таком же динамичном стиле, описания хорошие, диалоги тоже не раздражают. Экшен присутствует постоянно, практически без передышек. На сей раз действие по большей части проходит ………
udrees про Корнев: Чистильщик [litres] (Боевая фантастика)
09 02 Наконец-то приключения Льда, он вернулся, основательно отъевшийся и загоревший. Хорошее описаний очередных приключений, но на сей раз уже не в Приграничье, а уже в реальном мире, но конечно связанное с расследованием разных ……… Оценка: отлично! |
Комментарии
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
1) Оно, конечно, караул, но не караул-ужас-убивают. Гуманитарий (то бишь я) с двух пинков находит. Если не лень.
2) А варианты? Т.е. спасибо, что поделились эмоциями, но... других межсайтовых сервисов по информированию о верстке fb2 что-то не наблюдается. Будет где-то более удобная, дружелюбная и неглючная страничка с такой инфой - все будут ходить туда, http://lib.rus.ec/ocr тихо увянет; но пока же нет(?).
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Длинно как-то все.
Есть, наверно, минусы в координации. Почему бы не предложить решение по улучшению?
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Основная мысль сервиса: "я купил, покупаю, сканирую книгу. Ребята, если вам это интересно, то сообщаю об этом, можете не тратить деньги на эту же книгу, а купить другую. Но если вам нефиг делать, то покупайте такую же, фиг с вами, дублируйте мою работу". Деньги сэкономить и друг друга не дублировать - основная мысль. А по всем интересующим вас вопросам вы можете списаться в личку с человеком, нафигачившим статусы в карточке.
Отличный сервис, вообще-то. Чего не устраивает - не вкурил.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Хороший сервис, если разобраться:) Вообще можно поиграться ещё со ссылками напротив позиций: Книги в работе, Заказы, Статусы.
Например, нужны нулевые карточки без статусов. Смотрим позицию - Заказы, жмем, например, По поступлению и вуаля - http://lib.rus.ec/ocr/null
Получили список нулевых карточек. Можно и другие ссылки напротив позиции "Заказы" понажимать. Фильтры это для карточек со статусами.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Мысль хорошая, но этого не было в ТЗ при создании сервиса.
Обычно решалось и решается в личке. Без ОМГ и громких стенаний на форуме.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
А искать книги не в текстовых форматах для конвертации вообще не тут нужно. Они в книгах уже, и можно выбрать любой файл, скачать и конвертнуть. Если конечно его еще не конвертнули до.
Я в основном достаю и сканирую книги. И мне удобнее оставить статус, а не файл. Увидев статус Отсканировал, чел придет ко мне в личку и я адресно пошлю ему сканы. А не вывалю в пространство инета в надежде, что кто-нибудь когда-нибудь их возьмет в работу.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
1. Не надо вываливать куда-то. Нужно просто залить pdf\djvu (или на худой конец 7z пак с jpeg картинками, по размеру он еще меньше pdf) на либрусек в список книг автора - это в идеале.
Кстати ежедневно на либрусек заливается куча pdf книг. Найти их можно через поиск, логично и необходимо чтобы КСВ был связан с такими файлами. Человек интуитивно подразумевает связь с файлами сканов, когда видит КСВ.
Обращаться к кому то, чтобы выслали скан - это долго (пока человек прочитает, ответит, зальет - в среднем мин. сутки), у большинства свободное время есть сейчас, когда он зашел на либрусек, в поисках файла для работы (выходные например), вечером или завтра его уже может не быть.
А что с системой координации какая то другая надежда появляется? :) Все тоже - "в надежде что кто-нибудь когда-нибудь их возьмет в работу".
Понятно что КСВ+ файлы намного удобнее -- упорядоченная статистика с заявками + удобство работы и приоритеты (кто -то попросил вычитать fb2 или распознать pdf итп ) - чтобы работы не пересекались, иначе надежды нет.
Имхо тогда нужно написать так: Координация сканирования и вычитки (только статистика)..
Еще раз:
На данный момент эта фича реально полезна только тем, кто достает, они могут отследить заявки, выполнить их и отметиться - остальным же (сканировать\распознать\вычитать\сверстать) — только трата времени для добавления своей статистики в КСВ.
Трата - потому что средняя, ненаучная книга (с готового хорошего скана) делается за вечер (включая программную вычитку). Поэтому смысла регистрироваться на распознавание там нет.
Но КСВ служил бы хорошей системой для поиска приоритетных книг, которые нужно распознать\исправить (для поиска заявок).
P.s. Кстати, тот кто достает книгу, обычно ее и сканирует. Имхо пункты Достать\сканировать нужно объеденить, также как и пункты "могу достать" и "достаю".
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Я обычно сканирую книги, судьба которых мне не безразлична. Стало быть, если долго не найдется желающий забрать сканы, я сделаю их сама. Опять же, отдавая сканы одному человеку, я почти уверена, что книгу сделает он. Оставляя их в сети/библиотеке, я не знаю, кто их взял, взял ли кто. Многим (в т.ч. мне) лень отмечаться в карточках, так вполне возможна ситуация, что несколько человек скачают мои сканы и будут делать задвоенную работу. В общем, мне нравится так, как сейчас, с небольшими недостатками, но в целом все устраивает.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Напомню еще раз: в первую очередь, сервис создан для удобства и минимизации трат времени/денег сканировщиков, а не для тех, кто хочет "вотпрямщас" что-нибудь вычитать.
Чаще всего пдф остается сырым полуфабрикатом, потому-что книги на вычитку берут или уже распознанные, или в сканах. Перераспознавать пдф заново занятие бессмысленное и глупое. То-же самое можно сказать о выкладывании сырых пдф и сканов в библиотеку(откуда они обязательно расползутся по сети.) С таким же успехом можно выкладывать невычитанные фб2 болванки сразу из ФайнРидера...
Естественно я не имею в виду те книги которые предназначены для выкладки в пдф.
Если кто-то хочет вычитать книгу - он маякнет в личку. Нет - значит ему это не так важно.
К тому же в координации участвует много других библиотек, и существующий порядок вещей, может быть и неидеальный, всех устраивает. Делать все красиво и удобно лично для вас , никто не будет.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
+500!
Это была основной идеей, и она отлично работает.
Желающие конвертировать/вычитывать могут воспользоваться инструментами по закладке Статистика.
Выбрав тип файла, можно найти книги для конвертирования (если целесообразно).
Выбрав оценку файла, можно найти книги для вычитки.
Или заглянуть на Максиму:
Список запросов на конвертацию
Список запросов на вычитку
Файлы, как правило, в обеих библиотеках идентичные.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Я может вас удивлю, большинство сканов художки в pdf\djvu - это именно не распознанный pdf, в pdf его собирают для удобства - чтобы сканы были в одном файле, и все сканы можно быстренько смотреть.
Наоборот распознавать в худ книге текст сохраняя его в отдельном слое в контейнере pdf -- это глупое занятие если вы делаете так, не делайте, - вы тратите свое время.
Т.к. во первых этот распознанный текст все равно не вытащишь без слитых абзацев, потерянного курсива, жирности и сносок(FineReader во время распознавания сноски определяет автоматом, и сохраняет их в fb2 как сноски) .
Во вторых распознают его тяп-ляп, "по-бырику", полагаясь на автомат, без шаблонов обучения и подстройки под язык - короче с кучей ошибок.
Поэтому в любом случае (что со слоем текста, что без) pdf, будущий fb2\epub итп, все равно нужно распознавать.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Вы мне прямо глаза открыли...
Давайте я вас тоже удивлю. Текст из пдф можно не вытаскивать. Можно (та-даам!) прямо из ФР сохранить его в в любом другом формате с сохранением форматирования, курсивов, сносок и т.д. А пдф остается лишь подспорьем.
Впрочем, делайте так, как привыкли.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Ага-ага.
Сам Adobe Acrobat не может толково сохранить текст ИЗ pdf без искажений (абзацы), а все потому, что исходный текст (текстовый слой) там, как правило, делается полностью на автомате (без вычитки, без курсива и жирности, без размеров шрифтов и цвета.)
А нужен текстовый слой pdf для того (и он задумывался для этого), чтобы скопировать кусок текста в буфер.
Да кстати, даже если бы текстовый слой извлекался идеально, с курсивами без ошибок, без слитых абзацев, то остаются еще проблемы, который все перечеркивают -- сноски придется делать вручную, и главное - в текст добавляется нумерация страниц и колонтитул (надпись вверху-внизу с названием книги и автора). Искать их и удалять вручную оч. долго и нудно.
P.s. Сними галочку в FR с "Автоматически распознавать" - она по дефолту включена. Когда забрасываешь pdf он сразу анализируется и распознается (именно с картинки, не со слоя). Включи "Отключить анализ и распознавание".
Потом загрузи текстовый pdf и попробуй сохрани в текстовый формат и удивись в второй раз.
Отв: (OMG!) Координация сканирования и вычитки - черт ногу ...
Дался вам этот пдф...
Мы, вроде, о сервисе координации говорили, не?