Вы здесьГоре оцифровщики или проблема соурсов
Опубликовано вт, 10/11/2009 - 10:52 пользователем Lord KiRon
В который раз сталкиваюсь с проблемой горе-оцифровщиков, сейчас это был "Владыка Сардуора" Зыкова - количество ошибок просто огромно, формат местами потерян полностью, местами у отдельных параграфов отсутствует конец (известный баг Файнридера) , кое какой текст повторяется 2 раза и т.д. ... Собственно попросту говоря файл не вычитали. Я не хочу наезжать на тех кто оцифровывал - иметь книгу даже в таком виде лучше чем вообще не иметь, однако передо мной возникла следующая проблема: А почему бы не завести возможность на Либрусеке например "присоединения" сканов к тексту книги?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
alex-from RE:Оплатил два раза, но абонемента нет 1 день
babajga RE:Приключения белочки Рыжки 1 день sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 дня Kiesza RE:На 78-м году жизни скончался советский и российский... 2 дня Aliki RE:Подайте бедному копеечку на книжку с литреса... 2 дня Paul von Sokolovski RE:Бушков умер. 1 неделя lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 неделя mig2009 RE:Багрепорт - 2 2 недели Isais RE:Издательство "Медуза" 2 недели babajga RE:Народные сказки - Сказки народов Сибири = Fairy-Tales of... 4 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 4 недели sibkron RE:Серия "Библиотека французской литературы" (Макбел) 4 недели Isais RE:Игорь Северянин - Том 2. Поэзоантракт 1 месяц sem14 RE:Современная корейская литература. Книжная серия... 1 месяц sem14 RE:Семейственность в литературе 1 месяц Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц Саша из Киева RE:Подводное течение 1 месяц konst1 RE:Переименовать ник (имя учетки) 2 месяца Впечатления о книгах
Олег Макаров. про Андрей Владимирович Курпатов
04 11 Доктор Курпатов, Доктор Курпатов, Доктор Курпатов - многократное повторение этого словосочетания создало у многих превратное представление о том, что А.Курпатов является доктором наук. На самом деле человек имеет только ………
Lena Stol про Искаженный мир
04 11 Прочитала обе книги, пропускала много, особенно во второй части, хороший сюжет, но уж очень автор растянул. Если из двух книг сделать одну, будет интереснее.
udrees про Михеенков: Маргелов (Биографии и Мемуары)
04 11 В книге встречаются интересные упоминания, например про новобранцев с Западной Украины, «командиры были им не рады», они ненавидели оба режима, были коллаборантами, вообще удивительно, как они воевали в рядах Красной Армии, ……… Оценка: неплохо
udrees про Вальтер: Реквием [СИ litres] (Боевая фантастика, Социальная фантастика, Приключения: прочее, Самиздат, сетевая литература)
04 11 Вот и завершилась история четверки отморозков, что портили воздух после начала Армагеддона. Таких отбитых персонажей еще надо поискать, но у автора есть еще похожие циклы произведений с таким же отребьем в роли главных героев. Книга ……… Оценка: неплохо
udrees про Келли: Сатана. Биография (История, Религиоведение, Религия)
04 11 Просто какая-то религиозная муть, что я могу сказать про эту книгу. Автор конечно проделал большую работу, достойную кандидатской или даже докторской диссертации, изучил множество источников, анализировал, сопоставлял, делал ……… Оценка: плохо
udrees про Мантикор: Город, которого нет 2 [СИ] (Фэнтези, Самиздат, сетевая литература)
04 11 Книга все больше начинает напоминать серию книг автора – Покоривший Стену. По крайней мере начинаешь встречать знакомую терминологию – энергет, изнанка, пустотная магия, мертвая магия, цветы эдельвейс, артефакты некоторые. ……… Оценка: отлично!
udrees про Мантикор: Город, которого нет (СИ) (Фэнтези, Самиздат, сетевая литература)
04 11 Первая книга серия захватывает с первых страниц, потому что без предисловий герой, как и в серии книг из Покоривший Стену, просыпается уже в новом мире, в новой Игре. Так что амнезия на старте и изучение непонятного мира, ……… Оценка: отлично!
Belomor.canal про Маттиоли: Темные финансы. Неликвидность и авторитаризм на окраинах Европы [Dark Finance: Illiquidity and Authoritarianism at the Margins of Europe ru] (История, Экономика)
03 11 Впечатляет, что смогли провернуть шустрые македонцы, вместе с евродепутатами! "Скопье 2014" - евро откаты и как это делается в развитой демократии. Оценка: отлично!
Sello про Эшноз: Высокие блондинки [Les grandes blondes ru] (Иронический детектив)
03 11 Разве только что за неимением под рукой другой книги, более приемлемой для чтения, сойдет. Оценка: неплохо
mysevra про Мессинг: Магия моего мозга. Откровения «личного телепата Сталина» [litres] (Биографии и Мемуары, Эзотерика)
02 11 Я, как тот кот, «чё-то сомневаюсь» в подлинности дневников, но прочитала в целом с интересом. Оценка: хорошо
mysevra про Ливергант: Пэлем Гренвилл Вудхаус. О пользе оптимизма (Биографии и Мемуары, Литературоведение)
02 11 Удивительный человек. Эрудированный, работоспособный. Британская дисциплина и незаурядный талант в одном флаконе. Тем паче поражает дивное сочетание умения зарабатывать деньги и странной непрактичности, словно оторванности от реального мира. Оценка: отлично!
mysevra про Перцефф: Гиперболоид смерти. Психотронное оружие в действии (Публицистика)
02 11 Ох уж этот «тонкий» привкус пропаганды и двойные стандарты. Редкостное лицемерие, небрежно упакованное в обёртку заботы о ближнем. Оценка: плохо |
Комментарии
Отв: Горе оцифровщики или проблема соурсов
Здравая мысль. Я за. Вопрос где выкладывать?
Отв: Горе оцифровщики или проблема соурсов
Вот так, например?
Хотя... а поможет? ИМХО "правильный" OCR'щик сам проверит на ляпы, а ленивый и скан не выложит. :(
Отв: Горе оцифровщики или проблема соурсов
А что мешает в данном случае (Зыков) обратиться непосредственно к автору оцифровки? http://huge-library.ru/user/Hornet/
Отв: Горе оцифровщики или проблема соурсов
Тем что Зыков это только последний пример, а на такое натыкаешься постоянно.
Отв: Горе оцифровщики или проблема соурсов
Действительно, проще спросить-попросить (на форумах, в либах) скинуть сканы отдельных страниц, чем каждую книгу в виде сканов в сеть тащить.
Отв: Горе оцифровщики или проблема соурсов
Если честно то от тебя я такого не ожидал.
Скажи какие именно ты будешь страницы просить и как? - Номера то не сохраняются. Ну предположим куски текста будешь давать -ты считаешь это "не сложно"?
И это если таких страниц штук пять еще можно, а если их много?
Не говоря уже про то что это поможет только исправить ошибки и недостающие слова, а как форматирование проверять?
Плюс, на каких таких форумах? Особенно если книга редкая так вообще...
Отв: Горе оцифровщики или проблема соурсов
Ага, так и делал, когда надо было.
Сколько надо, столько и просил. Или доставал книгу и правил по ней.
На разных. Зависит от книги.
Но обычно на околокнижных, как ни странно )
На альде, на фикшене, на ебуках, тут...
По своей тематике - на собачьих форумах...
Т.е. когда это надо не для каждой книги, а для некоторых, да еще и не раритетных (которые легко купить на том же алибе), проще найти источник и сверить с ним.
А совсем редкости, конечно, надо в дежавю, тут без вопросов.
А учитывая, что сабжевая книга стоит 100+ р и свободно доступна для заказа (http://www.findbook.ru/search/d1?title=%C2%EB%E0%E4%FB%EA%E0+%D1%E0%F0%E4%F3%EE%F0%E0&r=0&s=1&viewsize=15&startidx=0) - вообще проблемы не вижу.
Как раз сейчас делаю книгу, которой в продаже нет. (Нигде не нашел за пару лет.) А у меня был исходник без иллюстраций.
Поднял задницу, пошел в ленинку, заплатил и переснял все, что было нужно.
А что делать, охота пуще неволи ))
Отв: Горе оцифровщики или проблема соурсов
Делается книга Djvu. Заливается в качестве дубля. Обьединяется с fb2. Все. В базе есть, в новинках\книгах не видна. При необходимости можно скачать и свериться. Механизм для этого уже есть, ничего нового придумывать не надо. Как вариант(предпочтительный) заливается на файлообменник и ссылка поститься в комментах или аннотации.
Отв: Горе оцифровщики или проблема соурсов
В принципе да, но в результате "пухнет" база, ежедневные дополнения и т.д., да и если честно при отсутствии "кнопочки" на которую человек посмотрев сможет подумать "а это что такое и для чего?" большинство сканеровщиков/оцифровщиков просто не подумают что нужно залить, тем более когда еще с ФТП "мучатся" и коменты писать ...
Психология она такая штука... ну как с кнопкой "donate" - всегда можно было перевести деньги но в месяц всего несколько сотен набиралось а последнее время и того поменьше, а как повесили на главной и с описанием "на что" то сразу за 3 дня $900 накидали.
А с файлообменника кстати файлы имеет склонность исчезать.
Сомнительно
Идея-то полезная... Но, это надо: чтобы сканировал, распознавал, и вычитывал один человек; чтобы заливал он изначально именно на либрусек (а не, к примеру, на БСЧ:)); чтобы он умел собирать "правильные" djvu. Со всеми можно договориться и всему научиться, но ты ж сам писал: "Психология она такая штука..." В результате, функция будет если и реализована, то очень мало востребована - овчинка выделки не стоит.
Отв: Сомнительно
Угу, но если функция не будет реализована то вообще никто делать не будет - святых и трудоголиков втоде TaKir-а ;) не так то много.
А так может хоть что то будет.
Отв: Сомнительно
Боюсь, что не поможет. Тут верно говорили: добросовестный оцифровщик проверит свою работу, недобросовестный - никакого ДежавВю ни делать ни заливать не станет.
Хотя, если у того же "недобросовестного" целенаправленно попросить исходники конкретного файла, то он скорее всего их пришлет.
Так что, ИМХО, не сильно поможет в вычитке добавление такой функции, не стоит овчинка выделки. А жаль.:(
Отв: Сомнительно
К сожалению, БСЧ по функционалу к Либрусеку не приблизится (а вот чисто визуально мне там приятнее), но опять-таки таких случаев как с Зыковым и Беккером там точно не будет (по крайней мере пока новинки проходят через меня). Соответственно, сканов там не будет (и неважно, что функционала под это нет, (смеётся)), однако в принципе, всё что я сам сканировал, у меня на винте и при желании может быть залито на либрусек.
Но в целом скажу так: 1) идея неплохая б) халтурщики могут и забить на это, как забивают на вычитку в) качественно вычитанные книги в "мелком" дажавю смысла имеют мало, если только действительно проверить оформление г) заливка больших сканов вызывает вопрос места, так как использование файлообменников не выдерживает никакой критики, так как встаёт большущая проблема с умиранием ссылок.
Где-то так.
P.S. Я бы всё-таки первоочередной необходимой идеей назвал перекрёстную базу "кто чего сканирует/планирует". Хотя бы в виде ссылок на форумы различных библиотек. И желательно без флуда в соответствующих темах.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Что-то не пойму - а зачем все эти костыли?
Зачем исправлять кривизну чужих рук? Если сделал кто-то криворукий кривую книжку, можно считать что ее просто нет.
Отв: Горе оцифровщики или проблема соурсов
Тебе очень хочется делать двойную работу? То есть вместо того чтобы просто вычитать еще и лишний раз купить, отсканировать и т.д.
Отв: Горе оцифровщики или проблема соурсов
Да не делай, вычитай то, что у тебя есть под рукой или свои сканы.
А то, чего у тебя нет, сделает кто-то другой )
Отв: Горе оцифровщики или проблема соурсов
Да. Я лучше сам сделаю работу с нуля, чем буду за кем-то разгребать
Отв: Горе оцифровщики или проблема соурсов
Вычитал. В одном месте, где была действительно непонятка, просто зашёл в соседний книжный магазин. Единственный повторяющийся кусок убрал. Возможно где-то не смог полностью восстановить изначальный книжный формат, но на удобство прочтения это никак повлиять не должно.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
http://lib.rus.ec/b/76475
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
http://www.libex.ru/detail/book299242.html
160р. всего
Отв: Горе оцифровщики или проблема соурсов
Кстати, а почему только одно предложение? Я как-то летом на алибе искал - было больше десятка. Ну, я честно каждому продавцу выслал письмо с просьбой эти страницы отсканить или хоть сфоткать. Все честно признались, что нечем / не умеют / не получилось, и только один - что сканы не рассылает в принципе. :)
Отв: Горе оцифровщики или проблема соурсов
В порядке справки. Летом доставка книги из Донецка в Россию (несколько дальше Москвы) ценной бандеролью обошлась всего в 70-80 рублей. Книга дошла в пункт назначения дней за 10 (может меньше, точно не помню).
Не так уж все и страшно :)
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
:)) и чтоб каждая книга в двух экземплярах, один из них - контрольный в несгораемом сейфе. А храниться они будут в Эквадоре, в книжном кафе у Ильи, книги для которого он просил присылать.
Кстати, да. Вся проблема в том, что из процесса оцифровки никак не исключить злополучный человеческий фактор. Остается решать вопрос с каждой книгой в индивидуальном порядке.
Отв: Горе оцифровщики или проблема соурсов
Короче как всегда вместо обсуждения о том как решать имеющуюся проблему получил два варианта стандартных ответов: 1.А я такой герой что и без этого обхожусь. 2.Все равно большинство пользоваться не будет а я ...(дальше см 1).
Дело ваше конечно, но насчет первого флаг вам в руки, дальше комментировать не буду, а насчет второго... ну и вычитывают то единицы, большинство не вычитывает, так можем и загрузку новых версий отменим, все равно мало кто вычитывает, а кому надо могут и библиотекарям на мыло послать - это по этой же логике.
Короче как хотите, я предложение высказал, его как всегда обосрали, ну и... собственно мне оно тоже не сильно надо, хотелось как лучше...
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Что касается тебя так это вообще не к тебе тема :), после твоих вычитываний ошибок почти не остается а если и попадаются то совсем не такие что требуют сорсы.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Да понятно всем, что ты хотел как лучше. Никто и не собирался твоё предложение обсирать, идея-то хорошая, особенно если тексты сюда приходили бы только через OCR. Просто тут даже при наличии такой опции, которую ты предлагаешь, перед OCR-щиком встаёт психологическая проблема о признании собственной работы некачественной (требующей ещё и PDF/DJVU-дополнения), а на это не у каждого хватит духа. В итоге получим, что добросовестные OCR-щики будут кроме своего качественного FB2 выкладывать ещё и PDF/DJVU (просто на всякий случай - а вдруг они где-нибудь ошиблись), а недобросовестные продолжать лепить корявые FB2 и считать, что так правильно.
А ещё не надо забывать, что тексты сюда приносят не только оцифровщики - такие пользователи при всём желании не смогут воспользоваться этим сервисом, зато потом имеют шанс получить от ревнителей чистоты наезд типа: "А почему выложили невычитанный текст, а скан к нему не приложили?"
Отв: Горе оцифровщики или проблема соурсов
У Вас взгляд на вопрос не правильный :) не надо думать что "работа не качественная" надо думать:
а. Добавление скана повышает "коллаборацию" - ну не было у оцифровщика сил вычитывать вот он и дает другим "отполировать" :)
б. Это еще и сохранение источника, на будущее, вдруг кого заинтересует не только текст а именно сама книга, ее оформление скажем, фонты и т.д.
Отв: Горе оцифровщики или проблема соурсов
Интересно, насколько это востребовано.
Всегда делаю djvu со своих сканов. С удовольствием бы их куда-нибудь вывалил. В основном для таких любителей. Как бы понять, стоит ли.
Отв: Горе оцифровщики или проблема соурсов
Вроде логично... может стоит такое завести?
Отв: Горе оцифровщики или проблема соурсов
Понимаю о чём речь,но... Последнее время читаю новинки исключительно в редакторе и попутно исправляю найденные ошибки. Хотя бы для собственной библиотеки. Зыкова почти закончил и не встретил особых трудностей. А уж дубль-текст убрать ума особо не надо. Единственная проблема с некоторыми словами написанными курсивом. Я его убрал, как не имеющего смысловой нагрузки. Проблему вычитки можно решить проще. Достаточно в примечаниях писать: вычитано - не вычитано.
Отв: Горе оцифровщики или проблема соурсов
"Вычитано" тоже разной степени бывает ;)
Отв: Горе оцифровщики или проблема соурсов
Согласен. Но всё же это лучше, чем ничего и значительно проще сделать, чем сканы выкладывать. Либо надо отменять принцип "вики", чтобы выкладывали только библиотекари. А это противоречит политике либрусека.
Отв: Горе оцифровщики или проблема соурсов
Тут, кстати о сканах, с "Башней шутов" http://lib.rus.ec/node/157773 проблема образовалась.
Отв: Горе оцифровщики или проблема соурсов
Я вот что хочу сказать: Качество вычитки напрямую зависит от качества ОКР, а качество ОКР зависит... правильно,от качества сканирования.
А происходит это потому, что сканируют люди пользуясь установками по умолчанию. А здесь и разрешение 200 дпи, и полноцвет, который файнридеру и на фиг не нужен, и лезущий везде, где только сумеет, фон.
Отсюда и...
Давно хотел поговорить на эту тему.
Могу поделиться опытом получения качественных сканов со сложных оригиналов. Это кому-нибудь надо?
Отв: Горе оцифровщики или проблема соурсов
Ну конечно надо. Всегда полезно узнать что-то новое.
Для хорошего сканирования, кроме разрешения и проч. ещё важно хорошо открывать и прижимать книгу. Книгу надо предварительно "поломать". Сначала открыть на максимум на середине (слышится приятный хруст). Потом на середине от середины - в ту и другую сторону, и т. д. раз десять. Ну вот, книга уже выглядит непрезентабельно, а значит к сканированию готова.
Отв: Горе оцифровщики или проблема соурсов
Ну, за недельку-другую напишу. Сейчас просто дома сканер недоступен.
А куда выложить? Рассылать во все стороны не смогу.
Ау! Библиотекари! Это, наверное, относится к ЧаВо?
Отв: Горе оцифровщики или проблема соурсов
Можно в ЧаВо, можно в своём блоге сделать тему, а библиотекари внесут в ЧаВо. Как Вам удобнее.
Лишь бы написали. ;)
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Боюсь не соглашусь с вами, точнее да, но качество "ленивой" вычитки когда быстренько так набегом просматривают. При нормальной вычитке, когда читают все, а затем еще и сверяют форматирование - такой проблемы нет.
Хотя хорошие сканы это всегда хорошо конечно, экономит кучу времени и облегчает работу.
Отв: Горе оцифровщики или проблема соурсов
Если строго подойти к вопросу, то звучать это должно так:
Чем выше качество сканирования, тем меньше ошибок распознавания, тем меньше придется вычитывающему вносить исправлений. Вычитка будет достаточно быстрой и комфортной, то есть, ошибок будет пропущено меньше.
А в случае выкладывания невычитанного текста, тем более!
Отв: Горе оцифровщики или проблема соурсов
Lord KiRon а нельзя в следующий раз сканировать, что-бы тире отображались?
Я об Академии вампиров. Осталось страниц 50.
А! Я понял это нарочно, что-бы я читал каждое слово.:(
Отв: Горе оцифровщики или проблема соурсов
Академия вампиров будет на Старом Чародее ( http://bomanuar.com/forum/index.php?topic=231.0 ) .
Сюда выложил очень поганого качества Dejavu для тех кому не терпится а так же для верификации ошибок в будущем. FB2 с него делать точно не надо.
Отв: Горе оцифровщики или проблема соурсов
Lord KiRon это называется подлянка. Я сижу второй день и почти доделал, сверяю каждую букву.
А оказывается есть скан лучше. Очень нехорошо. Не по товарищески. Я даже не знаю как это назвать!
Отв: Горе оцифровщики или проблема соурсов
Это называется что нужно организовываться о чем я давно говорю. Тогда бы я не покупал те книги которые к тому моменту когда они приходят уже появляются в сети, никто бы не делал одну и ту же книгу два раза и т.д.
Но народ поднял крик в стиле "зачем это нужно" , "те кому надо и так знают" , "есть топик на форуме" , вот да кстати есть топик на форуме - кто вам виноват что вы на форум старого чародея не заглядываете ?;)
А серьёзно - это очень раздражает, да.
Страницы