Вы здесьГоре оцифровщики или проблема соурсов
Опубликовано вт, 10/11/2009 - 10:52 пользователем Lord KiRon
В который раз сталкиваюсь с проблемой горе-оцифровщиков, сейчас это был "Владыка Сардуора" Зыкова - количество ошибок просто огромно, формат местами потерян полностью, местами у отдельных параграфов отсутствует конец (известный баг Файнридера) , кое какой текст повторяется 2 раза и т.д. ... Собственно попросту говоря файл не вычитали. Я не хочу наезжать на тех кто оцифровывал - иметь книгу даже в таком виде лучше чем вообще не иметь, однако передо мной возникла следующая проблема: А почему бы не завести возможность на Либрусеке например "присоединения" сканов к тексту книги?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
konst1 RE:Подайте бедному копеечку на книжку с литреса... 2 часа
konst1 RE:Переименовать ник (имя учетки) 1 день sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 день sem14 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 4 дня Larisa_F RE:Современная корейская литература. Книжная серия... 2 недели Larisa_F RE:Таррин Фишер 2 недели Aleks_Sim RE:Беженцы с Флибусты 2 недели Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 2 недели Isais RE:Семейственность в литературе 3 недели miri.ness_ RE:Доступ 27 3 недели bmusanov Оплатил, но абонемент не отображается 4 недели holla RE:Багрепорт - 2 4 недели konst1 RE:Файнридер для Win11 1 месяц larin RE:Оплатил, но абонемент не отображается 1 месяц sem14 RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц Isais RE:Национальный конкурс на лучшее литературное произведение... 1 месяц Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц sem14 RE:«Морской роман» — книжная серия Калининградского книжного... 1 месяц Впечатления о книгах
svetik489 про Капба: На золотом крыльце - 2 (Киберпанк, Городское фэнтези, Самиздат, сетевая литература)
01 09 а чего тут такого восхитительного? так на троечку,с натягом... Оценка: неплохо
udrees про Каку: Физика невозможного [Physics of the Impossible: A Scientific Exploration into the World of Phasers, Force Fields, Teleportation, and Time Travel ru] (Физика, Научпоп)
31 08 Увлекательно прочитать про возможности и открытия, которые могут быть доступны в ближайшие сотню лет или больше. Книга немного уже устарела, информация базируется видимо на сведениях 2006-2007 годов. Сейчас в 2025 году часть ……… Оценка: хорошо
udrees про Роузвуд: Джеффри Дамер. Ужасающая история одного из самых известных маньяков в мире [litres] [Jeffrey Dahmer: A Terrifying True Story of Rape, Murder & Cannibalism ru] (Биографии и Мемуары, Публицистика, Документальная литература)
31 08 Кому интересно почитать про историю ужасных преступлений Джеффри Дамера – почитайте книгу. Она достаточно подробно на 50 страницах описывает его похождения и убийства мужчин, без особых кровавых подробностей, хотя описания ……… Оценка: неплохо
udrees про Мантикор: Зеркало Мисы (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
31 08 Как увлекательно становится читать долгую историю приключений друида, который по силе невероятно прокачался по ветке РПГ, что практически стал богом, когда он натыкается на препятствия и противников, которые сводят на нет ……… Оценка: отлично!
Amfortas про Бачигалупи: Навола (Социальная фантастика, Городское фэнтези, Историческое фэнтези)
30 08 Скучно. Невыносимо скучно. Не одолел, бросил на половине. Слащавый "роман воспитания" с кучей банальных деталей. Повествование, ведущее в никуда. Не спасает даже стилизация под итальянское Возрождение. Лучше почитать словарь. Веселее и более интригующе. Оценка: плохо
Олег Макаров. про Юдковски: Гарри Поттер и методы рационального мышления [Harry Potter and the Methods of Rationality ru] (Фэнтези, Фанфик)
30 08 Один из лучших в мире специалистов по критическому мышлению написал фанфик по Гарри Поттеру для того, чтобы большее количество людей заинтересовались критическим мышлением. Представляете, что получилось? Оценка "отлично". ……… Оценка: отлично!
Олег Макаров. про Капба: На золотом крыльце - 2 (Киберпанк, Городское фэнтези, Самиздат, сетевая литература)
30 08 Капба это Капба. К его книгам не читайте аннотаций, читайте сами книги. 5 баллов это недостаточное количество баллов. Оценка: отлично!
Sello про Мережковский: Петр и Алексей (Историческая проза)
30 08 Поздновато, конечно, я разобрался, почему "не прет" мне Мережковский - лишь с третьей попытки, на третьем романе серии. Потому что там, где религия перетягивает на себя одеяло в ущерб историческому повествованию, истина, всегда, ……… Оценка: неплохо
mysevra про Эйрес: Оззи. Автобиография без цензуры [I Am Ozzy ru] (Биографии и Мемуары)
29 08 Несмотря на множество грустных моментов, книга просто пропитана оптимизмом и юмором. Возможно, местами позитив слишком уж натужный, но по-другому никак не выжить в некоторых обстоятельствах, тут тянешь себя за волосы как Мюнхгаузен. Оценка: отлично!
mysevra про Тюльбашева: Лес (Ужасы, Триллер, Мистика)
29 08 Слишком "мыльный" привкус. Где, собственно, события? Заблудились, пропали, шли, шли, поели макарон, шли, шли, совсем пропали. Часть вторая… Оценка: плохо
mysevra про Васильев: Легкий заказ [СИ] (Городское фэнтези, Самиздат, сетевая литература)
29 08 Мило, но слишком кустарно. Продолжение читать не хочется. Оценка: неплохо
Barbud про Демин: 3 книга. 1 глава. Одна планета одно правительство, основной язык общения русский. 15 письмо проекта Главам государств, от 07.12.2023 года [СИ] (Публицистика, Ненаучная фантастика, Самиздат, сетевая литература)
28 08 Сезонное обострение? Рано вроде... Оценка: нечитаемо |
Комментарии
Отв: Горе оцифровщики или проблема соурсов
Здравая мысль. Я за. Вопрос где выкладывать?
Отв: Горе оцифровщики или проблема соурсов
Вот так, например?
Хотя... а поможет? ИМХО "правильный" OCR'щик сам проверит на ляпы, а ленивый и скан не выложит. :(
Отв: Горе оцифровщики или проблема соурсов
А что мешает в данном случае (Зыков) обратиться непосредственно к автору оцифровки? http://huge-library.ru/user/Hornet/
Отв: Горе оцифровщики или проблема соурсов
Тем что Зыков это только последний пример, а на такое натыкаешься постоянно.
Отв: Горе оцифровщики или проблема соурсов
Действительно, проще спросить-попросить (на форумах, в либах) скинуть сканы отдельных страниц, чем каждую книгу в виде сканов в сеть тащить.
Отв: Горе оцифровщики или проблема соурсов
Если честно то от тебя я такого не ожидал.
Скажи какие именно ты будешь страницы просить и как? - Номера то не сохраняются. Ну предположим куски текста будешь давать -ты считаешь это "не сложно"?
И это если таких страниц штук пять еще можно, а если их много?
Не говоря уже про то что это поможет только исправить ошибки и недостающие слова, а как форматирование проверять?
Плюс, на каких таких форумах? Особенно если книга редкая так вообще...
Отв: Горе оцифровщики или проблема соурсов
Ага, так и делал, когда надо было.
Сколько надо, столько и просил. Или доставал книгу и правил по ней.
На разных. Зависит от книги.
Но обычно на околокнижных, как ни странно )
На альде, на фикшене, на ебуках, тут...
По своей тематике - на собачьих форумах...
Т.е. когда это надо не для каждой книги, а для некоторых, да еще и не раритетных (которые легко купить на том же алибе), проще найти источник и сверить с ним.
А совсем редкости, конечно, надо в дежавю, тут без вопросов.
А учитывая, что сабжевая книга стоит 100+ р и свободно доступна для заказа (http://www.findbook.ru/search/d1?title=%C2%EB%E0%E4%FB%EA%E0+%D1%E0%F0%E4%F3%EE%F0%E0&r=0&s=1&viewsize=15&startidx=0) - вообще проблемы не вижу.
Как раз сейчас делаю книгу, которой в продаже нет. (Нигде не нашел за пару лет.) А у меня был исходник без иллюстраций.
Поднял задницу, пошел в ленинку, заплатил и переснял все, что было нужно.
А что делать, охота пуще неволи ))
Отв: Горе оцифровщики или проблема соурсов
Делается книга Djvu. Заливается в качестве дубля. Обьединяется с fb2. Все. В базе есть, в новинках\книгах не видна. При необходимости можно скачать и свериться. Механизм для этого уже есть, ничего нового придумывать не надо. Как вариант(предпочтительный) заливается на файлообменник и ссылка поститься в комментах или аннотации.
Отв: Горе оцифровщики или проблема соурсов
В принципе да, но в результате "пухнет" база, ежедневные дополнения и т.д., да и если честно при отсутствии "кнопочки" на которую человек посмотрев сможет подумать "а это что такое и для чего?" большинство сканеровщиков/оцифровщиков просто не подумают что нужно залить, тем более когда еще с ФТП "мучатся" и коменты писать ...
Психология она такая штука... ну как с кнопкой "donate" - всегда можно было перевести деньги но в месяц всего несколько сотен набиралось а последнее время и того поменьше, а как повесили на главной и с описанием "на что" то сразу за 3 дня $900 накидали.
А с файлообменника кстати файлы имеет склонность исчезать.
Сомнительно
Идея-то полезная... Но, это надо: чтобы сканировал, распознавал, и вычитывал один человек; чтобы заливал он изначально именно на либрусек (а не, к примеру, на БСЧ:)); чтобы он умел собирать "правильные" djvu. Со всеми можно договориться и всему научиться, но ты ж сам писал: "Психология она такая штука..." В результате, функция будет если и реализована, то очень мало востребована - овчинка выделки не стоит.
Отв: Сомнительно
Угу, но если функция не будет реализована то вообще никто делать не будет - святых и трудоголиков втоде TaKir-а ;) не так то много.
А так может хоть что то будет.
Отв: Сомнительно
Боюсь, что не поможет. Тут верно говорили: добросовестный оцифровщик проверит свою работу, недобросовестный - никакого ДежавВю ни делать ни заливать не станет.
Хотя, если у того же "недобросовестного" целенаправленно попросить исходники конкретного файла, то он скорее всего их пришлет.
Так что, ИМХО, не сильно поможет в вычитке добавление такой функции, не стоит овчинка выделки. А жаль.:(
Отв: Сомнительно
К сожалению, БСЧ по функционалу к Либрусеку не приблизится (а вот чисто визуально мне там приятнее), но опять-таки таких случаев как с Зыковым и Беккером там точно не будет (по крайней мере пока новинки проходят через меня). Соответственно, сканов там не будет (и неважно, что функционала под это нет, (смеётся)), однако в принципе, всё что я сам сканировал, у меня на винте и при желании может быть залито на либрусек.
Но в целом скажу так: 1) идея неплохая б) халтурщики могут и забить на это, как забивают на вычитку в) качественно вычитанные книги в "мелком" дажавю смысла имеют мало, если только действительно проверить оформление г) заливка больших сканов вызывает вопрос места, так как использование файлообменников не выдерживает никакой критики, так как встаёт большущая проблема с умиранием ссылок.
Где-то так.
P.S. Я бы всё-таки первоочередной необходимой идеей назвал перекрёстную базу "кто чего сканирует/планирует". Хотя бы в виде ссылок на форумы различных библиотек. И желательно без флуда в соответствующих темах.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Что-то не пойму - а зачем все эти костыли?
Зачем исправлять кривизну чужих рук? Если сделал кто-то криворукий кривую книжку, можно считать что ее просто нет.
Отв: Горе оцифровщики или проблема соурсов
Тебе очень хочется делать двойную работу? То есть вместо того чтобы просто вычитать еще и лишний раз купить, отсканировать и т.д.
Отв: Горе оцифровщики или проблема соурсов
Да не делай, вычитай то, что у тебя есть под рукой или свои сканы.
А то, чего у тебя нет, сделает кто-то другой )
Отв: Горе оцифровщики или проблема соурсов
Да. Я лучше сам сделаю работу с нуля, чем буду за кем-то разгребать
Отв: Горе оцифровщики или проблема соурсов
Вычитал. В одном месте, где была действительно непонятка, просто зашёл в соседний книжный магазин. Единственный повторяющийся кусок убрал. Возможно где-то не смог полностью восстановить изначальный книжный формат, но на удобство прочтения это никак повлиять не должно.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
http://lib.rus.ec/b/76475
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
http://www.libex.ru/detail/book299242.html
160р. всего
Отв: Горе оцифровщики или проблема соурсов
Кстати, а почему только одно предложение? Я как-то летом на алибе искал - было больше десятка. Ну, я честно каждому продавцу выслал письмо с просьбой эти страницы отсканить или хоть сфоткать. Все честно признались, что нечем / не умеют / не получилось, и только один - что сканы не рассылает в принципе. :)
Отв: Горе оцифровщики или проблема соурсов
В порядке справки. Летом доставка книги из Донецка в Россию (несколько дальше Москвы) ценной бандеролью обошлась всего в 70-80 рублей. Книга дошла в пункт назначения дней за 10 (может меньше, точно не помню).
Не так уж все и страшно :)
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
:)) и чтоб каждая книга в двух экземплярах, один из них - контрольный в несгораемом сейфе. А храниться они будут в Эквадоре, в книжном кафе у Ильи, книги для которого он просил присылать.
Кстати, да. Вся проблема в том, что из процесса оцифровки никак не исключить злополучный человеческий фактор. Остается решать вопрос с каждой книгой в индивидуальном порядке.
Отв: Горе оцифровщики или проблема соурсов
Короче как всегда вместо обсуждения о том как решать имеющуюся проблему получил два варианта стандартных ответов: 1.А я такой герой что и без этого обхожусь. 2.Все равно большинство пользоваться не будет а я ...(дальше см 1).
Дело ваше конечно, но насчет первого флаг вам в руки, дальше комментировать не буду, а насчет второго... ну и вычитывают то единицы, большинство не вычитывает, так можем и загрузку новых версий отменим, все равно мало кто вычитывает, а кому надо могут и библиотекарям на мыло послать - это по этой же логике.
Короче как хотите, я предложение высказал, его как всегда обосрали, ну и... собственно мне оно тоже не сильно надо, хотелось как лучше...
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Что касается тебя так это вообще не к тебе тема :), после твоих вычитываний ошибок почти не остается а если и попадаются то совсем не такие что требуют сорсы.
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Да понятно всем, что ты хотел как лучше. Никто и не собирался твоё предложение обсирать, идея-то хорошая, особенно если тексты сюда приходили бы только через OCR. Просто тут даже при наличии такой опции, которую ты предлагаешь, перед OCR-щиком встаёт психологическая проблема о признании собственной работы некачественной (требующей ещё и PDF/DJVU-дополнения), а на это не у каждого хватит духа. В итоге получим, что добросовестные OCR-щики будут кроме своего качественного FB2 выкладывать ещё и PDF/DJVU (просто на всякий случай - а вдруг они где-нибудь ошиблись), а недобросовестные продолжать лепить корявые FB2 и считать, что так правильно.
А ещё не надо забывать, что тексты сюда приносят не только оцифровщики - такие пользователи при всём желании не смогут воспользоваться этим сервисом, зато потом имеют шанс получить от ревнителей чистоты наезд типа: "А почему выложили невычитанный текст, а скан к нему не приложили?"
Отв: Горе оцифровщики или проблема соурсов
У Вас взгляд на вопрос не правильный :) не надо думать что "работа не качественная" надо думать:
а. Добавление скана повышает "коллаборацию" - ну не было у оцифровщика сил вычитывать вот он и дает другим "отполировать" :)
б. Это еще и сохранение источника, на будущее, вдруг кого заинтересует не только текст а именно сама книга, ее оформление скажем, фонты и т.д.
Отв: Горе оцифровщики или проблема соурсов
Интересно, насколько это востребовано.
Всегда делаю djvu со своих сканов. С удовольствием бы их куда-нибудь вывалил. В основном для таких любителей. Как бы понять, стоит ли.
Отв: Горе оцифровщики или проблема соурсов
Вроде логично... может стоит такое завести?
Отв: Горе оцифровщики или проблема соурсов
Понимаю о чём речь,но... Последнее время читаю новинки исключительно в редакторе и попутно исправляю найденные ошибки. Хотя бы для собственной библиотеки. Зыкова почти закончил и не встретил особых трудностей. А уж дубль-текст убрать ума особо не надо. Единственная проблема с некоторыми словами написанными курсивом. Я его убрал, как не имеющего смысловой нагрузки. Проблему вычитки можно решить проще. Достаточно в примечаниях писать: вычитано - не вычитано.
Отв: Горе оцифровщики или проблема соурсов
"Вычитано" тоже разной степени бывает ;)
Отв: Горе оцифровщики или проблема соурсов
Согласен. Но всё же это лучше, чем ничего и значительно проще сделать, чем сканы выкладывать. Либо надо отменять принцип "вики", чтобы выкладывали только библиотекари. А это противоречит политике либрусека.
Отв: Горе оцифровщики или проблема соурсов
Тут, кстати о сканах, с "Башней шутов" http://lib.rus.ec/node/157773 проблема образовалась.
Отв: Горе оцифровщики или проблема соурсов
Я вот что хочу сказать: Качество вычитки напрямую зависит от качества ОКР, а качество ОКР зависит... правильно,от качества сканирования.
А происходит это потому, что сканируют люди пользуясь установками по умолчанию. А здесь и разрешение 200 дпи, и полноцвет, который файнридеру и на фиг не нужен, и лезущий везде, где только сумеет, фон.
Отсюда и...
Давно хотел поговорить на эту тему.
Могу поделиться опытом получения качественных сканов со сложных оригиналов. Это кому-нибудь надо?
Отв: Горе оцифровщики или проблема соурсов
Ну конечно надо. Всегда полезно узнать что-то новое.
Для хорошего сканирования, кроме разрешения и проч. ещё важно хорошо открывать и прижимать книгу. Книгу надо предварительно "поломать". Сначала открыть на максимум на середине (слышится приятный хруст). Потом на середине от середины - в ту и другую сторону, и т. д. раз десять. Ну вот, книга уже выглядит непрезентабельно, а значит к сканированию готова.
Отв: Горе оцифровщики или проблема соурсов
Ну, за недельку-другую напишу. Сейчас просто дома сканер недоступен.
А куда выложить? Рассылать во все стороны не смогу.
Ау! Библиотекари! Это, наверное, относится к ЧаВо?
Отв: Горе оцифровщики или проблема соурсов
Можно в ЧаВо, можно в своём блоге сделать тему, а библиотекари внесут в ЧаВо. Как Вам удобнее.
Лишь бы написали. ;)
Отв: Горе оцифровщики или проблема соурсов
Отв: Горе оцифровщики или проблема соурсов
Боюсь не соглашусь с вами, точнее да, но качество "ленивой" вычитки когда быстренько так набегом просматривают. При нормальной вычитке, когда читают все, а затем еще и сверяют форматирование - такой проблемы нет.
Хотя хорошие сканы это всегда хорошо конечно, экономит кучу времени и облегчает работу.
Отв: Горе оцифровщики или проблема соурсов
Если строго подойти к вопросу, то звучать это должно так:
Чем выше качество сканирования, тем меньше ошибок распознавания, тем меньше придется вычитывающему вносить исправлений. Вычитка будет достаточно быстрой и комфортной, то есть, ошибок будет пропущено меньше.
А в случае выкладывания невычитанного текста, тем более!
Отв: Горе оцифровщики или проблема соурсов
Lord KiRon а нельзя в следующий раз сканировать, что-бы тире отображались?
Я об Академии вампиров. Осталось страниц 50.
А! Я понял это нарочно, что-бы я читал каждое слово.:(
Отв: Горе оцифровщики или проблема соурсов
Академия вампиров будет на Старом Чародее ( http://bomanuar.com/forum/index.php?topic=231.0 ) .
Сюда выложил очень поганого качества Dejavu для тех кому не терпится а так же для верификации ошибок в будущем. FB2 с него делать точно не надо.
Отв: Горе оцифровщики или проблема соурсов
Lord KiRon это называется подлянка. Я сижу второй день и почти доделал, сверяю каждую букву.
А оказывается есть скан лучше. Очень нехорошо. Не по товарищески. Я даже не знаю как это назвать!
Отв: Горе оцифровщики или проблема соурсов
Это называется что нужно организовываться о чем я давно говорю. Тогда бы я не покупал те книги которые к тому моменту когда они приходят уже появляются в сети, никто бы не делал одну и ту же книгу два раза и т.д.
Но народ поднял крик в стиле "зачем это нужно" , "те кому надо и так знают" , "есть топик на форуме" , вот да кстати есть топик на форуме - кто вам виноват что вы на форум старого чародея не заглядываете ?;)
А серьёзно - это очень раздражает, да.
Страницы