Мастер-класс по сканированию

Вы здесь Главная » Блоги » Блог пользователя Антонина82 Мастер-класс по сканированию Опубликовано сб, 23/07/2011 - 05:48 пользователем Антонина82 Сразу расставлю точки над ё: я выступаю в роли прилежной ученицы. Учителей будет, как мне представляется, несколько. Итак, шаг первый. Купить сканер. Здесь более-менее всё понятно шаг второй. Я не знала в каком формате нужно сканировать. Наверное, столь очевидный вопрос в головах знатоков даже не возник. С помощью Голмы, выяснилось, что формат jpg Создала папку на компьютере с названием книги, указав на сканере данные куда направлять отсканированные страницы. Шаг третий. Столкнулась с проблемой, что бумага «просвечивает», т.е. видно, что напечатано на следующей странице. Это плохо отражается на качестве скана. Необходимо подкладывать чёрный лист. В комплектацию сканера, у меня по крайней мере, файл предусмотрен. Шаг четвёртый. По совету Голмы режим сканирования установила для страниц без картинок – серый 300dpi, для картинок – режим 600 dpi. Сразу скажу, скорость при втором режиме резко падает. Шаг пятый: сканирование, самый трудоёмкий и несколько нудный и однообразный процесс. Кладёшь на стекло страницу, затем устанавливаешь режим просмотра. Если полученное изображение удовлетворяет моим требованиям о качестве (что может не совпасть с мнением бывалых людей) жму на кнопку -сканировать Шаг шестой: Папку с файлами заархивировала и отправила на файлообменник, в надежде на то, что кто-то подхватит из моих рук скан и сделает книжку. Освоить сразу все профессии по изготовлению электронных книг, для меня представляется пока сложной задачей. Теперь вопросы, которые у меня возникли: 1 Надо ли сканировать пустые листы? Я один раз пропустила пустой лист, и у меня количество страниц не совпадало с книгой. 2. Файлообменник – любой, или есть у опытных людей пожелания. 3 Если вдруг я пропустила страницу, какой порядковый номер у страницы должен быть Моя первая отсканированная книжка детская Я.Акима – с символичным названием «Неумейка» файл лежит здесь здесь Можно указывать, на что надо обращать внимание и на ошибки используя «Неумейку», как пример. И вообще хочется узнать от бывалых людей, какие проблемы могут подстерегать новичков, и как с этим бороться. Блог пользователя Антонина82 Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 06:08 пользователем SunnyCat 1 - то, что количество страниц не совпадает с книгой, имхо, не страшно. 3 - любой, чтобы встал между двумя имеющимися. Скажем, пропущена страница между 12 и 13 - значит, ее номер должен быть 12a (а латиская, разумеется). ИМХО, опять же. Книжку сейчас погляжу :) Да, Антонина, правильная ссылка на файл будет выглядеть как http://ifolder.ru/24838124 :) Потому что иначе ее не увидят те, у кого нет акканута на mail.ru :) Скачала :) первое и самое важное, имхо :) при сканировании можно выделить "область сканирования" - этим надо пользоваться. Чтобы на получившейся картинке была только страница книги и не было черных полей сканера. Иначе обработка, особенно если речь идет не о FB2, а о djvu или pdf, становится неоправданно времязатратной. Ну и в такую книгу я бы подкладывала не черный, а белый лист. Иначе, опять же, чистить картинки от просвечивающего черного - дополнительная работа. ИМХО, в именно этом случае белый был бы лучше. Хотя это на любителя. :) Книжку сделать? :) Или Вы ее просто для примера выложили? Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 06:19 пользователем Антонина82 Я сначала подкладывала белый лист, но он не помог. Страницы просвечивали. Если не трудно сделайте, пожалуйста книгу. Я сканировала, но те ми же ошибками, очень хорошую книжку Если у вас есть возможность, я бы дала ссылку. Мне удивительно, что книги такого замечательного автора в сети отсутствуют Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 06:38 пользователем SunnyCat А картинок во второй много? Если не очень, то сделаю, не проблема, она небольшая :) Сканы у Вас хорошие получаются :) Эту сделаю сегодня :) Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 07:08 пользователем Alex2L Лично я подкладываю черный лист (на лазерном принтере "залил" черным страницу) - получается гораздо лучше - слабо-сероватый фон легко убирается в графических редакторах. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 08:25 пользователем SunnyCat Да, вот что еще забыла сказать :) Чаще всего, оптимальным является сканирование не постранично, а разворота. Если размер книги позволяет, разумеется. В этом случае не приходится каждый раз устанавливать область сканирования, а просто возвращаете книгу в то же место и сканируете :)) Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 07:48 пользователем AleksandrEremin После сканирования я использую СканКромсатор. Он Обрезает поля и заменяет их чистым белым цветом. Просвечивающийся текст с обратной страницы убирается автоматически. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 06:51 пользователем Trinki А мне кажется, что такие книги стоит делать в djvu, но никак не в fb2. По весу будет тоже самое, а зачем такие тяжелые fb2? Плюс книга от формата djvu только выиграет. Антонина, загляните сюда, очень грамотный мануал по сканированию. Ну, а, если захочется, потом по djvu и pdf - сюда. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 06:57 пользователем Антонина82 Спасибо за ссылки. Давний мой друг Лорд делится опытом :) Обязательно изучу. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вт, 26/07/2011 - 10:36 пользователем Антонина82 Trinki написал: А мне кажется, что такие книги стоит делать в djvu, но никак не в fb2. По весу будет тоже самое, а зачем такие тяжелые fb2? Плюс книга от формата djvu только выиграет. Антонина, загляните сюда, очень грамотный мануал по сканированию. Ну, а, если захочется, потом по djvu и pdf - сюда. Я посмотрела, как Лорд советует делать pdf. Мне не понятно - с форматом djvu надо делать также как с pdf? Я отсканировала книжку Маршака "Рассказ о неизвестном герое" там всего 18 листов. (цвет 600- tiff). Какой следующий шаг? Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 11:04 пользователем Миррима (схватила себя за голову; долго думала) Ё-моё... Хорошо, что я нифига таких умных слов не знала, когда взялась сканировать понравившуюся книжку. (с умной мордой) Надо просто делать, спрашивая по ходу дела мэтров. :)))) Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 12:07 пользователем niksi 1. Конкретно для этой книги сделано более чем достаточно, что бы передать ее на дальнейшую обработку другим спешиалистам. 2. Сканы после сканирования лучше все-таки обрезать. Делается так. Перед этим надо создать копию пакета на всякий случай. Затем выбрать в "Файнридере" "Редактор изображений, и: Спойлер: 3. Но в вашем случае это не получится. Потому что вы не прижимали при сканировании к одному и тому же углу. Или прижимали к одному и тому же, но то вверх ногами, то вниз. Подозреваю, что из-за подкладывания черной бумаги. 4. Надо ли вообще подкладывать? Давайте разберемся. Выложите пожалуйста одну и ту же страницу - без, с черной и с белой подкладкой. Вот одна из ваших картинок, обработанная быстро в Photoshop: Спойлер: http://s002.radikal.ru/i197/1107/22/4c86b3908bbb.jpg Хочу посмотреть, удастся ли приемлемо убрать просветку. 5. Коллеги, а для чего сканировать в 600, если при дальнейшей обработке картинка все равно будет ужиматься? Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 12:31 пользователем sem14 Цитата: 5. Коллеги, а для чего сканировать в 600, если при дальнейшей обработке картинка все равно будет ужиматься? Так велит великий и ужасный РТ. )))) Наверно, с несжатым материалом лучше работать. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 12:37 пользователем niksi sem14 написал: Наверно, с несжатым материалом лучше работать. Стоит ли оно того, что бы сканировщик в два раза дольше корпел над книгой? Большие есть сомнения у меня. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 12:41 пользователем SunnyCat Для цветных картинок - стоит точно. Я сейчас их обрабатываю - и так зачищаю, что на мелком скане будут просто проблемы. Покажу через полчасика результат. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 13:03 пользователем niksi SunnyCat написал: Для цветных картинок - стоит точно. Я сейчас их обрабатываю - и так зачищаю, что на мелком скане будут просто проблемы. Покажу через полчасика результат. Я за 2,5 года что сканирую, не отсканил ни одной книги с цветными картинками. Поэтому тут я не спец конечно. Но, с другой стороны, постоянно сканю и обрабатываю обложки. И чем плохи мои обложки, отканенные в 300 dpi и ужатые до 600 точек по горизонтали? Например: http://lib.rus.ec/node/310119 http://lib.rus.ec/node/310129 http://lib.rus.ec/node/320807 Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 13:28 пользователем SunnyCat До 600 точек - никакой разницы :) А я сейчас делаю детскую книжку - начнаю с 4000 пикселей по высоте :)))) С учетом того, что требуется зачистка фона - очень правильное разрешение... :) Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано чт, 28/07/2011 - 07:21 пользователем Рыжий Тигра niksi написал: И чем плохи мои обложки, отканенные в 300 dpi и ужатые до 600 точек по горизонтали? Например: [...] http://lib.rus.ec/node/320807 Вижу только последнюю, но у обложки ширина не 600, а 350. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано чт, 28/07/2011 - 07:19 пользователем Рыжий Тигра sem14 написал: Цитата: 5. Коллеги, а для чего сканировать в 600, если при дальнейшей обработке картинка все равно будет ужиматься? Так велит великий и ужасный РТ. )))) Наверно, с несжатым материалом лучше работать. 1) Проще чистить - хорошо видно, где мусор, где потёртая краска или соринка в бумаге, а где деталь изображения. Особенно если сканер не ахти (вроде моего HP 2410) и/или раздолбанный. 2) Если это растровая печать (в т.ч. цветная) - c 300 dpi очень трудно убирать муар, разве что чрезмерным размытием; с 600 dpi - downsize'ом в 4-5 раз убирается на ура. Примеры навскидку: http://lib.rus.ec/node/277231 Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 21:35 пользователем Антонина82 Цитата: Но в вашем случае это не получится. Потому что вы не прижимали при сканировании к одному и тому же углу. Или прижимали к одному и тому же, но то вверх ногами, то вниз. Подозреваю, что из-за подкладывания черной бумаги. Это не из-за невнимательности, а из-за особенности сканера. Он позиционируется как книжный. И книга кладется по-разному, четные страницы - к одному краю сканера, а нечётные к другому. Программа переворачивает изображение в одну сторону, но к разным краям страницы. На этом сканере еще есть возможность "book pilot", там обрабатывается целиком книга, но я эту функцию ещё не освоила. В инструкции очень корявый перевод. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вс, 24/07/2011 - 02:52 пользователем niksi Антонина82 написал: Это не из-за невнимательности, а из-за особенности сканера. Сканер с моего юзерпика :) У Лорда вроде такой же. Тогда надо его пытать как сделать так, что бы можно было после сканирования автоматом ровно обрезать. Это важно - ровно обрезать. 16 страничную книгу порезать можно и руками, а 400 страниц - вряд ли это весело. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пн, 25/07/2011 - 01:04 пользователем Ronja_Rovardotter niksi написал: У Лорда вроде такой же. Тогда надо его пытать как сделать так, что бы можно было после сканирования автоматом ровно обрезать. Это важно - ровно обрезать. 16 страничную книгу порезать можно и руками, а 400 страниц - вряд ли это весело. Что за игры с обрезанием? Зачем? Уже не в первый раз слышу. Сама ничего такого никогда не делала. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пн, 25/07/2011 - 03:14 пользователем niksi Ronja_Rovardotter написал: Что за игры с обрезанием? Зачем? Уже не в первый раз слышу. Сама ничего такого никогда не делала. Наверно только я так делаю. Все предпочитают задавать область сканирования. Буду пробовать как все. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пн, 25/07/2011 - 04:25 пользователем Ronja_Rovardotter niksi написал: Наверно только я так делаю. Все предпочитают задавать область сканирования. Буду пробовать как все. Ты сканируешь на всю длиноширину стекла, не оглядываясь на размеры книги? Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пн, 25/07/2011 - 04:28 пользователем niksi Ronja_Rovardotter написал: niksi написал: Наверно только я так делаю. Все предпочитают задавать область сканирования. Буду пробовать как все. Ты сканируешь на всю длиноширину стекла, не оглядываясь на размеры книги? Совершенно правильно. И совершенно не правильно. В смысле понято правильно, а делаю неправильно. :) Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пн, 25/07/2011 - 04:26 пользователем Ronja_Rovardotter Антонина82 написал: Цитата: Но в вашем случае это не получится. Потому что вы не прижимали при сканировании к одному и тому же углу. Или прижимали к одному и тому же, но то вверх ногами, то вниз. Подозреваю, что из-за подкладывания черной бумаги. Это не из-за невнимательности, а из-за особенности сканера. Он позиционируется как книжный. И книга кладется по-разному, четные страницы - к одному краю сканера, а нечётные к другому. Программа переворачивает изображение в одну сторону, но к разным краям страницы. Хм. Совсем не обязательно гонять книгу по стеклу. Скажем, выбираем правую сторону сканера, кладем книгу (разворот из середины) вплотную к границе сканирования (стык пластика и стекла), запускаем предварительный просмотр и фиксируем в программе область сканирования. Всё. Дальше кладем книгу только в эту область, выравнивая по границе справа. Естественно страницы будут чередоваться: то правильно, то вверх ногами. Файнридеру можно поставить задачу определять ориентацию страницы, ПО вашего сканера тоже это умеет. Я так сканировала большие книги, которые разворотом отсканировать было нельзя, только постранично. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пн, 25/07/2011 - 08:52 пользователем Антонина82 Я это поняла сама, но после того как раз сто или больше переместила книгу из угла в угол :) Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 13:55 пользователем irukan А я вообще использую горизонтально закреплённый над столом фотоаппарат Ricoh CX1. В настройках есть съёмка с заданным интервалом, снимает каждые пять секунд. Всё, что требуется - каждые пять секунд, услышав бибикание, переворачивать страницу. 10 мегапикселей вполне хватает для распознавания. 100 страниц сканируются примерно за 4 минуты. Важно выставить экспокоррекцию на +1 Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вс, 24/07/2011 - 02:03 пользователем archimedes irukan написал: А я вообще использую горизонтально закреплённый над столом фотоаппарат Ricoh CX1... irukan, не могли бы Вы рассказать об этом подробней, отдельной темой?.. Еще лучше - с иллюстрациями и образцами "фотосканов"... :) Я намереваюсь отразить Ваш опыт в ЧаВо по книгам и ограничился бы обычной вставкой линка... но Ваш здешний пост, увы, не фокусируется... :( Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вс, 24/07/2011 - 02:19 пользователем Миррима ППКС. Есть еще пара коллег, предпочитающих фото. Надо будет их пригласить в тему. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вс, 24/07/2011 - 09:17 пользователем babajga Ну я предпочитаю))) Поскольку верстаю сама и сканы неземной красоты мне не нужны, особо не заморачиваюсь. Штатива нет, на книгу уходит минут 20-30, с учетом копирования на комп и замены батареек. Фаня-10 распознает без проблем. Сканер есть, но используется для обложек и цветных иллюстраций. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пт, 24/02/2012 - 14:16 пользователем irukan Несколько поздно. Отрабатывал технологию. Итак, сделал раму на стойках высотой с полметра. На раме закрепил две лампы дневного света и фотоаппарат Ricoh CX1, объективом вниз. Выставил автоматическую съёмку каждые пять секунд, экспокоррекцию +1, чтобы лист на снимке выглядел белым, а не серым. Самую узкую диафрагму, ISO 100 (чтобы было выше разрешение). После того как фотоаппарат снимает разворот страницы (сопровождается бибиканием), есть пять секунд, чтобы перевернуть страницу. Номера страниц закрываются указательными пальцами, хотя вроде Finereader 11 умеет их убирать и самостоятельно. После того, как съёмка закончена, все JPEG-и загружаются в Finereader 11. Из его плюсов - справляется с искажениями текста на развороте книги. Из примеров книг, отсканнированных по этой технологии: Анастасия Цветаева "Воспоминания" (http://lib.rus.ec/b/355407). Книга на 800 страниц сканнировалась 45 минут. Юрий Ерзинкян "Невыдуманные истории. Веселые страницы из невеселого дневника кинорежиссера" (http://lib.rus.ec/b/353523) - книга сканнировалась 15 минут. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пт, 23/03/2012 - 00:39 пользователем archimedes irukan написал: <...>Из примеров книг, отсканнированных по этой технологии: Анастасия Цветаева "Воспоминания" (http://lib.rus.ec/b/355407). Книга на 800 страниц сканнировалась 45 минут. Юрий Ерзинкян "Невыдуманные истории. Веселые страницы из невеселого дневника кинорежиссера" (http://lib.rus.ec/b/353523) - книга сканнировалась 15 минут. Спасибо. Не могли бы выложить на обменник парочку сканов для посмотреть?.. :) Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 23/07/2011 - 22:24 пользователем Zadd Антонина82 написал: Я не знала в каком формате нужно сканировать. Наверное, столь очевидный вопрос в головах знатоков даже не возник. С помощью Голмы, выяснилось, что формат jpg Ответ неверный! В свое время niksi уже спорил со мной по этому поводу. Спор заключался вот в чем: как нам говорит вики и другие авторитетные источники, формат JPEG НЕ предназначен для распознавания текстов и что для этих целей больше подходит TIFF. niksi же утверждал, что я неправ и формат JPEG практически почти не дает искажений и в то же время файл в формате jpeg занимает в 1.5 раза меньше места. Он обозвал меня идиотом и создал новую тему под названием JPEG vs TIFF. В этой теме было предложено сканировать в формате дежавю. Я творчески переработал эту мысль и написал сообщение JPEG vs DJVU, где сказал Цитата: И наконец, тут озвучили ещё один путь сканирования, который побивает одним выстрелом сразу всех зайцев, а именно: делать дежавюшки! Тут ~~niksi~~ кто-то может возмутиться: как же так, всем ведь известно, что дежавюшки всегда портят качество! А вот и нет, а вот и нет! Есть такая программа DocumentExpressEditor как раз для работы с дежавюшками. Так вот, у этой проги есть разные ~~режимы~~ профили кодирования, в частности профиль "фотография", в котором информация кодируется без потерь. Конечно, дежавюшка при этом получается большего веса, чем при "обычном","ч/б","рисунок" и пр. профилях, но зато без потерь! И объём полученной дежавюшки будет меньше, чем у TIFF и/или JPEG! Да, чуть не забыл: DocumentExpressEditor имеет режим сканирования, так что сканировать можно сразу в DJVU! Так что, в битве TIFF vs JPEG побеждает DjVu! И вот с этим niksi внезапно согласился. Кроме того, если собираетесь делать дежавю никогда не сканируйте в JPEG, потому что этот JPEG, чтобы вставить в DjVu, придется сперва перекодировать в TIFF, а уж потом прога вставит полученный TIFF как страничку в дежавю. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вс, 24/07/2011 - 02:47 пользователем niksi Лично ты можешь сканировать в чем угодно, как угодно, где угодно. Как я и говорил, меня убедит только статистика, доказывающая, что тифы распознаются лучше, чем джпеги. Размышления о том, что лучше в сферическом вакууме не имеют отношения к реальной практике. Насчет сохранения в дежавю - для моих регулярных задач это все-таки экзотично. В итоге я предпочел не воспользоваться этим советом. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано чт, 28/07/2011 - 07:25 пользователем Рыжий Тигра niksi написал: меня убедит только статистика, доказывающая, что тифы распознаются лучше, чем джпеги. Пока имею только обратную статистику, а именно - что распознавалке пофигу. Но если среди сканеного текста вдруг попаладается картинка - тады ой. :-( Особенно если растровая. :-(((( Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано чт, 28/07/2011 - 07:39 пользователем niksi Рыжий Тигра написал: niksi написал: меня убедит только статистика, доказывающая, что тифы распознаются лучше, чем джпеги. Пока имею только обратную статистику, а именно - что распознавалке пофигу. Но если среди сканеного текста вдруг попаладается картинка - тады ой. :-( Особенно если растровая. :-(((( Спасибо что успокоил. А то я уж испереживался, что неправильно сохраняю отсканированное. Нервный стал, злой, и чуть в запой не ушел. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пт, 19/08/2011 - 14:46 пользователем Fanex Такой статистики не будет по очевидным причинам. Никто не будет сканировать одну и ту же книгу одновременно и в jpg и в tiff, после чего оба варианта распознавать. Причем проделывать это не с одной книгой, иначе ни о какой статистике речь идти не может. Точно так же вы бы не нашли статистики, гласящей почему для забивания гвоздей лучше молоток, а не микроскоп. Если все-таки чуть-чуть знать особенности компрессии, выйдет что особенности JPG, которые так замечательно подходят для полноцветных фото, на тексте проявляют свои худшие стороны: 1. Артефакты по краям букв (чем больше контраст между соседними пикселями, тем больше искажения). 2. Крайняя нежелательность редактирования. Каждое новое сохранение jpg дает помехи. 3. На однобитных изображениях jpg бессмысленен из-за больших артефактов и неважной компрессии. Тогда уж лучше tif, gif, png, да что угодно, лишь бы без потери качества. TIFF с lzw компрессией практически идеален. Понятно что распознавалки текста умеют как-то бороться с артефактами jpg-компрессии. Это как в анекдоте: "ему было легче отдаться, чем разъяснить почему не хочу". Вот перевод отличного примера от XCKD, как раз в тему http://joyreactor.ru/post/8157 Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пт, 19/08/2011 - 15:02 пользователем niksi Fanex написал: Такой статистики не будет по очевидным причинам. Никто не будет сканировать одну и ту же книгу одновременно и в jpg и в tiff, после чего оба варианта распознавать. Причем проделывать это не с одной книгой, иначе ни о какой статистике речь идти не может. По условиям задачи двойное сканирование не требуется. Сканируем в FR. Затем сохраняемся в тифы и джпеги. Остальное - справедливо. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вт, 23/08/2011 - 04:44 пользователем Рыжий Тигра Fanex написал: Если все-таки чуть-чуть знать особенности компрессии, выйдет что особенности JPG, которые так замечательно подходят для полноцветных фото, на тексте проявляют свои худшие стороны: 1. Артефакты по краям букв (чем больше контраст между соседними пикселями, тем больше искажения). Не проблема. Если восстанавливать контуры букв трассировкой (большинство OCR-программ это делает) и не увлекаться сверхнизкими разрешениями и буковками высотой меньше 10 пикселов. Fanex написал: 2. Крайняя нежелательность редактирования. Каждое новое сохранение jpg дает помехи. Не проблема. По крайней мере ФР9, загружая картинку, сразу у себя сохраняет её распакованной. А при ручном редактировании .jpg'а сохранять промежуточные материалы обратно в .jpg - это надо даже не представляю насколько не знать матчасть... :-((( Fanex написал: 3. На однобитных изображениях jpg бессмысленен из-за больших артефактов OCR с однобитки даёт намного больше ошибок, поэтому имеет смысл только если книга больше ни в каком виде не существует. А особенное свинство - делать однобитный скан для передачи кому-то на распознавание. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вс, 24/07/2011 - 10:19 пользователем jno Минздрав предупреждает: DJVU - это вариация на тему JPEG! Т.е. сжатие с потерями. Без потерь (в общем случае) - это TIFF, PNG, GIF... Для распознавания, как такового, наличие потерь при сжатии несущественно! Главное - "чёткость" изображения текста. Объём файлов можно снизить, например, за счёт оптимизации палитры (делайте в 256 градаций серого и LZV-сжатие в том же TIFF'е). Хотите JPEG - не экономьте на пиксельном разрешении (главное - не переуседствовать и особенно не лезть в интерполяцию, задирая циферки выше физических способностей сенсора). И вообще, это тут [:]\|\|\|[:] уже - и захожу нечасто, но каждый раз натыкаюсь на эти споры... Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пн, 25/07/2011 - 08:57 пользователем Антонина82 Цитата: И вообще, это тут [:]\|\|\|[:] уже - и захожу нечасто, но каждый раз натыкаюсь на эти споры... Надоело слушать баян? – Милости просим на Флибусту))) Вам достаточно произнести «Ля-ля» и ансамбль балалаечников подхватит мелодию. Репертуар, исполняемый признанными мастерами, просто огромен. Они могут исполнить всё - начиная с гимна Цитата: Нас вырастил Сталин — на верность народу, На труд и на подвиги нас вдохновил! заканчивая шлягером – на кулинарные темы : Цитата: Два кусочека колбаски У тебя лежали на столе. Ты рассказывал мне сказки Только я не верила тебе . Большим успехом у слушателей пользуются народные песни: Цитата: В семь-сорок он подъедет, В семь-сорок он подъедет - Наш старый наш славный Наш агицын паровоз. И эта – Цитата: Ти ж мене підманула, Ти ж мене підвела, Ти ж мене молодого З ума-розуму звела Вне конкуренции – русская народная песня «Во поле березка стояла». Один исполнитель очень здорово выводит – Цитата: Как пойду я в лес, погуляю, Белую березу заломаю, Люли, люли, заломаю. В руках у него в это время что-то блестит, знающие люди говорят – рашпиль. А ещё он замечательно исполняет песню – Цитата: Зачеркнуть бы всю жизнь да с начала начать, Полететь к ненаглядной певунье своей. Да вот только узнает ли Родина-мать? У слушателей - слёзы умиления выступают. Ансамбль может исполнить и лизгинку, и народные мелодии Ливии, Сирии и т.п. Никаких ограничений в репертуаре. Впрочем, если надоест слушать современные мелодии, солист ансамбля, подыгрывая себе на кифаре, споет вам что-нибудь из Гомера или Виргилия. Вход на Флибусту абсолютно бесплатный. Только выйти оттуда достаточно сложно. Кругом болота – погрязнуть в них –ничего не стоит. ЗЫ: на Либрусеке Цитата: Снова замерло все до рассвета Дверь не скрипнет не вспыхнет огонь Только слышно на улице где-то Одинокая бродит гармонь Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано сб, 20/08/2011 - 22:42 пользователем Star-zan Антонина82 написал: Цитата: И вообще, это тут [:]\|\|\|[:] уже - и захожу нечасто, но каждый раз натыкаюсь на эти споры... Надоело слушать баян? – Милости просим на Флибусту))) Вам достаточно произнести «Ля-ля» и ансамбль балалаечников подхватит мелодию. Репертуар, исполняемый признанными мастерами, просто огромен. Они могут исполнить всё - начиная с гимна Цитата: Нас вырастил Сталин — на верность народу, На труд и на подвиги нас вдохновил! заканчивая шлягером – на кулинарные темы : Цитата: Два кусочека колбаски У тебя лежали на столе. Ты рассказывал мне сказки Только я не верила тебе . Большим успехом у слушателей пользуются народные песни: Цитата: В семь-сорок он подъедет, В семь-сорок он подъедет - Наш старый наш славный Наш агицын паровоз. И эта – Цитата: Ти ж мене підманула, Ти ж мене підвела, Ти ж мене молодого З ума-розуму звела Вне конкуренции – русская народная песня «Во поле березка стояла». Один исполнитель очень здорово выводит – Цитата: Как пойду я в лес, погуляю, Белую березу заломаю, Люли, люли, заломаю. В руках у него в это время что-то блестит, знающие люди говорят – рашпиль. А ещё он замечательно исполняет песню – Цитата: Зачеркнуть бы всю жизнь да с начала начать, Полететь к ненаглядной певунье своей. Да вот только узнает ли Родина-мать? У слушателей - слёзы умиления выступают. Ансамбль может исполнить и лизгинку, и народные мелодии Ливии, Сирии и т.п. Никаких ограничений в репертуаре. Впрочем, если надоест слушать современные мелодии, солист ансамбля, подыгрывая себе на кифаре, споет вам что-нибудь из Гомера или Виргилия. Вход на Флибусту абсолютно бесплатный. Только выйти оттуда достаточно сложно. Кругом болота – погрязнуть в них –ничего не стоит. ЗЫ: на Либрусеке Цитата: Снова замерло все до рассвета Дверь не скрипнет не вспыхнет огонь Только слышно на улице где-то Одинокая бродит гармонь Мать... мать... мать... - привычно откликнулось эхо. © поручик Ржевский. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пн, 25/07/2011 - 22:06 пользователем Zadd jno написал: Минздрав предупреждает: DJVU - это вариация на тему JPEG! Т.е. сжатие с потерями. Вы немного не в теме ;) Вы наверно, не слышали о сканировании в DjVu без потерь. Удивительно, но факт! Я уже об этом писал, так что принимайте очередной боян [:]\|\|\|[:] В программе DjVuExpressEditor есть разные профили кодирования DjVu. Большинство из них с потерями, но есть один профиль, который называется фотография, так вот, в этом профиле TIFF кодируется без потерь, а DjVu при этом занимает меньше места, чем TIFF и/или JPEG. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано чт, 28/07/2011 - 07:34 пользователем Рыжий Тигра Zadd написал: Вы наверно, не слышали о сканировании в DjVu без потерь. Уже напарывался. Он такой же "без потерь", как химические отшибатели нюха в баллончиках - "освежители воздуха". Это всего лишь .jpg "со 100% качеством". :-(((( Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пн, 25/07/2011 - 22:23 пользователем Zadd jno написал: Без потерь (в общем случае) - это TIFF, PNG, GIF... Вот только про GIF не надо тут ля-ля Я вот, когда сохраняю в GIF, мне Paint сразу предупреждение: Цитата: Этот формат допускает только 256 цветов. Преобразовать? Цитата не точная, но смысл такой. И действительно, цвет делается 8-битным, картинка ухудшается, многие цвета имитируются разным цветом рядом стоящих пикселов. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано пт, 19/08/2011 - 14:53 пользователем Fanex Это так да не так. По сути DjVu как раз изначально сделан для книг. Изображение обрабатывается и разделяется на слоя, у каждого слоя в зависимости от особенностей выбирается свой тип компрессии. Т.е. для контрастного текста идет компрессия без потерь, для фона - с потерями, какие-то участки становятся однобитными, какие-то остаются 24-битными. Что позволяет получить очень маленький объем при максимальной сохранности оригинала. Кстати, в PDF какое-то время тоже научились делать подобные трюки. В целом я с вами согласен, просто хочу стать на защиту отличного DjVu. Кстати, него есть еще OCR Layers, т.е. текст местами может быть распознан и идти поверх оригинального оформления. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вт, 23/08/2011 - 04:30 пользователем Рыжий Тигра Fanex написал: По сути DjVu как раз изначально сделан для книг. Изображение обрабатывается и разделяется на слоя, у каждого слоя в зависимости от особенностей выбирается свой тип компрессии. Т.е. для контрастного текста идет компрессия без потерь, для фона - с потерями, какие-то участки становятся однобитными, какие-то остаются 24-битными. Что позволяет получить очень маленький объем при максимальной сохранности оригинала. Угу. Но в результате ещё острее встаёт проблема прямых рук. Чуть-чуть нерезкость при сканировании или недовытянутый чёрный - и привет, кусок текста превращается в truecolor'ную фоновую картинку сверхнизкого разрешения. Глазами вроде ОК, а для OCR не годится. Оцени при случае http://fs88.www.ex.ua/get/bb8e7d7b94b1f632e30dd7f2e786cdb6/11011191/%D0%97%D0%B5%D0%BC%D0%BB%D1%8F%20%D1%81%D0%B2%D1%96%D1%82%D0%BB%D1%8F%D1%87%D0%BA%D1%96%D0%B2.%D0%91%D0%BB%D0%B8%D0%B7%D0%BD%D0%B5%D1%86%D1%8C%201989.djvu :-(((( Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вт, 23/08/2011 - 05:32 пользователем Zadd Рыжий Тигра написал: Fanex написал: По сути DjVu как раз изначально сделан для книг. Изображение обрабатывается и разделяется на слоя, у каждого слоя в зависимости от особенностей выбирается свой тип компрессии. Т.е. для контрастного текста идет компрессия без потерь, для фона - с потерями, какие-то участки становятся однобитными, какие-то остаются 24-битными. Что позволяет получить очень маленький объем при максимальной сохранности оригинала. Угу. Но в результате ещё острее встаёт проблема прямых рук. Чуть-чуть нерезкость при сканировании или недовытянутый чёрный - и привет, кусок текста превращается в truecolor'ную фоновую картинку сверхнизкого разрешения. Глазами вроде ОК, а для OCR не годится. Оцени при случае http://fs88.www.ex.ua/get/bb8e7d7b94b1f632e30dd7f2e786cdb6/11011191/%D0%97%D0%B5%D0%BC%D0%BB%D1%8F%20%D1%81%D0%B2%D1%96%D1%82%D0%BB%D1%8F%D1%87%D0%BA%D1%96%D0%B2.%D0%91%D0%BB%D0%B8%D0%B7%D0%BD%D0%B5%D1%86%D1%8C%201989.djvu :-(((( Цитата: Если объект не использовался более 30 дней, он может быть удален системой. Короче, нету там Светличков-Близненцов.djvu Хотя есть вероятность, что есть, но только для украинцев, а меня из России просто не пускает. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вт, 23/08/2011 - 15:30 пользователем Рыжий Тигра Zadd написал: Рыжий Тигра написал: Глазами вроде ОК, а для OCR не годится. Оцени при случае http://fs88.www.ex.ua/get/bb8e7d7b94b1f632e30dd7f2e786cdb6/11011191/%D0%97%D0%B5%D0%BC%D0%BB%D1%8F%20%D1%81%D0%B2%D1%96%D1%82%D0%BB%D1%8F%D1%87%D0%BA%D1%96%D0%B2.%D0%91%D0%BB%D0%B8%D0%B7%D0%BD%D0%B5%D1%86%D1%8C%201989.djvu :-(((( нету там Светличков-Близненцов.djvu Лови: http://ifolder.ru/25351887 Грабли заметны на 11-й странице, например. Отв: Мастер-класс по сканированию Постоянная ссылка (Permalink) Опубликовано вт, 23/08/2011 - 16:18 пользователем Lyka А что, именно эта книга нужна? Можно поискать. Книга с "Читанки". Книг там много, но хоть бери и пересканируй. IMXO такую детскую литературу в Djvu хранить не стоит. Потом ничего не переделаешь. Но с другой стороны... Сканы занимают столько места... И сильно не ужмешь. Свои храню в JPG 60%, и то выходит от 1 до 3 метров на страницу. А в TIFF цветные - есть и 25 метров. Страницы 1 2 3 4 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии нэнси RE:Подайте бедному копеечку на книжку с литреса... 6 мин. larin RE:Заплатила, а абонемента нет и скачать ничего не могу! 4 дня sibkron RE:Серия "Библиотека французской литературы" (Макбел) 6 дней Nicout RE:Прошу переформатировать, распознать, etc... 3 недели akorish RE:Регистрация 1 месяц Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 месяц Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 месяц konst1 RE:Ух, как я не люблю спамеров! 1 месяц tvv RE:DNS 1 месяц sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 1 месяц larin RE:Заблокирован 2 месяца konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 2 месяца Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 2 месяца fixel RE:Пропал абонемент 2 месяца sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 3 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 4 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 4 месяца Впечатления о книгах Oleg68 про Иванов: Тобол. Мало избранных [litres] (Историческая проза, Исторические приключения) 02 06 Интересная книга. Охватывает большой пласт истории. Оценка: отлично! Sello про Томпсон: Поколение свиней [Generation of Swine: Tales of Shame and Degradation in the '80's ru] (Контркультура) 02 06 Этот так называемый знаменитый автор - как журналист дерьмо. И как человек: стоит почитать его бестолковую биографию. Типичный журналист-падальщик. Я был немало ошарашен, читая, как он описал Горбачева, которого Запад старательно ……… Оценка: нечитаемо lee321 про Фильковская: К новым рубежам (Публицистика, Документальная литература) 31 05 Это сейчас кто-то еще читает?! mysevra про Аарсен: Легкий как перышко [litres] [Light as a Feather ru] (Ужасы, Триллер, Детективы: прочее) 31 05 Слабенько даже для подросткового чтива. Оценка: плохо mysevra про Тумановский: Штык (Боевая фантастика) 31 05 Читаешь, читаешь… Какие-то армейские байки, генералы-полудурки… Цирк шапито. Не понравилось. Оценка: плохо mysevra про Ривендж: Одиночка (Научная фантастика) 31 05 Не ожидала. История знакома с детства, а читаешь, тем не менее, с удовольствием. Только удивили подробные описания эпизодов галлюцинаций/воспоминаний, зато «почесать брюшко», напротив, позабавило - а я всё думала, что чувствует ……… Оценка: хорошо vudy про Каменев: Хлад [СИ] (Боевая фантастика, Фэнтези, Самиздат, сетевая литература) 31 05 воздух, казалось, застыл и выглядел неприветливым" Воздух! Выглядел! Неприветливым! Псц ... decim про Жегалин: Бражники и блудницы. Как жили, любили и умирали поэты Серебряного века (История, Биографии и Мемуары, Литературоведение) 30 05 Стиль изложения точь-в-точь как в "1913. Лето целого века" Флориана Иллиеса. Содержание схоже до смешения. Озоровали наши творцы не меньше западноевропейских и ровно в том же духе. УПД: а вот концовка куда печальнее, чем у Иллиеса. HORiSi про Эпосы, мифы, легенды и сказания: Упанишады. 7 священных текстов древней Индии. Перевод Бориса Гребенщикова (Древневосточная литература, Мифы. Легенды. Эпос, Старинная литература: прочее) 30 05 Красивый и понятный перевод от простого человека Оценка: отлично! Старший про Бармин: Бестия [AT] (Боевая фантастика, Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература) 30 05 Лут, групповуха, групповуха лут. Оценка "плохо". decim про Кассиль: Щепотка Луны (Советская классическая проза) 29 05 Ещё один памятник эпохи. Издание 1936г. Оценка: неплохо decim про Шаумберг: Убийства по книге [Литрес] (Триллер, Детективы: прочее) 29 05 В стране розовых пони что ни маньяк, то знаток искусств. Увы, обычно это обиженные сильными, отыгрывающиеся на слабых, и всё, что могут пояснить - "а чо она, б*". (Сир убил и прятал жертву как простой гопарь, ничего изысканного) Перевод ……… Оценка: плохо больше впечатлений