Текстовый pdf из сканов | Либрусек

Вы здесь Главная » Форумы » Функциональность Текстовый pdf из сканов Опубликовано чт, 09/12/2010 - 08:07 пользователем golma1 Forums: Функциональность Текстовый pdf, сделанный из сканов, - намного удобнее для хранения и при вычитке, чем любой другой вариант. Похоже, что мне удалось убедить, или, как минимум, заинтересовать, и других. Я только не очень поняла, какие вопросы при этом возникают. ;) Поэтому - спрашивайте. Если знаю, отвечу. :) Войдите или зарегистрируйтесь, чтобы отправлять комментарии Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 05:17 пользователем niksi Не надо цитировать мультики, википедию, и растекаться мыслями. Мы и без википедии знаем, что TIFF - формат без потерь, а JPEG - с потерями. Еще с тех времен, когда вики не было. Речь не о теории, а о практике конкретной работы. Цитата: значит, действительно, может хуже распознаваться но по факту распознается не хуже Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 05:36 пользователем Zadd niksi написал: Не надо цитировать мультики, википедию, и растекаться мыслями. Мы и без википедии знаем, что TIFF - формат без потерь, а JPEG - с потерями. Еще с тех времен, когда вики не было. Речь не о теории, а о практике конкретной работы. Если знаешь, зачем тогда людей в заблуждение вводишь "голословными измышлениями"? Цитата: но по факту распознается не хуже По какому факту? У нас с Вами факты разные: ~~я Вам про Фому, Вы мне про Ерёму~~ я Вам факты привел, Вы сказали, что факты неправильные. Чем они неправильные? Они что, дают неправильный мёд? Или просто обзываете то, что неугодно Вам "неправильными" фактами. Я тоже по факту говорю: распознание с TIFF лучше, чем с JPEG,а Вы отвечаете: "Это всё теория, а на практике всё наоборот!" Если бы я ничего не распознавал, я бы с Вами может и согласился, но мне тоже приходилось распознавать, и поэтому я знаю, что и практика говорит то же самое, что и теория. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 03:20 пользователем golma1 Zadd написал: Небольшой оффтоп... А вот не надо. Не надо замусоривать ветку по конкретному вопросу своими измышлениями. Откройте новую и расскажите там всем о том, что JPEG 300dpi в оттенках серого ФР "не любит". В-) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 04:25 пользователем Zadd golma1 написал: Zadd написал: Небольшой оффтоп... А вот не надо. Не надо замусоривать ветку по конкретному вопросу своими измышлениями. Откройте новую и расскажите там всем о том, что JPEG 300dpi в оттенках серого ФР "не любит". В-) Да я бы, как грится, с радостью. Но тогда в этой ветке останутся измышления niksi, на которые, как покажется, никто не дал отпор! Так что приходится тут, что ж поделаешь... Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 04:43 пользователем niksi Zadd написал: Да я бы, как грится, с радостью. Но тогда в этой ветке останутся измышления niksi, на которые, как покажется, никто не дал отпор! Так что приходится тут, что ж поделаешь... Читать умеешь? НЕ НАДО БЫЛО НАЧИНАТЬ. ТЕБЕ. Еще раз. Джпеги 300 и тифы 300 распознаются примерно с одинаковым кол-вом ошибок. Одно не лучше другого. Хочешь оспорить - приводи примеры. Одних и тех же сканов, распознанных с тифоф и джпегов, с указанием кол-ва ошибок в одном и другом случае. В новой теме. Иначе говорить не о чем. Я с удовольствием признаю, что не прав, если это будет ДОКАЗАНО. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 04:55 пользователем golma1 niksi написал: В новой теме. Да, пожалуйста. И я там обязательно напишу, что ВСЕ сканы, полученные мною от niksi и Ronja_Rovardotter, распознаются с минимальным количеством ошибок. В каком формате и с каким разрешением они сделаны, расскажут сами сканировщики. В-) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пн, 31/01/2011 - 12:35 пользователем Zadd niksi написал: Читать умеешь? НЕ НАДО БЫЛО НАЧИНАТЬ. ТЕБЕ. Реплика убойная! Я ж не знал, что на мою вполне невинную реплику будет столь громкий ор с ~~метанием какашек~~ обзывааниями. http://rutracker.org/forum/viewtopic.php?t=2160930 написал: Почему не JPEG? Формат JPEG для сохранения сканов книжных страниц использовать можно, но не нужно. Во-первых потому, что этот формат даже при включенном сжатии без потерь (Quality = 100) оставляет артефакты в виде "квадратиков". Во-вторых и самых главных: многократное пережатие при сохранении обработанного файла JPEG вновь в "свой" формат за 2-3 цикла обработки приводит изображение в негодность. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пн, 31/01/2011 - 13:04 пользователем Рыжий Тигра Zadd написал: http://rutracker.org/forum/viewtopic.php?t=2160930 написал: JPEG? [...] при включенном сжатии без потерь (Quality = 100) :-))))))))))))))))))))))))))))))))))))) Давно я так не веселился. :-) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пн, 31/01/2011 - 13:52 пользователем Tanja45 Рыжий Тигра написал: Zadd написал: http://rutracker.org/forum/viewtopic.php?t=2160930 написал: JPEG? [...] при включенном сжатии без потерь (Quality = 100) :-))))))))))))))))))))))))))))))))))))) Давно я так не веселился. :-) (хихикает) Вот мне всегда кажется, что если я понимаю, то уже тогда точно и все понимают, а вот поди ж ты... Не бывает JPEG без потерь. Вот просто не бывает и все. Бывает сжатие с максимальным качеством. Ага, для JPEG-ов максимальным. ))) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано вт, 28/12/2010 - 07:39 пользователем Рыжий Тигра Zadd написал: Я лишь высказал пояснение о том, почему файл с бо́льшим размером может быть лучше, чем с маленьким размером, но менее удобным для вычитки. Не знаю, не знаю... Лично мне для вычитки хватает и однобитного ч/б, а он жмётся всяко лучше, чем 256-серый. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 04:42 пользователем Tanja45 Видимо, необходимо все же отметить для тех, у кого еще не очень много опыта по оцифровке книг, что опытные и великолепные сканировщики, такие как niksi и Ronja_Rovardotter, и опытные и отличные OCR-щики, такие как Голма, обмениваются сканами именно в jpg, что значительно проще и быстрее. Такие сканы замечательно распознаются, и работать с их сканами - одно удовольствие. Необходимо так же предупредить новичков об осторожности при принятии на веру утверждений и советов Zadd-а, т.к. в них энтузиазм и поспешность в суждениях, как правило, преобладает над знанием и умением. Полезно делать на это поправку, не отвергая, впрочем, и некоторой части его советов. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано вт, 28/12/2010 - 07:42 пользователем Рыжий Тигра Хм. Опробовал оба способа на 256-сером 300-dpi'йном скане, уже распознанном и (в меру возможностей ФР) вылизанном. У ФР получаются либо редкостно говённые картинки (даже акробат-ридер их через раз в упор не понимает), либо полноценные серые картинки, но сотни мег размера, зато с уже готовым текстом. У акробата - соответственно, ч/б картинки - ляля, размер на двух с чем-то сотнях страниц - меньше десятка метров, но текст никакой. Ну и третий способ, который до сих пор юзаю, - выгрузить из файн-ридера однобитные ч/б картинки, их опять загрузить, распознать и сделать .pdf, - сочетает слабовыраженные недостатки предыдущих способов (картинка не особо хороша и текст так себе, размер в раза полтора побольше, чем после акробата). А нельзя ли (ценой не чрезмерно больших трудозатрат) скрестить оба способа и получить файн-ридерный текст с акробатной картинкой? Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано вт, 28/12/2010 - 16:03 пользователем Tanja45 Рыжий Тигра написал: А нельзя ли (ценой не чрезмерно больших трудозатрат) скрестить оба способа и получить файн-ридерный текст с акробатной картинкой? Сделать после распознавания в FR-е pdf по способу TaKir-а, но не для web, а с хорошим качеством, а потом ужать в Акробате готовый pdf? Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано ср, 29/12/2010 - 07:03 пользователем Рыжий Тигра Tanja45 написал: Рыжий Тигра написал: скрестить оба способа и получить файн-ридерный текст с акробатной картинкой? Сделать после распознавания в FR-е pdf по способу TaKir-а, [...] а потом ужать в Акробате готовый pdf? Хм. В принципе тоже идея. Подберу режим сжатия картинок ФРом и вечером опробую. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано вт, 11/01/2011 - 16:13 пользователем oldvagrant Что-то Acrobat не хочет tiff-файлов... Acrobat 9.0.0 а файлы цветные. FineReader'ом из 75 страниц никак меньше 26 мегов pdf не получается.:( Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пн, 31/01/2011 - 15:11 пользователем oldvagrant Таки получилось. Правда из другой книжки в сером цвете. 380 страниц - 15 Мегов. Очень хорошо. Спасибо Голма! Страницы « первая ‹ предыдущая 1 2	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 3 дня weis RE:Прошу переформатировать, распознать, etc... 1 неделя larin RE:Заплатила, а абонемента нет и скачать ничего не могу! 3 недели sibkron RE:Серия "Библиотека французской литературы" (Макбел) 3 недели akorish RE:Регистрация 1 месяц Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 месяц Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 месяц konst1 RE:Ух, как я не люблю спамеров! 1 месяц tvv RE:DNS 2 месяца sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 2 месяца larin RE:Заблокирован 2 месяца konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 3 месяца Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 3 месяца fixel RE:Пропал абонемент 3 месяца sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 4 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 4 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 4 месяца Впечатления о книгах andmalin про Земляной: Сорок третий - 7 (Боевая фантастика, Попаданцы, Самиздат, сетевая литература) 22 06 Отличная серия . Отличный автор. Оценка: отлично! Isais про Хейер: Убийство Адама Пенхаллоу (Семейный роман/Семейная сага, Психологический триллер) 22 06 Абсолютно не детектив. Тем более классический -- с частным сыщиком в качестве действующего лица. Никакого расследования -- на последних 20% шляются две растерянные фигуры в форме и твердят: "Ничего не понятно! Все очень сложно!" ……… Оценка: неплохо mysevra про Колесова: Грани Обсидиана [litres] (Фэнтези) 22 06 Ностальгия какая-то, что ли, у меня. Первая часть нравится. Оценка: отлично! mysevra про Колесова: Карты судьбы (Фэнтези) 22 06 Есть некоторые книги, которые сначала критикуешь, а потом под настроение перечитываешь время от времени) Оценка: отлично! mysevra про Ипатова: Былинка-жизнь (Фэнтези) 22 06 Люблю этого автора, жаль, нет новых поступлений. Оценка: отлично! Chernovol про Апанович: Збройні сили України першої половини XVIII ст [uk] (История) 21 06 В книге отсутствуют стр. 45 - 50. Сама книга представляет интерес не только для историков. Оценка: хорошо Алекс_51 про Вадим Владимирович Чинцов 20 06 Днище, не хуже Рыбаченко или Поселягина... Civilizator про Земляной: Сорок третий (Боевая фантастика, Попаданцы, Самиздат, сетевая литература) 19 06 2lorealke: Может Великий Писатель поделится своими Произведениями. Мы сравним... По книге и серии (читаю 7-ю): Отличная серия. Вообще у Земляного плохих книг не попадалось. Даже самые ранние (Обратил на него внимание ещё ……… Оценка: отлично! lee321 про Прозоров: Темный Лорд: Темный Лорд. Темное пророчество. Меч Эриджуна. Озерная леди. Клятва Темного Лорда [сборник litres] (Героическая фантастика, Фэнтези) 19 06 Читал давно (сразу после опубликования) и тогда понравилось. Написано в "эпоху Гарри Поттера". Немного похоже (тайное паралельное магическое общество, магическая школа, Темный лорд). Вполне оригинальная и интересная история. Оценка: хорошо gruin про Баренберг: Сага ледяного оазиса [СИ] (Боевая фантастика, Фэнтези, Самиздат, сетевая литература) 19 06 Вполне на уровне. Одобряю. Хотелось бы продолжения Оценка: хорошо gruin про Прозоров: Темный Лорд: Темный Лорд. Темное пророчество. Меч Эриджуна. Озерная леди. Клятва Темного Лорда [сборник litres] (Героическая фантастика, Фэнтези) 19 06 Написнао много, и всё - дрянь Оценка: нечитаемо Oleg68 про Кобен: Незнакомец [The Stranger ru] (Детективы: прочее) 19 06 Отличная книга. Сюжет держит до конца в напряжении. Автор, как всегда, на высоте. Оценка: отлично! больше впечатлений