Текстовый pdf из сканов

Текстовый pdf, сделанный из сканов, - намного удобнее для хранения и при вычитке, чем любой другой вариант.
Похоже, что мне удалось убедить, или, как минимум, заинтересовать, и других.

Я только не очень поняла, какие вопросы при этом возникают. ;)
Поэтому - спрашивайте. Если знаю, отвечу. :)

Не надо цитировать мультики, википедию, и растекаться мыслями. Мы и без википедии знаем, что TIFF - формат без потерь, а JPEG - с потерями. Еще с тех времен, когда вики не было. Речь не о теории, а о практике конкретной работы.

Цитата:
значит, действительно, может хуже распознаваться

но по факту распознается не хуже

niksi написал:
Не надо цитировать мультики, википедию, и растекаться мыслями. Мы и без википедии знаем, что TIFF - формат без потерь, а JPEG - с потерями. Еще с тех времен, когда вики не было. Речь не о теории, а о практике конкретной работы.

Если знаешь, зачем тогда людей в заблуждение вводишь "голословными измышлениями"?
Цитата:
но по факту распознается не хуже

По какому факту?
У нас с Вами факты разные: я Вам про Фому, Вы мне про Ерёму я Вам факты привел, Вы сказали, что факты неправильные. Чем они неправильные? Они что, дают неправильный мёд? Или просто обзываете то, что неугодно Вам "неправильными" фактами.
Я тоже по факту говорю: распознание с TIFF лучше, чем с JPEG,а Вы отвечаете: "Это всё теория, а на практике всё наоборот!"
Если бы я ничего не распознавал, я бы с Вами может и согласился, но мне тоже приходилось распознавать, и поэтому я знаю, что и практика говорит то же самое, что и теория.

Zadd написал:
Небольшой оффтоп...

А вот не надо. Не надо замусоривать ветку по конкретному вопросу своими измышлениями.
Откройте новую и расскажите там всем о том, что JPEG 300dpi в оттенках серого ФР "не любит". В-)

golma1 написал:
Zadd написал:
Небольшой оффтоп...

А вот не надо. Не надо замусоривать ветку по конкретному вопросу своими измышлениями.
Откройте новую и расскажите там всем о том, что JPEG 300dpi в оттенках серого ФР "не любит". В-)

Да я бы, как грится, с радостью.
Но тогда в этой ветке останутся измышления niksi, на которые, как покажется, никто не дал отпор!
Так что приходится тут, что ж поделаешь...

Zadd написал:

Да я бы, как грится, с радостью.
Но тогда в этой ветке останутся измышления niksi, на которые, как покажется, никто не дал отпор!
Так что приходится тут, что ж поделаешь...

Читать умеешь? НЕ НАДО БЫЛО НАЧИНАТЬ. ТЕБЕ.
Еще раз. Джпеги 300 и тифы 300 распознаются примерно с одинаковым кол-вом ошибок. Одно не лучше другого. Хочешь оспорить - приводи примеры. Одних и тех же сканов, распознанных с тифоф и джпегов, с указанием кол-ва ошибок в одном и другом случае. В новой теме. Иначе говорить не о чем. Я с удовольствием признаю, что не прав, если это будет ДОКАЗАНО.

niksi написал:
В новой теме.

Да, пожалуйста.
И я там обязательно напишу, что ВСЕ сканы, полученные мною от niksi и Ronja_Rovardotter, распознаются с минимальным количеством ошибок. В каком формате и с каким разрешением они сделаны, расскажут сами сканировщики. В-)

niksi написал:
Читать умеешь? НЕ НАДО БЫЛО НАЧИНАТЬ. ТЕБЕ.

Реплика убойная!
Я ж не знал, что на мою вполне невинную реплику будет столь громкий ор с метанием какашек обзывааниями.

http://rutracker.org/forum/viewtopic.php?t=2160930 написал:
Почему не JPEG?
Формат JPEG для сохранения сканов книжных страниц использовать можно, но не нужно. Во-первых потому, что этот формат даже при включенном сжатии без потерь (Quality = 100) оставляет артефакты в виде "квадратиков". Во-вторых и самых главных: многократное пережатие при сохранении обработанного файла JPEG вновь в "свой" формат за 2-3 цикла обработки приводит изображение в негодность.

Zadd написал:
http://rutracker.org/forum/viewtopic.php?t=2160930 написал:
JPEG? [...] при включенном сжатии без потерь (Quality = 100)
:-)))))))))))))))))))))))))))))))))))))
Давно я так не веселился. :-)

Рыжий Тигра написал:
Zadd написал:
http://rutracker.org/forum/viewtopic.php?t=2160930 написал:
JPEG? [...] при включенном сжатии без потерь (Quality = 100)
:-)))))))))))))))))))))))))))))))))))))
Давно я так не веселился. :-)

(хихикает) Вот мне всегда кажется, что если я понимаю, то уже тогда точно и все понимают, а вот поди ж ты... Не бывает JPEG без потерь. Вот просто не бывает и все. Бывает сжатие с максимальным качеством. Ага, для JPEG-ов максимальным. )))

Zadd написал:
Я лишь высказал пояснение о том, почему файл с бо́льшим размером может быть лучше, чем с маленьким размером, но менее удобным для вычитки.
Не знаю, не знаю... Лично мне для вычитки хватает и однобитного ч/б, а он жмётся всяко лучше, чем 256-серый.

Видимо, необходимо все же отметить для тех, у кого еще не очень много опыта по оцифровке книг, что опытные и великолепные сканировщики, такие как niksi и Ronja_Rovardotter, и опытные и отличные OCR-щики, такие как Голма, обмениваются сканами именно в jpg, что значительно проще и быстрее. Такие сканы замечательно распознаются, и работать с их сканами - одно удовольствие.
Необходимо так же предупредить новичков об осторожности при принятии на веру утверждений и советов Zadd-а, т.к. в них энтузиазм и поспешность в суждениях, как правило, преобладает над знанием и умением. Полезно делать на это поправку, не отвергая, впрочем, и некоторой части его советов.

Хм. Опробовал оба способа на 256-сером 300-dpi'йном скане, уже распознанном и (в меру возможностей ФР) вылизанном. У ФР получаются либо редкостно говённые картинки (даже акробат-ридер их через раз в упор не понимает), либо полноценные серые картинки, но сотни мег размера, зато с уже готовым текстом. У акробата - соответственно, ч/б картинки - ляля, размер на двух с чем-то сотнях страниц - меньше десятка метров, но текст никакой.
Ну и третий способ, который до сих пор юзаю, - выгрузить из файн-ридера однобитные ч/б картинки, их опять загрузить, распознать и сделать .pdf, - сочетает слабовыраженные недостатки предыдущих способов (картинка не особо хороша и текст так себе, размер в раза полтора побольше, чем после акробата).
А нельзя ли (ценой не чрезмерно больших трудозатрат) скрестить оба способа и получить файн-ридерный текст с акробатной картинкой?

Рыжий Тигра написал:
А нельзя ли (ценой не чрезмерно больших трудозатрат) скрестить оба способа и получить файн-ридерный текст с акробатной картинкой?

Сделать после распознавания в FR-е pdf по способу TaKir-а, но не для web, а с хорошим качеством, а потом ужать в Акробате готовый pdf?

Tanja45 написал:
Рыжий Тигра написал:
скрестить оба способа и получить файн-ридерный текст с акробатной картинкой?

Сделать после распознавания в FR-е pdf по способу TaKir-а, [...] а потом ужать в Акробате готовый pdf?
Хм. В принципе тоже идея. Подберу режим сжатия картинок ФРом и вечером опробую.

Что-то Acrobat не хочет tiff-файлов...
Acrobat 9.0.0 а файлы цветные.
FineReader'ом из 75 страниц никак меньше 26 мегов pdf не получается.:(

Таки получилось. Правда из другой книжки в сером цвете. 380 страниц - 15 Мегов. Очень хорошо.
Спасибо Голма!

Страницы

X