Вы здесьТекстовый pdf из сканов
Опубликовано чт, 09/12/2010 - 08:07 пользователем golma1
Forums: Текстовый pdf, сделанный из сканов, - намного удобнее для хранения и при вычитке, чем любой другой вариант. Я только не очень поняла, какие вопросы при этом возникают. ;)
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 5 часов
tvv RE:DNS 17 часов sem14 RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 день MrMansur RE:<НРЗБ> 4 дня Stager RE:Беженцы с Флибусты 6 дней Tramell RE:Серия "Библиотека французской литературы" (Макбел) 6 дней sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя sem14 RE:Современная корейская литература. Книжная серия... 1 неделя sem14 RE:Серия "Символы времени" издательства "Аграф" 2 недели sem14 RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 2 недели sem14 RE:«Юмористическая серия» 2 недели larin RE:Оплатил. Абонемент не отображается 2 недели larin RE:Оплатил, но абонемент не отображается 3 недели alexk RE:Багрепорт - 2 1 месяц Isais RE:Семейственность в литературе 1 месяц Violontan RE:Жан Батист Мольер воскрешенный 1 месяц sem14 RE:Гонкуровская премия 1 месяц Саша из Киева RE:Приключения белочки Рыжки 1 месяц Впечатления о книгах
lorealke про Птица: Конструктор живых систем [СИ] (Альтернативная история, Городское фэнтези, Стимпанк, Самиздат, сетевая литература)
03 01 Очередная агитка под видом «боярки» для подростков. Антагонисты слеплены по методичке из телевизора: мерзкий поляк, подлый грузин и надменный швед против «святого» русского мальчика. Весь мир книги — это унылая «осажденная ……… Оценка: плохо
mysevra про Лукьяненко: Последний Дозор (Фэнтези)
03 01 В своё время я была в восторге от первых двух книг, а эта – просто выжимки из опилок, не стоящие внимания. И очень повлияла на моё восприятие творчества автора его гражданская позиция – оказалось, что это не просто фантаст, ……… Оценка: плохо
mysevra про Сегень: Поп (Историческая проза, Православие)
03 01 Интересные страницы истории. Люди, у которых есть чёткие моральные принципы и жизненные ориентиры на любой случай (неважно, чем продиктованные: традициями, профессией, религией или понятиями) – им и сложнее, и проще одновременно. ……… Оценка: хорошо
mysevra про Бачило: Пленники Черного Метеорита (Боевая фантастика, Космическая фантастика)
03 01 Не знаю, не зашло, хоть я честно старалась. Оценка: плохо
lorealke про Астахов: Император Пограничья 1 (Фэнтези, Попаданцы, Самиздат, сетевая литература)
03 01 Типичнейшая «мужская фантастика» формата АТ: чистейший литературный попкорн, который жуется легко, потому что сюжет не провисает, а бодро несется по рельсам нагибаторства. Художественной ценности, понятно, кот наплакал — ГГ ……… Оценка: неплохо
lorealke про Метельский: Кровь легиона [СИ] (Фэнтези, Самиздат, сетевая литература)
03 01 Очередная графоманская ода «священной Империи» с невыносимым количеством воды и бухгалтерии. Вместо сюжета — унылый цикл: убил моба, продал лут, посчитал медяки, попил кофе — и так сотни страниц. Герой — абсолютная картонка, ……… Оценка: нечитаемо
hocmun про Ливадный: Дорога к фронту (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
02 01 К сожалению автор скатился в чуть ли не обычную пропаганду замаскированую под лит рпг и аля попаданцы . все решат ... После такой шедевральной серии как ,,Истоирия галактики,, к этому ? Простите друзья но это путь почившего ……… Оценка: плохо
lorealke про Тен: Шайтан Иван. Книга 1 [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
02 01 Лютая графомания с чудовищной орфографией, от которой буквально вытекают глаза. Герой — картонный нагибато» в вакууме: и спецназовец, и певец, и оружейник, решающий любые проблемы щелчком пальцев одной левой. Сюжета нет, сплошное ……… Оценка: плохо
lorealke про Мясников: Новороссия. ВоZVращение. Краткая история от Екатерины ll до Путина (История, Публицистика)
02 01 Типичная пропагандистская агитка. Мусор. Оценка: нечитаемо
Дей про Провинциалка в высшем свете
02 01 Существует ли хоть один детективно-любовный роман, в котором бы гг не была дурой? Влюбляется, как кошка - не успела уйти от одного (обманувшего её), как тут же увлеклась другим (пренебрежительно к ней относившемся), а потом ………
Лысенко Владимир Андреевич про Мясников: Новороссия. ВоZVращение. Краткая история от Екатерины ll до Путина (История, Публицистика)
02 01 Все предсказуемо, только русские могут быть правы, а весь мир против них. Оценка: нечитаемо
Олег Макаров. про Васильев: По государеву указу (Городское фэнтези, Рассказ, Самиздат, сетевая литература)
02 01 Удивительно слабая вещь для Васильева. Или как будто "на отвяжись" написана. Оценка: плохо |
Отв: Текстовый pdf из сканов
Не надо цитировать мультики, википедию, и растекаться мыслями. Мы и без википедии знаем, что TIFF - формат без потерь, а JPEG - с потерями. Еще с тех времен, когда вики не было. Речь не о теории, а о практике конкретной работы.
но по факту распознается не хуже
Отв: Текстовый pdf из сканов
Если знаешь, зачем тогда людей в заблуждение вводишь "голословными измышлениями"?
По какому факту?
У нас с Вами факты разные:
я Вам про Фому, Вы мне про Ерёмуя Вам факты привел, Вы сказали, что факты неправильные. Чем они неправильные? Они что, дают неправильный мёд? Или просто обзываете то, что неугодно Вам "неправильными" фактами.Я тоже по факту говорю: распознание с TIFF лучше, чем с JPEG,а Вы отвечаете: "Это всё теория, а на практике всё наоборот!"
Если бы я ничего не распознавал, я бы с Вами может и согласился, но мне тоже приходилось распознавать, и поэтому я знаю, что и практика говорит то же самое, что и теория.
Отв: Текстовый pdf из сканов
А вот не надо. Не надо замусоривать ветку по конкретному вопросу своими измышлениями.
Откройте новую и расскажите там всем о том, что JPEG 300dpi в оттенках серого ФР "не любит". В-)
Отв: Текстовый pdf из сканов
Да я бы, как грится, с радостью.
Но тогда в этой ветке останутся измышления niksi, на которые, как покажется, никто не дал отпор!
Так что приходится тут, что ж поделаешь...
Отв: Текстовый pdf из сканов
Читать умеешь? НЕ НАДО БЫЛО НАЧИНАТЬ. ТЕБЕ.
Еще раз. Джпеги 300 и тифы 300 распознаются примерно с одинаковым кол-вом ошибок. Одно не лучше другого. Хочешь оспорить - приводи примеры. Одних и тех же сканов, распознанных с тифоф и джпегов, с указанием кол-ва ошибок в одном и другом случае. В новой теме. Иначе говорить не о чем. Я с удовольствием признаю, что не прав, если это будет ДОКАЗАНО.
Отв: Текстовый pdf из сканов
Да, пожалуйста.
И я там обязательно напишу, что ВСЕ сканы, полученные мною от niksi и Ronja_Rovardotter, распознаются с минимальным количеством ошибок. В каком формате и с каким разрешением они сделаны, расскажут сами сканировщики. В-)
Отв: Текстовый pdf из сканов
Реплика убойная!
Я ж не знал, что на мою вполне невинную реплику будет столь громкий ор с
метанием какашекобзывааниями.Отв: Текстовый pdf из сканов
Давно я так не веселился. :-)
Отв: Текстовый pdf из сканов
(хихикает) Вот мне всегда кажется, что если я понимаю, то уже тогда точно и все понимают, а вот поди ж ты... Не бывает JPEG без потерь. Вот просто не бывает и все. Бывает сжатие с максимальным качеством. Ага, для JPEG-ов максимальным. )))
Отв: Текстовый pdf из сканов
Отв: Текстовый pdf из сканов
Видимо, необходимо все же отметить для тех, у кого еще не очень много опыта по оцифровке книг, что опытные и великолепные сканировщики, такие как niksi и Ronja_Rovardotter, и опытные и отличные OCR-щики, такие как Голма, обмениваются сканами именно в jpg, что значительно проще и быстрее. Такие сканы замечательно распознаются, и работать с их сканами - одно удовольствие.
Необходимо так же предупредить новичков об осторожности при принятии на веру утверждений и советов Zadd-а, т.к. в них энтузиазм и поспешность в суждениях, как правило, преобладает над знанием и умением. Полезно делать на это поправку, не отвергая, впрочем, и некоторой части его советов.
Отв: Текстовый pdf из сканов
Хм. Опробовал оба способа на 256-сером 300-dpi'йном скане, уже распознанном и (в меру возможностей ФР) вылизанном. У ФР получаются либо редкостно говённые картинки (даже акробат-ридер их через раз в упор не понимает), либо полноценные серые картинки, но сотни мег размера, зато с уже готовым текстом. У акробата - соответственно, ч/б картинки - ляля, размер на двух с чем-то сотнях страниц - меньше десятка метров, но текст никакой.
Ну и третий способ, который до сих пор юзаю, - выгрузить из файн-ридера однобитные ч/б картинки, их опять загрузить, распознать и сделать .pdf, - сочетает слабовыраженные недостатки предыдущих способов (картинка не особо хороша и текст так себе, размер в раза полтора побольше, чем после акробата).
А нельзя ли (ценой не чрезмерно больших трудозатрат) скрестить оба способа и получить файн-ридерный текст с акробатной картинкой?
Отв: Текстовый pdf из сканов
Сделать после распознавания в FR-е pdf по способу TaKir-а, но не для web, а с хорошим качеством, а потом ужать в Акробате готовый pdf?
Отв: Текстовый pdf из сканов
Отв: Текстовый pdf из сканов
Что-то Acrobat не хочет tiff-файлов...
Acrobat 9.0.0 а файлы цветные.
FineReader'ом из 75 страниц никак меньше 26 мегов pdf не получается.:(
Отв: Текстовый pdf из сканов
Таки получилось. Правда из другой книжки в сером цвете. 380 страниц - 15 Мегов. Очень хорошо.
Спасибо Голма!
Страницы