Текстовый pdf из сканов

Аватар пользователя golma1

Текстовый pdf, сделанный из сканов, - намного удобнее для хранения и при вычитке, чем любой другой вариант.
Похоже, что мне удалось убедить, или, как минимум, заинтересовать, и других.

Я только не очень поняла, какие вопросы при этом возникают. ;)
Поэтому - спрашивайте. Если знаю, отвечу. :)

Аватар пользователя Captain Scarlett

Что значит "текстовый"? Pdf с ocr-слоем или pdf, содержащий только распознанный текст, без изображения оригинальной страницы? Если второе, то использовать его для вычитки крайне не рекомендуется.

Аватар пользователя golma1

izaraya написал:
Что значит "текстовый"? Pdf с ocr-слоем или pdf, содержащий только распознанный текст, без изображения оригинальной страницы? Если второе, то использовать его для вычитки крайне не рекомендуется.

Pdf с ocr-слоем.

Пример:
Паскаль Брюкнер "Мой маленький муж" pdf 1,6 Mb

Аватар пользователя niksi

golma1
Надо бы выложить что-нибудь для примера :)

Аватар пользователя Tanja45

А ты методу для начала изложи. Тогда вопросы сразу и возникнут. :)) А штука, и правда, полезная очень. И да, izaraya, он именно с OCR-слоем, мало весит, но для него нужно ставить Акробат Про. Хочу-хочу-хочу. Методу - в студию! Просим, просим!

Аватар пользователя Captain Scarlett

Tanja45 написал:
izaraya, он именно с OCR-слоем, мало весит, но для него нужно ставить Акробат Про.

Не надо. Можно прямо из файнридера экспортировать. Я со своими сканами так и поступаю. Получается точная копия скана, а под ней - распознанный текст. Я думала, все так делают :)
Аватар пользователя golma1

izaraya написал:

Не надо. Можно прямо из файнридера экспортировать. Я со своими сканами так и поступаю. Получается точная копия скана, а под ней - распознанный текст. Я думала, все так делают :)

Научи. :)
При моих поисках удобных вариантов с ФР у меня не получилось. Только экспорт распознанного текста, в котором остаются все ошибки OCR.
Аватар пользователя Captain Scarlett

golma1 написал:
izaraya написал:

Не надо. Можно прямо из файнридера экспортировать. Я со своими сканами так и поступаю. Получается точная копия скана, а под ней - распознанный текст. Я думала, все так делают :)

Научи. :)
При моих поисках удобных вариантов с ФР у меня не получилось. Только экспорт распознанного текста, в котором остаются все ошибки OCR.

Ну так TaKir написал выше: выставить в опциях для pdf "текст под изображением страницы" (опции -> сохранить -> pdf). Только в портабельной десятке каждый раз заново выставлять надо, настройка не сохраняется почему-то.
Аватар пользователя golma1

izaraya написал:

Ну так TaKir написал выше: выставить в опциях для pdf "текст под изображением страницы" (опции -> сохранить -> pdf). Только в портабельной десятке каждый раз заново выставлять надо, настройка не сохраняется почему-то.

Я сохраняла через pdf/A. Размер 229 Мб.
Сейчас попробую через просто pdf с указанной опцией.

update:
Получилось 41 Мб. Мой в четыре раза меньше.
Кроме того, я для ФР выставила разрезать развороты, и pdf получился тоже "одностраничный". Но это детали.
Спасибо, я поняла теперь, о чём речь.

Мой вариант мне нравится больше. ;)

golma1 написал:
... Мой вариант мне нравится больше. ;)
Если разобраться - симпатичненько, да.

izaraya написал:
Tanja45 написал:
izaraya, он именно с OCR-слоем, мало весит, но для него нужно ставить Акробат Про.

Не надо. Можно прямо из файнридера экспортировать. Я со своими сканами так и поступаю. Получается точная копия скана, а под ней - распознанный текст. Я думала, все так делают :)

Если файл уже с OCR-слоем, то тогда даже и FineReader не нужен! Просто копипаст из AdobeReader(не путать с Acrobat, в отличие от Acrobat, Reader - маленькая бесплатная программа для чтения(но не редактирования) PDF(и копипаста из OCR-слоя)). Правда. замучаешься абзацы склеивать, так что лучше всё-таки копипастить из программы ScreenshotReader (это бесплатное приложение для тех, кто купил FineReader ). Но иногда, в особых случаях. при хитром(=хитрожопом) форматировании текста лучше скопипастить из PDF-ки с OCR-слоем в FB2 абзац в режиме S.
А если речь идет о создании PDF с помощью FineReader из нераспознанного PDF, то таки - да, я это делаю с помощью FineReader, ничего сложного в этом нет.
Например, вот это

Zadd написал:

Если файл уже с OCR-слоем, то тогда даже и FineReader не нужен! Просто копипаст из AdobeReader(не путать с Acrobat, в отличие от Acrobat, Reader - маленькая бесплатная программа для чтения(но не редактирования) PDF(и копипаста из OCR-слоя)). Правда. замучаешься абзацы склеивать, так что лучше всё-таки копипастить из программы ScreenshotReader (это бесплатное приложение для тех, кто купил FineReader ). Но иногда, в особых случаях. при хитром(=хитрожопом) форматировании текста лучше скопипастить из PDF-ки с OCR-слоем в FB2 абзац в режиме S.
А если речь идет о создании PDF с помощью FineReader из нераспознанного PDF, то таки - да, я это делаю с помощью FineReader, ничего сложного в этом нет.
Например, вот это

Ты как всегда торопишься ответить ))

Zadd написал:

Если файл уже с OCR-слоем, то тогда даже и FineReader не нужен!

Тут речь шла о создании из картинок pdf с окр слоем, а не о переводе его в формат фб2 ))
Zadd написал:
А если речь идет о создании PDF с помощью FineReader из нераспознанного PDF

Речь о создании из распознанного ФР пакета файла pdf с наилучшим качеством картинки-подложки и наилучшим качеством распознанного текста. ))
Для хранения, для использования как оригинала при вычитке, когда сама бумажная книга недоступна, для возможности быстрого поиска по тексту, чего не сделаешь в бумажной книге.

Твой файл-пример - вариант, против которого выступает Голма - есть распознанный текст (в ФР вариант "текст поверх картинки"), который наложен на страницу журнала. При этом исходный тест на странице не виден. В моем примере - все наоборот. Исходный текст виден, а распознанный просто присутствует. Он копируется, поиск работает, но его не видно глазами.
И да, такие файлы как в твоем журнале, естественно, получаются заметно меньше размером, чем те, в которых виден исходный текст+окр слой.

TaKir написал:
Ты как всегда торопишься ответить ))

Зато ты ответил мееееедлееенннннннннноооооооо....... (по-эстооонскии)
Я к тому моменту уже этот факт признал, правда в другом посте.
Тем не менее, свою первоначальную ошибку признаю
Цитата:
И прошу, Ильич, прощенья
За ошибку на лугу!
Аватар пользователя Captain Scarlett

-.

Аватар пользователя golma1

Методе меня научил LordKiRon.
Состоит она в следующем (переводы пунктов меню приблизительные, у меня немецкий интерфейс).

1. Открыть "Свести вместе" ("Соединить"?) - зелёный толстый плюсик на фоне листа бумаги (сразу после "создать").
2. Выбрать второй пункт "Файлы собрать в единый пдф-документ".
3. В открывшемся окне нажать на стрелочку рядом с "Добавить файлы" (слева вверху).
4. Опять выбрать "Добавить файлы".
5. В проводнике открыть папку со сканами, выделить все (Ctrl+A) - нажать на кнопку "Добавить".
6. После добавления нажать на кнопку "Соединить файлы". Вверху справа отмечен должен быть "Единый пдф", а НЕ "портофолио".
7. После окончания процесса откроется окно для сохранения файла. Сохранить - неважно, под каким именем, это промежуточный результат.
8. После сохранения открыть меню "Документ" (четвёртое слева).
9. Выбрать OCR-распознание текста, выбрать первый пункт "текст распознать с OCR".
10. В первый раз нужно выставить опции. Под окошком кнопка "Обработать" ("Редактировать", "Настроить"?). Нажать. В открывшемся окне выбрать в первом поле - русский язык, во втором - Clear Scan, в третьем - 72 dpi. ОК. ОК.
11. После окончания процесса (длится относительно долго) сохранить файл под желаемым именем.

Писать долго, а делать быстро. ;)

Пробуйте, спрашивайте.

Аватар пользователя Tanja45

Спасибо, Голма!
С виду все просто. Ушла искать и ставить Акробат Про.

Tanja45 написал:
Спасибо, Голма!
С виду все просто. Ушла искать и ставить Акробат Про.

Емнип, в Таверне есть в ссылках где-то..

http://ru-admin.net/soft/96767-adobe-acrobat-9-pro-extended-934-englishdeutschfran231aisrusskiy.html
Adobe Acrobat 9 Pro Extended 9.3.4 (English/Deutsch/Français/Русский)

golma1 написал:
Текстовый pdf, сделанный из сканов, - намного удобнее для хранения и при вычитке, чем любой другой вариант.
Похоже, что мне удалось убедить, или, как минимум, заинтересовать, и других.
Я только не очень поняла, какие вопросы при этом возникают. ;) ...

(вздыхает) У текстового pdf есть один, зато большой недостаток - если распознано неправильно, то и текст будет не правильный. Так что проверить, что там было в оригинале будет невозможно. Поэтому лучше плохонький pdf рисунками, чем классный текстовый с ошибками. На практике лучше иметь оба: дохленький рисунчатый малого объема и еще текстовый.

Вообще, мне уже не один раз пришлось проклинать пользователей Acrobat, загубивших книжку автоматическим распознаванием. Это касается, по преимуществу, сложных книг: с формулами или словами на иных языках. Или с затейливыми шрифтами, да с наклоном.

А родить исходный pdf назад уже невозможно...

Аватар пользователя Ronja_Rovardotter

А вы заглянули в файл, который Голма выложила для образца? oldvagrant, там все: сверху картинка (вот прямо как на сканах), а под ней живой текст (уж как распознался) - его не видно, но он есть и по нему можно пошуршать поиском, быстро найти нужное место и посмотреть что там было в книжке.
И, конечно же, никто не предлагает эти файлы заливать как книги, они только для вычитки.

Ronja_Rovardotter написал:
И, конечно же, никто не предлагает эти файлы заливать как книги, они только для вычитки.
Это я понял. Потому и сказал про два файла в заначку.

Но для образца не смотрел, правда. Ща погляжу.

Аватар пользователя golma1

oldvagrant написал:

(вздыхает) У текстового pdf есть один, зато большой недостаток - если распознано неправильно, то и текст будет не правильный. Так что проверить, что там было в оригинале будет невозможно.

Вам Ронья уже ответила, но я ещё раз подчеркну: загляните в предлагаемый пример. Я специально выложила небольшой файл.
Это - полная копия книги. Точная копия.
Распознавание там послабее, чем в ФР, поэтому бывает, что какую-то фразу поиском не найти, т. к. она не совсем точно распознана. Но в документе Вы видите её точно так же, как в книге.
"Промахов" в поиске бывает не слишком много (зависит от шрифта и качества сканов), кроме того, всегда находится или строчка под, или строчка над искомой фразой.
Так что бросайте бурчать, а загляните в приложенный файл. ;)

Ещё раз: этот вариант предназначен для вычитки и (может быть) хранения результатов сканов. Для иллюстраций в книгах условно пригоден. Сами иллюстрации имеет смысл хранить отдельно, а файл использовать как помощь в определении их расположения в книге.

golma1 написал:
... Так что бросайте бурчать, а загляните в приложенный файл. ;) ...
Посмотрю.
Но со слоями я тоже видал плохие файлы.:) Часть распознано, часть нет и дано рисунком.

Просто если это книжка, где есть и текст рисунком, и распознанный текст - как он может быть компактнее файла только из рисунков? Вы мне мозг выносите беспощадно. :)

Но я не ради спора, непосредственная реакция просто. Я попробую разобраться с примером - с возрастом лучше-то не становишься. Охти мне, окаянному.:)

. дубль

Чего-то я не понял - а чем все то же самое, сделанное в ФР и сохраненное в pdf не подходит?
Из ФР, после распознавания текста:
Файл-сохранить как pdf.
В опциях выбрать все или только нужные страницы.
Выставить параметр текст под изображением страницы и готово.

Весит тоже мало, распознает ФР на порядок лучше любого акробата, итог - файл pdf с картинкой и текстом, который можно копировать из pdf и т.п.
Результат, 700 кб, несколько страниц для примера сделал. Открывается даже акробатом 6 версии.
http://narod.ru/disk/1121505001/Zag_zhiv222.pdf.html

Вот как копируется текст из приложенного golma1 файла (стр. 161):

часы в этой ком н ате был и повсюду - большие
будил ь н и к и в в иде М и кк и - М аусов , сте н н ые с
гирька м и , ход и ки с кукуш ко й , электро н н ые со
с ветящ и м ися цифра м и , даже с порти в н ы й хронометр.
Все тикал и не в такт и показы вал и разное
вре м я . Леон б ыл во рву со змея м и . Усевш
ис ь между гусаром королевс ко й гвард и и и
гренадером в меховом кол паке, он с вол н е н ие м
смотрел н а своих отп рысков, которые кре п ко
спал и . П острелята в ы глядел и сеЙl.Jас таки м и
с м ирн ы м и , лежал и , тес но прижавш и с ь друг к
другу, перемешав руки и ноги - п релестное
зрели ще . Во сне у н и х были а н гел ьские л и ч и ки :
безм ятежное в ыраже н и е , кругл ы е розовые
щеч к и , п риоткрытый рот и к , в котором в иден

____________________________________________________

И вот как из моего файла:

Мир населен чудовищами. В этом более других
убеждены люди, чья жизнь проходит среди природы
— вне городов и их каменных стен. Из уст в уста,
из поколения в поколение передаются рассказы о
кровожадных драконах, лесных великанах, гигантских
змеях, других летающих, прыгающих, ползающих и
плавающих монстрах. Что это — порождение ночных
страхов? Или именно в легендах хранится облик реальных
существ, действительно обитающих на Земле,
но еще неведомых науке?

Аватар пользователя Tanja45

TaKir написал:
Чего-то я не понял - а чем все то же самое, сделанное в ФР и сохраненное в pdf не подходит?
Из ФР, после распознавания текста:
Файл-сохранить как pdf.
В опциях выбрать все или только нужные страницы.
Выставить параметр текст под изображением страницы и готово.
Весит тоже мало, распознает ФР на порядок лучше любого акробата, итог - файл pdf с картинкой и текстом, который можно копировать из pdf и т.п.

Ваш файл будет содержать только распознанный текст. Он не точная копия сканов. Для вычитки он не годится, т.к. текст будет содержать возможные ошибки OCR. А Голмин - будет точной копией сканов, содержать еще (невидимым) и текстовой слой для поиска по книге, а для вычитки так удобнее всего. Нет? Не так? Или Ваш файл тоже будет точной копией?
Аватар пользователя Ronja_Rovardotter

Tanja45 написал:
Или Ваш файл тоже будет точной копией?

Точная копия.
Аватар пользователя Ronja_Rovardotter

TaKir написал:
Весит тоже мало

Но раза в 2-3 тяжелее акробатовского. Для вычитки пойдет, для хранения хочется чего-то покомпактней.
Получаемая картинка тоже отличается по качеству.

TaKir написал:
Вот как копируется текст из приложенного golma1 файла

Поэтому для поиска из близлежащих слов выбираем нечасто встречающееся, можно даже не полностью.
Аватар пользователя golma1

TaKir написал:
Чего-то я не понял - а чем все то же самое, сделанное в ФР и сохраненное в pdf не подходит?
Из ФР, после распознавания текста:
Файл-сохранить как pdf.

... И он сохраняется со всеми ошибками OCR, которые ты не увидел.
В предложенном варианте ты имеешь копию текста.
Этот pdf не предназначен для конвертирования, для копипаста, он служит точной копией скана и очень удобен для вычитки.

Но я ни на чём не настаиваю: каждый делает так, как ему удобнее. Я такой файл отправляю сканировщикам (для хранения) и вычитывальщикам (для вычитки).

Аватар пользователя Ronja_Rovardotter

Голма, TaKir писал:

Цитата:
итог - файл pdf с картинкой и текстом, который можно копировать из pdf и т.п.

В самом деле можно и в ФР такое создать, но файлы получаются тяжелее.

golma1 написал:
Этот pdf не предназначен для конвертирования, для копипаста, он служит точной копией скана и очень удобен для вычитки.

После этих слов я уже понял о чем в этой теме разговор, а сначала-то и не понял, про что.

Tanja45 написал:

Ваш файл будет содержать только распознанный текст. Он не точная копия сканов. Для вычитки он не годится, т.к. текст будет содержать возможные ошибки OCR.

Вы файлик прежде глянули?
Будет точная копия страниц и нормально распознанный текст. А не тот кошмар, что распознает акробат.

golma1 написал:

... И он сохраняется со всеми ошибками OCR, которые ты не увидел.
В предложенном варианте ты имеешь копию текста.

Ты тоже бы файлик глянула, а? Чтобы не говорить не видя, ни о чем.
Я твой глянул, прежде чем сравнивать. ))

Копия страниц и распознанный текст прямо из ФР. Для твоих целей - передача на вычитку и проч.

golma1 написал:

Научи. :)
При моих поисках удобных вариантов с ФР у меня не получилось. Только экспорт распознанного текста, в котором остаются все ошибки OCR.

Я в первом своем посте описал пошагово технологию. Именно для попробовать, если кто не умеет.
Как-то я ожидал, что люди сначала хоть посмотрят мой файл-результат, а потом будут критиковать то, что в глаза не видели, но, ошибся, бывает ))

Аватар пользователя golma1

TaKir написал:

Ты тоже бы файлик глянула, а? Чтобы не говорить не видя, ни о чем.
Я твой глянул, прежде чем сравнивать. ))

Конечно, я посмотрела. Обижаешь. В-)

TaKir написал:

Я в первом своем посте описал пошагово технологию. Именно для попробовать, если кто не умеет.
Как-то я ожидал, что люди сначала хоть посмотрят мой файл-результат, а потом будут критиковать то, что в глаза не видели, но, ошибся, бывает ))

Ошибся. Я даже попробовала.

У меня сейчас замечательный скан от niksi, который распознаётся практически без ошибок. Но одну OCR-ошибку я всё-таки нашла. На стр. 16. Хочешь исходник?

Потому что по твоей технологии сделанный pdf содержит такой текст:

Цитата:
прокурор из Джерси должен был непременно
пройтись на наш счет? Он ведь прекрасно знает:
все это тянулось не по нашей вине, — каждому
опытному прокурору известно, что самое печ&ть-
правильно было бы - "печаль-"

Я попробовала и "сохранить как pdf/A" и "передать в pdf". (Размеры: "мой" - 10,3 Мб, при передаче - 2,6 Мб, при сохранении - 229 Мб.) Результат одинаковый - в смысле текста: везде сохранились амперсанд и "т". В сохранённом (229 Мб!) - проявляется при копировании (а значит, поиск тоже промахнулся бы), в переданном - на самом изображении.
Поэтому я и сказала: "со всеми ошибками OCR, которые ты не увидел".
Увидел - исправил, не увидел - так и останется в твоём pdf. В моём же текст будет такой же, как в исходнике. Поиск иногда "промахивается" (из-за плохого распознавания), но бороться с этим довольно легко. Он не предназначен для копирования текста, он нужен только как точная копия книги, в которой можно пользоваться поиском.

И ещё раз: я ни на чём не настаиваю, каждый волен делать так, как считает правильным. Тема для тех, у кого возникли вопросы после знакомства с "моими" pdf.

golma1 написал:

Поэтому я и сказала: "со всеми ошибками OCR, которые ты не увидел".
Увидел - исправил, не увидел - так и останется в твоём pdf. В моём же текст будет так же, как в исходнике.

Так.
Давай еще раз.
У меня в файле после ФР имеется картинка+распознанный текст.
Причем видишь ты картинку, а не текст. Текст можешь просто скопировать.

Для чистоты эксперимента посмотри в моем файле страничку с выходными данными. Если скопировать с нее текст, там будет слово "тест", которое не видно, поскольку видна именно картинка.

В твоем случае видим то же самое, сделанное средствами акробата. С гораздо худшим качеством распознавания.
Вопрос - зачем окр слой худшего качества? Для чего он в принципе там нужен?
Может я туплю чрезмерно в эти дни...

Т.е. имеем 2 pdf файла одной и той же книги.
Обе файла - картинка видна, и текст копируется. Оба имеют какие-то ошибки распознавания, скорее всего, если не делать вычитку..
В одном файле текст изначально прилично распознан и сформатирован.
Во втором случае - текст плохо распознан и плохо сформатирован.
Для чего нужен второй вариант?

Аватар пользователя golma1

TaKir написал:

Так.
Давай еще раз.
У меня в файле после ФР имеется картинка+распознанный текст.
Причем видишь ты картинку, а не текст. Текст можешь просто скопировать.
Для чистоты эксперимента посмотри в моем файле страничку с выходными данными. Если скопировать с нее текст, там будет слово "тест", которое не видно, поскольку видна именно картинка.

Вижу. После слов "Царева И.Б."

TaKir написал:
В твоем случае видим то же самое, сделанное средствами акробата. С гораздо худшим качеством распознавания.
Вопрос - зачем окр слой худшего качества? Для чего он в принципе там нужен?

Смотри. Я сохранила одну и ту же книгу двумя методами: твоим и моим. В первом случае - 229 Мб, во втором - 10.
Скажи, что я сделала не так, и я попробую ещё раз.

Сделал еще одну книгу. 144 страницы в grayscale.
Изначально пакет в ФР-8 весил 192 Мб.
pdf, сделанный из ФР-8 по описанной мной технологии весит 8,8 Мб.
(http://narod.ru/disk/1134832001/Ryabinin_scan%2Bocr.pdf.html)

Аватар пользователя golma1

TaKir написал:
Сделал еще одну книгу. 144 страницы в grayscale.
Изначально пакет в ФР-8 весил 192 Мб.
pdf, сделанный из ФР-8 по описанной мной технологии весит 8,8 Мб.
(http://narod.ru/disk/1134832001/Ryabinin_scan%2Bocr.pdf.html)

Ок. Сейчас попробую с "низким" качеством, у меня было "среднее". Всё остальное - так же.
144 страницы - 8,8 Мб. У меня 287 страниц разворотов (страниц 574) - 10 Мб. ;)
Как сохранится, напишу размер.

update:
18,8 Мб. Почти в два раза больше.
По подсказке izaraya отключила "использовать растровое содержание": картинка стала "мягче", но резкость сильно упала.
Вот для сравнения размеры файлов:
подчёркнутый - мой
"перед." - переданный (со всеми ошибками OCR)
"сохр." - сохранённый: 1 - в pdf/A, 2 - в pdf с текстом под картинками (среднее качество), 3 - то же (низкое качество).

Я всё же останусь при Акробате. ;)
Спасибо за подробности, теперь у других есть возможность выбрать подходящий вариант для себя.

golma1 написал:

update:
18,8 Мб. Почти в два раза больше.
По подсказке izaraya отключила "использовать растровое содержание": картинка стала "мягче", но резкость сильно упала.
///
Я всё же останусь при Акробате. ;)
Спасибо за подробности, теперь у других есть возможность выбрать подходящий вариант для себя.

Я как бы ни разу не настаиваю, просто хотел выяснить, из-за чего такого важного, чего не может ФР, нужен акробат 9 про, и чем лучше его вариант )
Да, по весу разница около 2 раз в пользу 9-го акробата. С другой стороны - ищется поиском что-то по качественному тексту из ФР на порядок лучше, поскольку слова не разбиты на куски.
Но тут еще такой момент: ФР 9 и 10 версий в принципе делает более раздутые файлы и пакеты, по сравнению с той же 8 версией. (Пакет с одной и той же книгой в 8-м ФР весит 192, а в 9-й версии - 684 МБ).
Так что и на размере pdf это тоже сказывается...

Лорд как-то приводил цифры - в 10-м ФР пакеты со среднего размера книгой при скане в сером могут весить 1,5 гига...

Аватар пользователя golma1

TaKir написал:

Но тут еще такой момент: ФР 9 и 10 версий в принципе делает более раздутые файлы и пакеты, по сравнению с той же 8 версией. (Пакет с одной и той же книгой в 8-м ФР весит 192, а в 9-й версии - 684 МБ).
Так что и на размере pdf это тоже сказывается...

Может быть.
В любом случае - разговор получился полезным. Каждый узнал что-то новое, а вообще незнающие получили аж два варианта на выбор. ;)
Так что ещё раз спасибо.

Ага, и тебе спасибо! )
Вообще бы совместить оба варианта как-то...
Чтобы и текст на картинке выглядел аккуратно и распознан был хорошо )

Аватар пользователя Tanja45

Спасибо, TaKir, попробую по-вашему, раз точная копия.
И я не критиковала, ни-ни, я спрашивала. :)

Аватар пользователя Tanja45

А что будет, если после распознавания в FR сохранить пакет, а затем открыть его в Акробате и сделать pdf? Единственное - развороты уже не получатся, т.к. при распознавании большинство их режет на страницы. В 10-м FR по методу TaKir-а файл получается очень тяжелым - больше 100 метров в качестве "для web". Но я делала из сканов в несжатых tiff на 600 dpi, поскольку детские книги я так и сканирую. Сам пакет у меня весит около 2-х гигов. Акробат я пока не ставила.

Аватар пользователя golma1

Tanja45 написал:
А что будет, если после распознавания в FR сохранить пакет, а затем открыть его в Акробате и сделать pdf?

Как открыть в Акробате пакет из ФР?
Аватар пользователя Tanja45

golma1 написал:
Tanja45 написал:
А что будет, если после распознавания в FR сохранить пакет, а затем открыть его в Акробате и сделать pdf?

Как открыть в Акробате пакет из ФР?

Я не знаю как, и не знаю можно ли, потому и спрашиваю. :))
На самом деле я, видимо, просто оттягиваю момент по установке Акробата. Рано я обрадовалась способу TaKir-а. :(

Tanja45 написал:
На самом деле я, видимо, просто оттягиваю момент по установке Акробата. Рано я обрадовалась способу TaKir-а. :(

На самом деле размер не имеет значения, ведь речь идет о файлах, которые НЕ будут залиты на Либрусек, а предназначены для своего внутреннего потребления. Поэтому, пусть даже файл будет больше, но зато лучше распознанный, значит, с его помощью будет легче искать фразы.
Так что, несмотря на бо́льший размер, отдаю предпочтение этому способу.
И да, Акробат пока не поставил. Да и надо ли? Незнаю-незнаю.
Аватар пользователя Tanja45

Zadd написал:
Tanja45 написал:
На самом деле я, видимо, просто оттягиваю момент по установке Акробата. Рано я обрадовалась способу TaKir-а. :(

На самом деле размер не имеет значения, ведь речь идет о файлах, которые НЕ будут залиты на Либрусек, а предназначены для своего внутреннего потребления.

Вы, по обыкновению, не желаете заметить, о чем идет речь. Такие файлы должно быть удобно пересылать вычитывальщикам, они предназначены для пересылки друг другу в процессе работы. Поэтому вес, разумеется, имеет большое значение.

Tanja45 написал:
Zadd написал:
Tanja45 написал:
На самом деле я, видимо, просто оттягиваю момент по установке Акробата. Рано я обрадовалась способу TaKir-а. :(

На самом деле размер не имеет значения, ведь речь идет о файлах, которые НЕ будут залиты на Либрусек, а предназначены для своего внутреннего потребления.

Вы, по обыкновению, не желаете заметить, о чем идет речь. Такие файлы должно быть удобно пересылать вычитывальщикам, они предназначены для пересылки друг другу в процессе работы. Поэтому вес, разумеется, имеет большое значение.

Вы по обыкновению, стараетесь не замечать того факта, что вычитывальщику потом будет значительно сложнее вычитывать по такому "укороченному" скану.
Лучше потратить нескольку минут на копирование большого, но более хорошего, скана, чем потом тратить несколько дней на работу с укороченным сканом.
А что касается размера, то, напр. когда Roxana сделала скан в виде JPEG, то я сразу сказал, что это не годится и сканы должны быть в виде TIFF с градацией серого. А на вопрос, что это будет слишком много весить, сказал, что мне не составит труда за несколько минут Гигабайт сканов скачать, а она тоже может сильно не заморачиваться, а положить эти сканы в виде зараренных архивов по 100М на FTP депозита(не хотелось сканами захламлять FTP Либрусека). В результате получилось кажется 6 или 8, точно не помню, архивов, так что даже меньше Гигабайта получилось и скачалось влет, точно времени не засекал, примерно за час все архивы.(Это у меня ещё нет Премиум-аккаунта!)
Дык зато теперь FineReader доволен, что ему дадены его любимые 300DPI и сканы хорошего качества! А если бы скачал JPEG-и? Было бы мучение разбирать каждую букву!
(Правда, в этой книжке другая сложность: уж больно много языков задействовано, приходится каждую иноязычную область задавать отдельно, потому что если задать сразу язык русско-англо-немецко-греческо-японо-иврито-китайский, то будет мешанина, буквы из разных алфавитов все поперепутаются)
Так что, как грится,
Крылья,ноги,хвосты написал:
Лучше день на тренировку потратить, а потом сразу долететь
Аватар пользователя niksi

Zadd написал:
А если бы скачал JPEG-и? Было бы мучение разбирать каждую букву!

Господа, что это за бред?! Как-то совсем уже не адекватно пошла беседа.

niksi написал:
Zadd написал:
А если бы скачал JPEG-и? Было бы мучение разбирать каждую букву!

Господа, что это за бред?! Как-то совсем уже не адекватно пошла беседа.

народная мудрость написал:
Неча на зеркало пенять, коли рожа крива

А не пойти ли тебе сам знаешь куда?
Лично я считаю бредом слова niksi о бреде.
Я лишь высказал пояснение о том, почему файл с бо́льшим размером может быть лучше, чем с маленьким размером, но менее удобным для вычитки. Небольшой оффтоп, поясняющий суть дела о том, что лучше сначала больше скачать, чем потом долго мучаться.
Аватар пользователя niksi

Zadd написал:

Я лишь высказал пояснение о том, почему файл с бо́льшим размером может быть лучше, чем с маленьким размером, но менее удобным для вычитки. Небольшой оффтоп, поясняющий суть дела о том, что лучше сначала больше скачать, чем потом долго мучаться.

Ты высказал не предположение, а уверенность в том, что JPEG - серый - 300 не пригоден для распознавания в ФР. В отличие от TIFF. Это полный бред. Установленный на личном опыте многих и многих. Легенда для дурачков. Просто эту тему читают не только те, у кого есть опыт в этих делах. Поэтому необходимо было это сказать, а то научишь. Если есть факты по этому вопросу, приводи. А голословные утверждения мы тут не потерпим. :)

niksi написал:
Zadd написал:

Я лишь высказал пояснение о том, почему файл с бо́льшим размером может быть лучше, чем с маленьким размером, но менее удобным для вычитки. Небольшой оффтоп, поясняющий суть дела о том, что лучше сначала больше скачать, чем потом долго мучаться.

Ты высказал не предположение, а уверенность в том, что JPEG - серый - 300 не пригоден для распознавания в ФР. В отличие от TIFF. Это полный бред. Установленный на личном опыте многих и многих. Легенда для дурачков. Просто эту тему читают не только те, у кого есть опыт в этих делах. Поэтому необходимо было это сказать, а то научишь. Если есть факты по этому вопросу, приводи. А голословные утверждения мы тут не потерпим. :)

Где это я высказал уверенность в том, что JPEG - серый - 300 не пригоден?
Да пригоден-пригоден!
Даже более того!
Даже и 96DPI вполне пригоден!
Вопрос лишь в том, что лучше распознается!
Продолжаем оффтоп?

niksi написал:
Ты высказал не предположение, а уверенность в том, что JPEG - серый - 300 не пригоден для распознавания в ФР. В отличие от TIFF. Это полный бред. Установленный на личном опыте многих и многих. Легенда для дурачков. Просто эту тему читают не только те, у кого есть опыт в этих делах. Поэтому необходимо было это сказать, а то научишь. Если есть факты по этому вопросу, приводи. А голословные утверждения мы тут не потерпим. :)

Эпиграф

Шандриков написал:
Мы, слегка от краски рдея,
Понесём им ахинею…

баба Яга из мультика «домовёнок Кузя» написал:
Да что там твои друзья! Они, небось, слаще морковки ничего не ели!

Для тех, кто слаще морковки ничего не ел, может быть странным тот факт, что есть что-то слаще морковки. Так и тут.
Если факты противоречат убеждениям niksi, тем хуже для фактов.
Меня вот, например, на Яндексе не забанили.
не помню написал:
Вам хочется фактов — их есть у меня!

http://ru.wikipedia.org/wiki/JPEG написал:
Алгоритм JPEG в наибольшей степени пригоден для сжатия фотографий и картин, содержащих реалистичные сцены с плавными переходами яркости и цвета. Наибольшее распространение JPEG получил в цифровой фотографии и для хранения и передачи изображений с использованием сети Интернет.
С другой стороны, JPEG малопригоден для сжатия чертежей, текстовой(выделение моё) и знаковой графики, где резкий контраст между соседними пикселами приводит к появлению заметных артефактов. Такие изображения целесообразно сохранять в форматах без потерь, таких как TIFF, GIF, PNG или RAW.
JPEG (как и другие методы искажающего сжатия) не подходит для сжатия изображений при многоступенчатой обработке, так как искажения в изображения будут вноситься каждый раз при сохранении промежуточных результатов обработки.

Кстати, неправда и то, что JPEG обязательно будет иметь меньший размер, чем TIFF.
На Флибусте я уже где-то приводил пример, где один и тот же файл с одним и тем же количеством цветов и DPI имеет гораздо бо́льший вес в JPEG, чем в TIFF и PNG. Правда, как правило, jpeg вроде бы действительно меньше, но бывает и наоборот!
Кроме того, JPEG - сжатие с потерями, значит, действительно, может хуже распознаваться. При этом я вовсе не утверждаю, что такой скан нельзя распознать, я всего лишь говорю о том, что при распознании будет больше ошибок.
Кстати, об офтопе: очень удобный прием использовал niksi: приписать оппоненту то, что он не говорил, а потом с "блеском" опровергнуть свои собственные измышления.

Страницы

X