Текстовый pdf из сканов | Либрусек

Вы здесь Главная » Форумы » Функциональность Текстовый pdf из сканов Опубликовано чт, 09/12/2010 - 08:07 пользователем golma1 Forums: Функциональность Текстовый pdf, сделанный из сканов, - намного удобнее для хранения и при вычитке, чем любой другой вариант. Похоже, что мне удалось убедить, или, как минимум, заинтересовать, и других. Я только не очень поняла, какие вопросы при этом возникают. ;) Поэтому - спрашивайте. Если знаю, отвечу. :) Войдите или зарегистрируйтесь, чтобы отправлять комментарии Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 09:08 пользователем Captain Scarlett Что значит "текстовый"? Pdf с ocr-слоем или pdf, содержащий только распознанный текст, без изображения оригинальной страницы? Если второе, то использовать его для вычитки крайне не рекомендуется. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 10:30 пользователем golma1 izaraya написал: Что значит "текстовый"? Pdf с ocr-слоем или pdf, содержащий только распознанный текст, без изображения оригинальной страницы? Если второе, то использовать его для вычитки крайне не рекомендуется. Pdf с ocr-слоем. Пример: Паскаль Брюкнер "Мой маленький муж" pdf 1,6 Mb Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 09:32 пользователем niksi golma1 Надо бы выложить что-нибудь для примера :) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 13:12 пользователем Tanja45 А ты методу для начала изложи. Тогда вопросы сразу и возникнут. :)) А штука, и правда, полезная очень. И да, izaraya, он именно с OCR-слоем, мало весит, но для него нужно ставить Акробат Про. Хочу-хочу-хочу. Методу - в студию! Просим, просим! Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 02:15 пользователем Captain Scarlett Tanja45 написал: izaraya, он именно с OCR-слоем, мало весит, но для него нужно ставить Акробат Про. Не надо. Можно прямо из файнридера экспортировать. Я со своими сканами так и поступаю. Получается точная копия скана, а под ней - распознанный текст. Я думала, все так делают :) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 02:36 пользователем golma1 izaraya написал: Не надо. Можно прямо из файнридера экспортировать. Я со своими сканами так и поступаю. Получается точная копия скана, а под ней - распознанный текст. Я думала, все так делают :) Научи. :) При моих поисках удобных вариантов с ФР у меня не получилось. Только экспорт распознанного текста, в котором остаются все ошибки OCR. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 03:54 пользователем Captain Scarlett golma1 написал: izaraya написал: Не надо. Можно прямо из файнридера экспортировать. Я со своими сканами так и поступаю. Получается точная копия скана, а под ней - распознанный текст. Я думала, все так делают :) Научи. :) При моих поисках удобных вариантов с ФР у меня не получилось. Только экспорт распознанного текста, в котором остаются все ошибки OCR. Ну так TaKir написал выше: выставить в опциях для pdf "текст под изображением страницы" (опции -> сохранить -> pdf). Только в портабельной десятке каждый раз заново выставлять надо, настройка не сохраняется почему-то. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 03:59 пользователем golma1 izaraya написал: Ну так TaKir написал выше: выставить в опциях для pdf "текст под изображением страницы" (опции -> сохранить -> pdf). Только в портабельной десятке каждый раз заново выставлять надо, настройка не сохраняется почему-то. Я сохраняла через pdf/A. Размер 229 Мб. Сейчас попробую через просто pdf с указанной опцией. update: Получилось 41 Мб. Мой в четыре раза меньше. Кроме того, я для ФР выставила разрезать развороты, и pdf получился тоже "одностраничный". Но это детали. Спасибо, я поняла теперь, о чём речь. Мой вариант мне нравится больше. ;) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано вс, 12/12/2010 - 12:44 пользователем oldvagrant golma1 написал: ... Мой вариант мне нравится больше. ;) Если разобраться - симпатичненько, да. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 10:01 пользователем Zadd izaraya написал: Tanja45 написал: izaraya, он именно с OCR-слоем, мало весит, но для него нужно ставить Акробат Про. Не надо. Можно прямо из файнридера экспортировать. Я со своими сканами так и поступаю. Получается точная копия скана, а под ней - распознанный текст. Я думала, все так делают :) Если файл уже с OCR-слоем, то тогда даже и FineReader не нужен! Просто копипаст из AdobeReader(не путать с Acrobat, в отличие от Acrobat, Reader - маленькая бесплатная программа для чтения(но не редактирования) PDF(и копипаста из OCR-слоя)). Правда. замучаешься абзацы склеивать, так что лучше всё-таки копипастить из программы ScreenshotReader (это бесплатное приложение для тех, кто купил FineReader ). Но иногда, в особых случаях. при хитром(~~=хитрожопом~~) форматировании текста лучше скопипастить из PDF-ки с OCR-слоем в FB2 абзац в режиме S. А если речь идет о создании PDF с помощью FineReader из нераспознанного PDF, то таки - да, я это делаю с помощью FineReader, ничего сложного в этом нет. Например, вот это Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 13:13 пользователем TaKir Zadd написал: Если файл уже с OCR-слоем, то тогда даже и FineReader не нужен! Просто копипаст из AdobeReader(не путать с Acrobat, в отличие от Acrobat, Reader - маленькая бесплатная программа для чтения(но не редактирования) PDF(и копипаста из OCR-слоя)). Правда. замучаешься абзацы склеивать, так что лучше всё-таки копипастить из программы ScreenshotReader (это бесплатное приложение для тех, кто купил FineReader ). Но иногда, в особых случаях. при хитром(~~=хитрожопом~~) форматировании текста лучше скопипастить из PDF-ки с OCR-слоем в FB2 абзац в режиме S. А если речь идет о создании PDF с помощью FineReader из нераспознанного PDF, то таки - да, я это делаю с помощью FineReader, ничего сложного в этом нет. Например, вот это Ты как всегда торопишься ответить )) Zadd написал: Если файл уже с OCR-слоем, то тогда даже и FineReader не нужен! Тут речь шла о создании из картинок pdf с окр слоем, а не о переводе его в формат фб2 )) Zadd написал: А если речь идет о создании PDF с помощью FineReader из нераспознанного PDF Речь о создании из распознанного ФР пакета файла pdf с наилучшим качеством картинки-подложки и наилучшим качеством распознанного текста. )) Для хранения, для использования как оригинала при вычитке, когда сама бумажная книга недоступна, для возможности быстрого поиска по тексту, чего не сделаешь в бумажной книге. Твой файл-пример - вариант, против которого выступает Голма - есть распознанный текст (в ФР вариант "текст поверх картинки"), который наложен на страницу журнала. При этом исходный тест на странице не виден. В моем примере - все наоборот. Исходный текст виден, а распознанный просто присутствует. Он копируется, поиск работает, но его не видно глазами. И да, такие файлы как в твоем журнале, естественно, получаются заметно меньше размером, чем те, в которых виден исходный текст+окр слой. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 02:15 пользователем Zadd TaKir написал: Ты как всегда торопишься ответить )) Зато ты ответил мееееедлееенннннннннноооооооо....... (по-эстооонскии) Я к тому моменту уже этот факт признал, правда в другом посте. Тем не менее, свою первоначальную ошибку признаю Цитата: И прошу, Ильич, прощенья За ошибку на лугу! Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано вс, 12/12/2010 - 12:30 пользователем Captain Scarlett -. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 13:35 пользователем golma1 Методе меня научил LordKiRon. Состоит она в следующем (переводы пунктов меню приблизительные, у меня немецкий интерфейс). 1. Открыть "Свести вместе" ("Соединить"?) - зелёный толстый плюсик на фоне листа бумаги (сразу после "создать"). 2. Выбрать второй пункт "Файлы собрать в единый пдф-документ". 3. В открывшемся окне нажать на стрелочку рядом с "Добавить файлы" (слева вверху). 4. Опять выбрать "Добавить файлы". 5. В проводнике открыть папку со сканами, выделить все (Ctrl+A) - нажать на кнопку "Добавить". 6. После добавления нажать на кнопку "Соединить файлы". Вверху справа отмечен должен быть "Единый пдф", а НЕ "портофолио". 7. После окончания процесса откроется окно для сохранения файла. Сохранить - неважно, под каким именем, это промежуточный результат. 8. После сохранения открыть меню "Документ" (четвёртое слева). 9. Выбрать OCR-распознание текста, выбрать первый пункт "текст распознать с OCR". 10. В первый раз нужно выставить опции. Под окошком кнопка "Обработать" ("Редактировать", "Настроить"?). Нажать. В открывшемся окне выбрать в первом поле - русский язык, во втором - Clear Scan, в третьем - 72 dpi. ОК. ОК. 11. После окончания процесса (длится относительно долго) сохранить файл под желаемым именем. Писать долго, а делать быстро. ;) Пробуйте, спрашивайте. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 14:35 пользователем Tanja45 Спасибо, Голма! С виду все просто. Ушла искать и ставить Акробат Про. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 14:46 пользователем wotti Tanja45 написал: Спасибо, Голма! С виду все просто. Ушла искать и ставить Акробат Про. Емнип, в Таверне есть в ссылках где-то.. http://ru-admin.net/soft/96767-adobe-acrobat-9-pro-extended-934-englishdeutschfran231aisrusskiy.html Adobe Acrobat 9 Pro Extended 9.3.4 (English/Deutsch/Français/Русский) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 15:00 пользователем oldvagrant golma1 написал: Текстовый pdf, сделанный из сканов, - намного удобнее для хранения и при вычитке, чем любой другой вариант. Похоже, что мне удалось убедить, или, как минимум, заинтересовать, и других. Я только не очень поняла, какие вопросы при этом возникают. ;) ... (вздыхает) У текстового pdf есть один, зато большой недостаток - если распознано неправильно, то и текст будет не правильный. Так что проверить, что там было в оригинале будет невозможно. Поэтому лучше плохонький pdf рисунками, чем классный текстовый с ошибками. На практике лучше иметь оба: дохленький рисунчатый малого объема и еще текстовый. Вообще, мне уже не один раз пришлось проклинать пользователей Acrobat, загубивших книжку автоматическим распознаванием. Это касается, по преимуществу, сложных книг: с формулами или словами на иных языках. Или с затейливыми шрифтами, да с наклоном. А родить исходный pdf назад уже невозможно... Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 15:14 пользователем Ronja_Rovardotter А вы заглянули в файл, который Голма выложила для образца? oldvagrant, там все: сверху картинка (вот прямо как на сканах), а под ней живой текст (уж как распознался) - его не видно, но он есть и по нему можно пошуршать поиском, быстро найти нужное место и посмотреть что там было в книжке. И, конечно же, никто не предлагает эти файлы заливать как книги, они только для вычитки. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 15:57 пользователем oldvagrant Ronja_Rovardotter написал: И, конечно же, никто не предлагает эти файлы заливать как книги, они только для вычитки. Это я понял. Потому и сказал про два файла в заначку. Но для образца не смотрел, правда. Ща погляжу. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 15:57 пользователем golma1 oldvagrant написал: (вздыхает) У текстового pdf есть один, зато большой недостаток - если распознано неправильно, то и текст будет не правильный. Так что проверить, что там было в оригинале будет невозможно. Вам Ронья уже ответила, но я ещё раз подчеркну: загляните в предлагаемый пример. Я специально выложила небольшой файл. Это - полная копия книги. Точная копия. Распознавание там послабее, чем в ФР, поэтому бывает, что какую-то фразу поиском не найти, т. к. она не совсем точно распознана. Но в документе Вы видите её точно так же, как в книге. "Промахов" в поиске бывает не слишком много (зависит от шрифта и качества сканов), кроме того, всегда находится или строчка под, или строчка над искомой фразой. Так что бросайте бурчать, а загляните в приложенный файл. ;) Ещё раз: этот вариант предназначен для вычитки и (может быть) хранения результатов сканов. Для иллюстраций в книгах условно пригоден. Сами иллюстрации имеет смысл хранить отдельно, а файл использовать как помощь в определении их расположения в книге. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 16:02 пользователем oldvagrant golma1 написал: ... Так что бросайте бурчать, а загляните в приложенный файл. ;) ... Посмотрю. Но со слоями я тоже видал плохие файлы.:) Часть распознано, часть нет и дано рисунком. Просто если это книжка, где есть и текст рисунком, и распознанный текст - как он может быть компактнее файла только из рисунков? Вы мне мозг выносите беспощадно. :) Но я не ради спора, непосредственная реакция просто. Я попробую разобраться с примером - с возрастом лучше-то не становишься. Охти мне, окаянному.:) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 17:47 пользователем TaKir . дубль Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 17:47 пользователем TaKir Чего-то я не понял - а чем все то же самое, сделанное в ФР и сохраненное в pdf не подходит? Из ФР, после распознавания текста: Файл-сохранить как pdf. В опциях выбрать все или только нужные страницы. Выставить параметр текст под изображением страницы и готово. Весит тоже мало, распознает ФР на порядок лучше любого акробата, итог - файл pdf с картинкой и текстом, который можно копировать из pdf и т.п. Результат, 700 кб, несколько страниц для примера сделал. Открывается даже акробатом 6 версии. http://narod.ru/disk/1121505001/Zag_zhiv222.pdf.html Вот как копируется текст из приложенного golma1 файла (стр. 161): часы в этой ком н ате был и повсюду - большие будил ь н и к и в в иде М и кк и - М аусов , сте н н ые с гирька м и , ход и ки с кукуш ко й , электро н н ые со с ветящ и м ися цифра м и , даже с порти в н ы й хронометр. Все тикал и не в такт и показы вал и разное вре м я . Леон б ыл во рву со змея м и . Усевш ис ь между гусаром королевс ко й гвард и и и гренадером в меховом кол паке, он с вол н е н ие м смотрел н а своих отп рысков, которые кре п ко спал и . П острелята в ы глядел и сеЙl.Jас таки м и с м ирн ы м и , лежал и , тес но прижавш и с ь друг к другу, перемешав руки и ноги - п релестное зрели ще . Во сне у н и х были а н гел ьские л и ч и ки : безм ятежное в ыраже н и е , кругл ы е розовые щеч к и , п риоткрытый рот и к , в котором в иден ____________________________________________________ И вот как из моего файла: Мир населен чудовищами. В этом более других убеждены люди, чья жизнь проходит среди природы — вне городов и их каменных стен. Из уст в уста, из поколения в поколение передаются рассказы о кровожадных драконах, лесных великанах, гигантских змеях, других летающих, прыгающих, ползающих и плавающих монстрах. Что это — порождение ночных страхов? Или именно в легендах хранится облик реальных существ, действительно обитающих на Земле, но еще неведомых науке? Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано чт, 09/12/2010 - 19:05 пользователем Tanja45 TaKir написал: Чего-то я не понял - а чем все то же самое, сделанное в ФР и сохраненное в pdf не подходит? Из ФР, после распознавания текста: Файл-сохранить как pdf. В опциях выбрать все или только нужные страницы. Выставить параметр текст под изображением страницы и готово. Весит тоже мало, распознает ФР на порядок лучше любого акробата, итог - файл pdf с картинкой и текстом, который можно копировать из pdf и т.п. Ваш файл будет содержать только распознанный текст. Он не точная копия сканов. Для вычитки он не годится, т.к. текст будет содержать возможные ошибки OCR. А Голмин - будет точной копией сканов, содержать еще (невидимым) и текстовой слой для поиска по книге, а для вычитки так удобнее всего. Нет? Не так? Или Ваш файл тоже будет точной копией? Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 01:46 пользователем Ronja_Rovardotter Tanja45 написал: Или Ваш файл тоже будет точной копией? Точная копия. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 02:04 пользователем Ronja_Rovardotter TaKir написал: Весит тоже мало Но раза в 2-3 тяжелее акробатовского. Для вычитки пойдет, для хранения хочется чего-то покомпактней. Получаемая картинка тоже отличается по качеству. TaKir написал: Вот как копируется текст из приложенного golma1 файла Поэтому для поиска из близлежащих слов выбираем нечасто встречающееся, можно даже не полностью. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 02:33 пользователем golma1 TaKir написал: Чего-то я не понял - а чем все то же самое, сделанное в ФР и сохраненное в pdf не подходит? Из ФР, после распознавания текста: Файл-сохранить как pdf. ... И он сохраняется со всеми ошибками OCR, которые ты не увидел. В предложенном варианте ты имеешь копию текста. Этот pdf не предназначен для конвертирования, для копипаста, он служит точной копией скана и очень удобен для вычитки. Но я ни на чём не настаиваю: каждый делает так, как ему удобнее. Я такой файл отправляю сканировщикам (для хранения) и вычитывальщикам (для вычитки). Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 02:56 пользователем Ronja_Rovardotter Голма, TaKir писал: Цитата: итог - файл pdf с картинкой и текстом, который можно копировать из pdf и т.п. В самом деле можно и в ФР такое создать, но файлы получаются тяжелее. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 12:01 пользователем Zadd golma1 написал: Этот pdf не предназначен для конвертирования, для копипаста, он служит точной копией скана и очень удобен для вычитки. После этих слов я уже понял о чем в этой теме разговор, а сначала-то и не понял, про что. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 03:15 пользователем TaKir Tanja45 написал: Ваш файл будет содержать только распознанный текст. Он не точная копия сканов. Для вычитки он не годится, т.к. текст будет содержать возможные ошибки OCR. Вы файлик прежде глянули? Будет точная копия страниц и нормально распознанный текст. А не тот кошмар, что распознает акробат. golma1 написал: ... И он сохраняется со всеми ошибками OCR, которые ты не увидел. В предложенном варианте ты имеешь копию текста. Ты тоже бы файлик глянула, а? Чтобы не говорить не видя, ни о чем. Я твой глянул, прежде чем сравнивать. )) Копия страниц и распознанный текст прямо из ФР. Для твоих целей - передача на вычитку и проч. golma1 написал: Научи. :) При моих поисках удобных вариантов с ФР у меня не получилось. Только экспорт распознанного текста, в котором остаются все ошибки OCR. Я в первом своем посте описал пошагово технологию. Именно для попробовать, если кто не умеет. Как-то я ожидал, что люди сначала хоть посмотрят мой файл-результат, а потом будут критиковать то, что в глаза не видели, но, ошибся, бывает )) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 03:23 пользователем golma1 TaKir написал: Ты тоже бы файлик глянула, а? Чтобы не говорить не видя, ни о чем. Я твой глянул, прежде чем сравнивать. )) Конечно, я посмотрела. Обижаешь. В-) TaKir написал: Я в первом своем посте описал пошагово технологию. Именно для попробовать, если кто не умеет. Как-то я ожидал, что люди сначала хоть посмотрят мой файл-результат, а потом будут критиковать то, что в глаза не видели, но, ошибся, бывает )) Ошибся. Я даже попробовала. У меня сейчас замечательный скан от niksi, который распознаётся практически без ошибок. Но одну OCR-ошибку я всё-таки нашла. На стр. 16. Хочешь исходник? Потому что по твоей технологии сделанный pdf содержит такой текст: Цитата: прокурор из Джерси должен был непременно пройтись на наш счет? Он ведь прекрасно знает: все это тянулось не по нашей вине, — каждому опытному прокурору известно, что самое печ&ть- правильно было бы - "печаль-" Я попробовала и "сохранить как pdf/A" и "передать в pdf". (Размеры: "мой" - 10,3 Мб, при передаче - 2,6 Мб, при сохранении - 229 Мб.) Результат одинаковый - в смысле текста: везде сохранились амперсанд и "т". В сохранённом (229 Мб!) - проявляется при копировании (а значит, поиск тоже промахнулся бы), в переданном - на самом изображении. Поэтому я и сказала: "со всеми ошибками OCR, которые ты не увидел". Увидел - исправил, не увидел - так и останется в твоём pdf. В моём же текст будет такой же, как в исходнике. Поиск иногда "промахивается" (из-за плохого распознавания), но бороться с этим довольно легко. Он не предназначен для копирования текста, он нужен только как точная копия книги, в которой можно пользоваться поиском. И ещё раз: я ни на чём не настаиваю, каждый волен делать так, как считает правильным. Тема для тех, у кого возникли вопросы после знакомства с "моими" pdf. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 03:38 пользователем TaKir golma1 написал: Поэтому я и сказала: "со всеми ошибками OCR, которые ты не увидел". Увидел - исправил, не увидел - так и останется в твоём pdf. В моём же текст будет так же, как в исходнике. Так. Давай еще раз. У меня в файле после ФР имеется картинка+распознанный текст. Причем видишь ты картинку, а не текст. Текст можешь просто скопировать. Для чистоты эксперимента посмотри в моем файле страничку с выходными данными. Если скопировать с нее текст, там будет слово "тест", которое не видно, поскольку видна именно картинка. В твоем случае видим то же самое, сделанное средствами акробата. С гораздо худшим качеством распознавания. Вопрос - зачем окр слой худшего качества? Для чего он в принципе там нужен? Может я туплю чрезмерно в эти дни... Т.е. имеем 2 pdf файла одной и той же книги. Обе файла - картинка видна, и текст копируется. Оба имеют какие-то ошибки распознавания, скорее всего, если не делать вычитку.. В одном файле текст изначально прилично распознан и сформатирован. Во втором случае - текст плохо распознан и плохо сформатирован. Для чего нужен второй вариант? Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 03:47 пользователем golma1 TaKir написал: Так. Давай еще раз. У меня в файле после ФР имеется картинка+распознанный текст. Причем видишь ты картинку, а не текст. Текст можешь просто скопировать. Для чистоты эксперимента посмотри в моем файле страничку с выходными данными. Если скопировать с нее текст, там будет слово "тест", которое не видно, поскольку видна именно картинка. Вижу. После слов "Царева И.Б." TaKir написал: В твоем случае видим то же самое, сделанное средствами акробата. С гораздо худшим качеством распознавания. Вопрос - зачем окр слой худшего качества? Для чего он в принципе там нужен? Смотри. Я сохранила одну и ту же книгу двумя методами: твоим и моим. В первом случае - 229 Мб, во втором - 10. Скажи, что я сделала не так, и я попробую ещё раз. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 04:23 пользователем TaKir Сделал еще одну книгу. 144 страницы в grayscale. Изначально пакет в ФР-8 весил 192 Мб. pdf, сделанный из ФР-8 по описанной мной технологии весит 8,8 Мб. (http://narod.ru/disk/1134832001/Ryabinin_scan%2Bocr.pdf.html) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 04:57 пользователем golma1 TaKir написал: Сделал еще одну книгу. 144 страницы в grayscale. Изначально пакет в ФР-8 весил 192 Мб. pdf, сделанный из ФР-8 по описанной мной технологии весит 8,8 Мб. (http://narod.ru/disk/1134832001/Ryabinin_scan%2Bocr.pdf.html) Ок. Сейчас попробую с "низким" качеством, у меня было "среднее". Всё остальное - так же. 144 страницы - 8,8 Мб. У меня 287 ~~страниц~~ разворотов (страниц 574) - 10 Мб. ;) Как сохранится, напишу размер. update: 18,8 Мб. Почти в два раза больше. По подсказке izaraya отключила "использовать растровое содержание": картинка стала "мягче", но резкость сильно упала. Вот для сравнения размеры файлов: подчёркнутый - мой "перед." - переданный (со всеми ошибками OCR) "сохр." - сохранённый: 1 - в pdf/A, 2 - в pdf с текстом под картинками (среднее качество), 3 - то же (низкое качество). Я всё же останусь при Акробате. ;) Спасибо за подробности, теперь у других есть возможность выбрать подходящий вариант для себя. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 06:14 пользователем TaKir golma1 написал: update: 18,8 Мб. Почти в два раза больше. По подсказке izaraya отключила "использовать растровое содержание": картинка стала "мягче", но резкость сильно упала. /// Я всё же останусь при Акробате. ;) Спасибо за подробности, теперь у других есть возможность выбрать подходящий вариант для себя. Я как бы ни разу не настаиваю, просто хотел выяснить, из-за чего такого важного, чего не может ФР, нужен акробат 9 про, и чем лучше его вариант ) Да, по весу разница около 2 раз в пользу 9-го акробата. С другой стороны - ищется поиском что-то по качественному тексту из ФР на порядок лучше, поскольку слова не разбиты на куски. Но тут еще такой момент: ФР 9 и 10 версий в принципе делает более раздутые файлы и пакеты, по сравнению с той же 8 версией. (Пакет с одной и той же книгой в 8-м ФР весит 192, а в 9-й версии - 684 МБ). Так что и на размере pdf это тоже сказывается... Лорд как-то приводил цифры - в 10-м ФР пакеты со среднего размера книгой при скане в сером могут весить 1,5 гига... Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 06:30 пользователем golma1 TaKir написал: Но тут еще такой момент: ФР 9 и 10 версий в принципе делает более раздутые файлы и пакеты, по сравнению с той же 8 версией. (Пакет с одной и той же книгой в 8-м ФР весит 192, а в 9-й версии - 684 МБ). Так что и на размере pdf это тоже сказывается... Может быть. В любом случае - разговор получился полезным. Каждый узнал что-то новое, а вообще незнающие получили аж два варианта на выбор. ;) Так что ещё раз спасибо. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 08:09 пользователем TaKir Ага, и тебе спасибо! ) Вообще бы совместить оба варианта как-то... Чтобы и текст на картинке выглядел аккуратно и распознан был хорошо ) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 05:25 пользователем Tanja45 Спасибо, TaKir, попробую по-вашему, раз точная копия. И я не критиковала, ни-ни, я спрашивала. :) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 09:09 пользователем Tanja45 А что будет, если после распознавания в FR сохранить пакет, а затем открыть его в Акробате и сделать pdf? Единственное - развороты уже не получатся, т.к. при распознавании большинство их режет на страницы. В 10-м FR по методу TaKir-а файл получается очень тяжелым - больше 100 метров в качестве "для web". Но я делала из сканов в несжатых tiff на 600 dpi, поскольку детские книги я так и сканирую. Сам пакет у меня весит около 2-х гигов. Акробат я пока не ставила. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 09:52 пользователем golma1 Tanja45 написал: А что будет, если после распознавания в FR сохранить пакет, а затем открыть его в Акробате и сделать pdf? Как открыть в Акробате пакет из ФР? Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 11:59 пользователем Tanja45 golma1 написал: Tanja45 написал: А что будет, если после распознавания в FR сохранить пакет, а затем открыть его в Акробате и сделать pdf? Как открыть в Акробате пакет из ФР? Я не знаю как, и не знаю можно ли, потому и спрашиваю. :)) На самом деле я, видимо, просто оттягиваю момент по установке Акробата. Рано я обрадовалась способу TaKir-а. :( Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 12:11 пользователем Zadd Tanja45 написал: На самом деле я, видимо, просто оттягиваю момент по установке Акробата. Рано я обрадовалась способу TaKir-а. :( На самом деле размер не имеет значения, ведь речь идет о файлах, которые НЕ будут залиты на Либрусек, а предназначены для своего внутреннего потребления. Поэтому, пусть даже файл будет больше, но зато лучше распознанный, значит, с его помощью будет легче искать фразы. Так что, несмотря на бо́льший размер, отдаю предпочтение этому способу. И да, Акробат пока не поставил. Да и надо ли? Незнаю-незнаю. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано пт, 10/12/2010 - 13:39 пользователем Tanja45 Zadd написал: Tanja45 написал: На самом деле я, видимо, просто оттягиваю момент по установке Акробата. Рано я обрадовалась способу TaKir-а. :( На самом деле размер не имеет значения, ведь речь идет о файлах, которые НЕ будут залиты на Либрусек, а предназначены для своего внутреннего потребления. Вы, по обыкновению, не желаете заметить, о чем идет речь. Такие файлы должно быть удобно пересылать вычитывальщикам, они предназначены для пересылки друг другу в процессе работы. Поэтому вес, разумеется, имеет большое значение. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 02:04 пользователем Zadd Tanja45 написал: Zadd написал: Tanja45 написал: На самом деле я, видимо, просто оттягиваю момент по установке Акробата. Рано я обрадовалась способу TaKir-а. :( На самом деле размер не имеет значения, ведь речь идет о файлах, которые НЕ будут залиты на Либрусек, а предназначены для своего внутреннего потребления. Вы, по обыкновению, не желаете заметить, о чем идет речь. Такие файлы должно быть удобно пересылать вычитывальщикам, они предназначены для пересылки друг другу в процессе работы. Поэтому вес, разумеется, имеет большое значение. Вы по обыкновению, стараетесь не замечать того факта, что вычитывальщику потом будет значительно сложнее вычитывать по такому "укороченному" скану. Лучше потратить нескольку минут на копирование большого, но более хорошего, скана, чем потом тратить несколько дней на работу с укороченным сканом. А что касается размера, то, напр. когда Roxana сделала скан в виде JPEG, то я сразу сказал, что это не годится и сканы должны быть в виде TIFF с градацией серого. А на вопрос, что это будет слишком много весить, сказал, что мне не составит труда за несколько минут Гигабайт сканов скачать, а она тоже может сильно не заморачиваться, а положить эти сканы в виде зараренных архивов по 100М на FTP депозита(не хотелось сканами захламлять FTP Либрусека). В результате получилось кажется 6 или 8, точно не помню, архивов, так что даже меньше Гигабайта получилось и скачалось влет, точно времени не засекал, примерно за час все архивы.(Это у меня ещё нет Премиум-аккаунта!) Дык зато теперь FineReader доволен, что ему дадены его любимые 300DPI и сканы хорошего качества! А если бы скачал JPEG-и? Было бы мучение разбирать каждую букву! (Правда, в этой книжке другая сложность: уж больно много языков задействовано, приходится каждую иноязычную область задавать отдельно, потому что если задать сразу язык русско-англо-немецко-греческо-японо-иврито-китайский, то будет мешанина, буквы из разных алфавитов все поперепутаются) Так что, как грится, Крылья,ноги,хвосты написал: Лучше день на тренировку потратить, а потом сразу долететь Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 02:17 пользователем niksi Zadd написал: А если бы скачал JPEG-и? Было бы мучение разбирать каждую букву! Господа, что это за бред?! Как-то совсем уже не адекватно пошла беседа. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 02:49 пользователем Zadd niksi написал: Zadd написал: А если бы скачал JPEG-и? Было бы мучение разбирать каждую букву! Господа, что это за бред?! Как-то совсем уже не адекватно пошла беседа. народная мудрость написал: Неча на зеркало пенять, коли рожа крива А не пойти ли тебе сам знаешь куда? Лично я считаю бредом слова niksi о бреде. Я лишь высказал пояснение о том, почему файл с бо́льшим размером может быть лучше, чем с маленьким размером, но менее удобным для вычитки. Небольшой оффтоп, поясняющий суть дела о том, что лучше сначала больше скачать, чем потом долго мучаться. Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 03:02 пользователем niksi Zadd написал: Я лишь высказал пояснение о том, почему файл с бо́льшим размером может быть лучше, чем с маленьким размером, но менее удобным для вычитки. Небольшой оффтоп, поясняющий суть дела о том, что лучше сначала больше скачать, чем потом долго мучаться. Ты высказал не предположение, а уверенность в том, что JPEG - серый - 300 не пригоден для распознавания в ФР. В отличие от TIFF. Это полный бред. Установленный на личном опыте многих и многих. Легенда для дурачков. Просто эту тему читают не только те, у кого есть опыт в этих делах. Поэтому необходимо было это сказать, а то научишь. Если есть факты по этому вопросу, приводи. А голословные утверждения мы тут не потерпим. :) Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 03:32 пользователем Zadd niksi написал: Zadd написал: Я лишь высказал пояснение о том, почему файл с бо́льшим размером может быть лучше, чем с маленьким размером, но менее удобным для вычитки. Небольшой оффтоп, поясняющий суть дела о том, что лучше сначала больше скачать, чем потом долго мучаться. Ты высказал не предположение, а уверенность в том, что JPEG - серый - 300 не пригоден для распознавания в ФР. В отличие от TIFF. Это полный бред. Установленный на личном опыте многих и многих. Легенда для дурачков. Просто эту тему читают не только те, у кого есть опыт в этих делах. Поэтому необходимо было это сказать, а то научишь. Если есть факты по этому вопросу, приводи. А голословные утверждения мы тут не потерпим. :) Где это я высказал уверенность в том, что JPEG - серый - 300 не пригоден? Да пригоден-пригоден! Даже более того! Даже и 96DPI вполне пригоден! Вопрос лишь в том, что лучше распознается! Продолжаем оффтоп? Отв: Текстовый pdf из сканов Постоянная ссылка (Permalink) Опубликовано сб, 11/12/2010 - 04:56 пользователем Zadd niksi написал: Ты высказал не предположение, а уверенность в том, что JPEG - серый - 300 не пригоден для распознавания в ФР. В отличие от TIFF. Это полный бред. Установленный на личном опыте многих и многих. Легенда для дурачков. Просто эту тему читают не только те, у кого есть опыт в этих делах. Поэтому необходимо было это сказать, а то научишь. Если есть факты по этому вопросу, приводи. А голословные утверждения мы тут не потерпим. :) Эпиграф Шандриков написал: Мы, слегка от краски рдея, Понесём им ахинею… баба Яга из мультика «домовёнок Кузя» написал: Да что там твои друзья! Они, небось, слаще морковки ничего не ели! Для тех, кто слаще морковки ничего не ел, может быть странным тот факт, что есть что-то слаще морковки. Так и тут. Если факты противоречат убеждениям niksi, тем хуже для фактов. Меня вот, например, на Яндексе не забанили. не помню написал: Вам хочется фактов — их есть у меня! http://ru.wikipedia.org/wiki/JPEG написал: Алгоритм JPEG в наибольшей степени пригоден для сжатия фотографий и картин, содержащих реалистичные сцены с плавными переходами яркости и цвета. Наибольшее распространение JPEG получил в цифровой фотографии и для хранения и передачи изображений с использованием сети Интернет. С другой стороны, JPEG малопригоден для сжатия чертежей, текстовой(выделение моё) и знаковой графики, где резкий контраст между соседними пикселами приводит к появлению заметных артефактов. Такие изображения целесообразно сохранять в форматах без потерь, таких как TIFF, GIF, PNG или RAW. JPEG (как и другие методы искажающего сжатия) не подходит для сжатия изображений при многоступенчатой обработке, так как искажения в изображения будут вноситься каждый раз при сохранении промежуточных результатов обработки. Кстати, неправда и то, что JPEG обязательно будет иметь меньший размер, чем TIFF. На Флибусте я уже где-то приводил пример, где один и тот же файл с одним и тем же количеством цветов и DPI имеет гораздо бо́льший вес в JPEG, чем в TIFF и PNG. Правда, как правило, jpeg вроде бы действительно меньше, но бывает и наоборот! Кроме того, JPEG - сжатие с потерями, значит, действительно, может хуже распознаваться. При этом я вовсе не утверждаю, что такой скан нельзя распознать, я всего лишь говорю о том, что при распознании будет больше ошибок. Кстати, об офтопе: очень удобный прием использовал niksi: приписать оппоненту то, что он не говорил, а потом с "блеском" опровергнуть свои собственные измышления. Страницы 1 2 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии larin RE:Заплатила, а абонемента нет и скачать ничего не могу! 7 часов sibkron RE:Серия "Библиотека французской литературы" (Макбел) 1 день Aleks_Sim RE:Подайте бедному копеечку на книжку с литреса... 1 день Nicout RE:Прошу переформатировать, распознать, etc... 2 недели akorish RE:Регистрация 3 недели Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 4 недели Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 4 недели konst1 RE:Ух, как я не люблю спамеров! 1 месяц tvv RE:DNS 1 месяц sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 1 месяц larin RE:Заблокирован 1 месяц konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 2 месяца Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 2 месяца fixel RE:Пропал абонемент 2 месяца sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 3 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 4 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 4 месяца Впечатления о книгах decim про Жегалин: Бражники и блудницы. Как жили, любили и умирали поэты Серебряного века (История, Биографии и Мемуары, Литературоведение) 30 05 Стиль изложения точь-в-точь как в "1913. Лето целого века" Флориана Иллиеса. Содержание схоже до смешения. Озоровали наши творцы не меньше западноевропейских и ровно в том же духе. HORiSi про и сказания: Упанишады. 7 священных текстов древней Индии. Перевод Бориса Гребенщикова (Древневосточная литература, Мифы. Легенды. Эпос, Старинная литература: прочее) 30 05 Красивый и понятный перевод от простого человека Оценка: отлично! Старший про Бармин: Бестия [AT] (Боевая фантастика, Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература) 30 05 Лут, групповуха, групповуха лут. Оценка "плохо". decim про Кассиль: Щепотка Луны (Советская классическая проза) 29 05 Ещё один памятник эпохи. Издание 1936г. Оценка: неплохо decim про Шаумберг: Убийства по книге [Литрес] (Триллер, Детективы: прочее) 29 05 В стране розовых пони что ни маньяк, то знаток искусств. Увы, обычно это обиженные сильными, отыгрывающиеся на слабых, и всё, что могут пояснить - "а чо она, б". (Сир убил и прятал жертву как простой гопарь, ничего изысканного) Перевод ……… Оценка: плохо SeNS* про Джангер: Идеальный шторм (Морские приключения, Документальная литература) 28 05 Хорошая книга, и отличный фильм, по ней поставленный. Рекомендую! Оценка: отлично! Анни-Мари про Нельсон: Нетрадиционная медицина (Фэнтези, Самиздат, сетевая литература) 27 05 Можно сколько угодно твердить, что главный герой мужчина, но поверить в это все равно не получается. Larisa_F про Ткаченко: Зимняя сказка и другие новогодние истории (Сказка) 27 05 http://lib.rus.ec/b/815953 - здесь все страницы virtcatty про Горъ: Ухорез - 3 (Боевая фантастика, Фэнтези, Самиздат, сетевая литература) 27 05 Для tvv: Перейди на Флибу прямо сейчас, там есть и без картинок. francuzik про Яманов: Питбуль и Митрофанушка [СИ] (Боевая фантастика, Фэнтези, Современная проза, Попаданцы, Самиздат, сетевая литература) 25 05 На удивление хорошая книга. Не ожидал даже. Оценка: хорошо Barbud про Смолин: Дело №1979 (Альтернативная история, Детективы: прочее, Самиздат, сетевая литература) 24 05 Начал читать, через несколько минут закралось нехорошее подозрение, что этот стиль мне знаком, и называется он "нейросетевое творчество". Что-то сразу выдает - то ли короткие рубленые предложения, то ли повторы идентичных ……… Dead_Space про Гэддис: Распознавания (Классическая проза, Историческая проза) 24 05 Огромное спасибо, давно ждал, только вчера проверял на флибусте наличие, а её оказывается тут выложили. Оценка: отлично! больше впечатлений