Вы здесьТекстовый pdf из сканов
Опубликовано чт, 09/12/2010 - 08:07 пользователем golma1
Forums: Текстовый pdf, сделанный из сканов, - намного удобнее для хранения и при вычитке, чем любой другой вариант. Я только не очень поняла, какие вопросы при этом возникают. ;)
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
babajga RE:Чернушка. Повести 25 мин.
Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 23 часа Саша из Киева RE:Сказки далёких островов 2 дня babajga RE:Лопоухий бес 3 дня SparkySpirit RE:Жорж Санд - переводы 19 века 3 дня SparkySpirit RE:Прошу переформатировать, распознать, etc... 3 дня kopak RE:Таинственная личность админа Флибусты 4 дня babajga RE:Ежик покидает дом 4 дня babajga RE:Сказки бабушки Черепахи 5 дней babajga RE:Свист диких крыльев 5 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 6 дней Саша из Киева RE:Турецкие мусорщики в Анкаре открыли библиотеку, полную... 1 неделя Isais RE:Не тот автор 2 недели xieergai60 RE:Продление подписки 3 недели TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 3 недели Isais RE:Древняя Греция. Читаем... 3 недели laurentina1 RE:Ирина Александровна Велембовская - Немцы 3 недели Саша из Киева RE:Избранное 1 месяц Впечатления о книгах
miri.ness_ про Еще не поздно
25 12 Двоякое впечатление. У автора, возможно, в родственниках или их друзей есть взрослые люди, крепко обиженные Ангстремом. Но много знающие про электронику и микроэлектронику тех лет - отсюда и довольно глубокие познания, правда ………
decim про Овалов: Демон революции. Жизнь и приключения Розалии Землячки (Биографии и Мемуары)
25 12 Рерайтинг имеющейся здесь же книги Овалова "Январские ночи", снабжённый манким заголовком. Оценка: хорошо
lorealke про Матвеев: Ниочёма-3 [СИ] (Юмор: прочее, Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
24 12 Автор постоянно долбит про злобную Европу и обижаемую Империю, да царя-батюшку. Читаешь и прямо физически ощущаешь, как тебе промывают мозги. Короче, вместо нормальной бояръаниме получилась какая-то полу-пропагандистская херня. Оценка: плохо
дядя_Андрей про Костин: О чём молчал Атос (Критика, Литературоведение, Самиздат, сетевая литература)
23 12 Karl-Ieronim, конечно же "Последний кольценосец" Еськова
Олег Макаров. про Николай Владимирович Беляев (самиздат)
23 12 Серия «Серебряная осень» Качественно, интересно
Саша из Киева про Краминов: В орбите войны [записки советского корреспондента за рубежом, 1939-1945 годы] (Биографии и Мемуары)
23 12 Огромное спасибо всем, кто сделал и добавил эту книгу!
Лысенко Владимир Андреевич про Емельянов: Японская война 1904. Книга 2 (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
23 12 Серия очень понравилась, прочитал не отрываясь. Буду ждать продолжения. Оценка: отлично!
Саша из Киева про Даниил Фёдорович Краминов
23 12 На Флибусте есть книга Даниила Краминова "В орбите войны. Записки советского корреспондента за рубежом. 1939-1945 годы". Надо бы добавить её сюда. Я попробовал добавить - почему-то не получилось. А книга интересная. Я читал ………
miri.ness_ про Забелин: Домашний быт русских цариц в XVI и XVII столетиях [Литрес] (История)
22 12 Книга отличная, только один минус - издано в 1869 г. в серии Non-Fiction. Большие книги
alexk про Флинн: В стране слепых [litres] [In the Country of the Blind ru] (Социальная фантастика, Научная фантастика)
22 12 На первый взгляд, литресный перевод похуже перевода 95-го года.
Fori про Панов: Пре(восход)ство [СИ litres] (Киберпанк, Социальная фантастика, Самиздат, сетевая литература)
22 12 Зачем выкладывать ознакомительные огрызки Литреса? |
Отв: Текстовый pdf из сканов
Что значит "текстовый"? Pdf с ocr-слоем или pdf, содержащий только распознанный текст, без изображения оригинальной страницы? Если второе, то использовать его для вычитки крайне не рекомендуется.
Отв: Текстовый pdf из сканов
Pdf с ocr-слоем.
Пример:
Паскаль Брюкнер "Мой маленький муж" pdf 1,6 Mb
Отв: Текстовый pdf из сканов
golma1
Надо бы выложить что-нибудь для примера :)
Отв: Текстовый pdf из сканов
А ты методу для начала изложи. Тогда вопросы сразу и возникнут. :)) А штука, и правда, полезная очень. И да, izaraya, он именно с OCR-слоем, мало весит, но для него нужно ставить Акробат Про. Хочу-хочу-хочу. Методу - в студию! Просим, просим!
Отв: Текстовый pdf из сканов
Не надо. Можно прямо из файнридера экспортировать. Я со своими сканами так и поступаю. Получается точная копия скана, а под ней - распознанный текст. Я думала, все так делают :)
Отв: Текстовый pdf из сканов
Научи. :)
При моих поисках удобных вариантов с ФР у меня не получилось. Только экспорт распознанного текста, в котором остаются все ошибки OCR.
Отв: Текстовый pdf из сканов
Ну так TaKir написал выше: выставить в опциях для pdf "текст под изображением страницы" (опции -> сохранить -> pdf). Только в портабельной десятке каждый раз заново выставлять надо, настройка не сохраняется почему-то.
Отв: Текстовый pdf из сканов
Я сохраняла через pdf/A. Размер 229 Мб.
Сейчас попробую через просто pdf с указанной опцией.
update:
Получилось 41 Мб. Мой в четыре раза меньше.
Кроме того, я для ФР выставила разрезать развороты, и pdf получился тоже "одностраничный". Но это детали.
Спасибо, я поняла теперь, о чём речь.
Мой вариант мне нравится больше. ;)
Отв: Текстовый pdf из сканов
Отв: Текстовый pdf из сканов
Если файл уже с OCR-слоем, то тогда даже и FineReader не нужен! Просто копипаст из AdobeReader(не путать с Acrobat, в отличие от Acrobat, Reader - маленькая бесплатная программа для чтения(но не редактирования) PDF(и копипаста из OCR-слоя)). Правда. замучаешься абзацы склеивать, так что лучше всё-таки копипастить из программы ScreenshotReader (это бесплатное приложение для тех, кто купил FineReader ). Но иногда, в особых случаях. при хитром(
=хитрожопом) форматировании текста лучше скопипастить из PDF-ки с OCR-слоем в FB2 абзац в режиме S.А если речь идет о создании PDF с помощью FineReader из нераспознанного PDF, то таки - да, я это делаю с помощью FineReader, ничего сложного в этом нет.
Например, вот это
Отв: Текстовый pdf из сканов
Ты как всегда торопишься ответить ))
Тут речь шла о создании из картинок pdf с окр слоем, а не о переводе его в формат фб2 ))
Речь о создании из распознанного ФР пакета файла pdf с наилучшим качеством картинки-подложки и наилучшим качеством распознанного текста. ))
Для хранения, для использования как оригинала при вычитке, когда сама бумажная книга недоступна, для возможности быстрого поиска по тексту, чего не сделаешь в бумажной книге.
Твой файл-пример - вариант, против которого выступает Голма - есть распознанный текст (в ФР вариант "текст поверх картинки"), который наложен на страницу журнала. При этом исходный тест на странице не виден. В моем примере - все наоборот. Исходный текст виден, а распознанный просто присутствует. Он копируется, поиск работает, но его не видно глазами.
И да, такие файлы как в твоем журнале, естественно, получаются заметно меньше размером, чем те, в которых виден исходный текст+окр слой.
Отв: Текстовый pdf из сканов
Зато ты ответил мееееедлееенннннннннноооооооо....... (по-эстооонскии)
Я к тому моменту уже этот факт признал, правда в другом посте.
Тем не менее, свою первоначальную ошибку признаю
Отв: Текстовый pdf из сканов
-.
Отв: Текстовый pdf из сканов
Методе меня научил LordKiRon.
Состоит она в следующем (переводы пунктов меню приблизительные, у меня немецкий интерфейс).
1. Открыть "Свести вместе" ("Соединить"?) - зелёный толстый плюсик на фоне листа бумаги (сразу после "создать").
2. Выбрать второй пункт "Файлы собрать в единый пдф-документ".
3. В открывшемся окне нажать на стрелочку рядом с "Добавить файлы" (слева вверху).
4. Опять выбрать "Добавить файлы".
5. В проводнике открыть папку со сканами, выделить все (Ctrl+A) - нажать на кнопку "Добавить".
6. После добавления нажать на кнопку "Соединить файлы". Вверху справа отмечен должен быть "Единый пдф", а НЕ "портофолио".
7. После окончания процесса откроется окно для сохранения файла. Сохранить - неважно, под каким именем, это промежуточный результат.
8. После сохранения открыть меню "Документ" (четвёртое слева).
9. Выбрать OCR-распознание текста, выбрать первый пункт "текст распознать с OCR".
10. В первый раз нужно выставить опции. Под окошком кнопка "Обработать" ("Редактировать", "Настроить"?). Нажать. В открывшемся окне выбрать в первом поле - русский язык, во втором - Clear Scan, в третьем - 72 dpi. ОК. ОК.
11. После окончания процесса (длится относительно долго) сохранить файл под желаемым именем.
Писать долго, а делать быстро. ;)
Пробуйте, спрашивайте.
Отв: Текстовый pdf из сканов
Спасибо, Голма!
С виду все просто. Ушла искать и ставить Акробат Про.
Отв: Текстовый pdf из сканов
Емнип, в Таверне есть в ссылках где-то..
http://ru-admin.net/soft/96767-adobe-acrobat-9-pro-extended-934-englishdeutschfran231aisrusskiy.html
Adobe Acrobat 9 Pro Extended 9.3.4 (English/Deutsch/Français/Русский)
Отв: Текстовый pdf из сканов
(вздыхает) У текстового pdf есть один, зато большой недостаток - если распознано неправильно, то и текст будет не правильный. Так что проверить, что там было в оригинале будет невозможно. Поэтому лучше плохонький pdf рисунками, чем классный текстовый с ошибками. На практике лучше иметь оба: дохленький рисунчатый малого объема и еще текстовый.
Вообще, мне уже не один раз пришлось проклинать пользователей Acrobat, загубивших книжку автоматическим распознаванием. Это касается, по преимуществу, сложных книг: с формулами или словами на иных языках. Или с затейливыми шрифтами, да с наклоном.
А родить исходный pdf назад уже невозможно...
Отв: Текстовый pdf из сканов
А вы заглянули в файл, который Голма выложила для образца? oldvagrant, там все: сверху картинка (вот прямо как на сканах), а под ней живой текст (уж как распознался) - его не видно, но он есть и по нему можно пошуршать поиском, быстро найти нужное место и посмотреть что там было в книжке.
И, конечно же, никто не предлагает эти файлы заливать как книги, они только для вычитки.
Отв: Текстовый pdf из сканов
Но для образца не смотрел, правда. Ща погляжу.
Отв: Текстовый pdf из сканов
Вам Ронья уже ответила, но я ещё раз подчеркну: загляните в предлагаемый пример. Я специально выложила небольшой файл.
Это - полная копия книги. Точная копия.
Распознавание там послабее, чем в ФР, поэтому бывает, что какую-то фразу поиском не найти, т. к. она не совсем точно распознана. Но в документе Вы видите её точно так же, как в книге.
"Промахов" в поиске бывает не слишком много (зависит от шрифта и качества сканов), кроме того, всегда находится или строчка под, или строчка над искомой фразой.
Так что бросайте бурчать, а загляните в приложенный файл. ;)
Ещё раз: этот вариант предназначен для вычитки и (может быть) хранения результатов сканов. Для иллюстраций в книгах условно пригоден. Сами иллюстрации имеет смысл хранить отдельно, а файл использовать как помощь в определении их расположения в книге.
Отв: Текстовый pdf из сканов
Но со слоями я тоже видал плохие файлы.:) Часть распознано, часть нет и дано рисунком.
Просто если это книжка, где есть и текст рисунком, и распознанный текст - как он может быть компактнее файла только из рисунков? Вы мне мозг выносите беспощадно. :)
Но я не ради спора, непосредственная реакция просто. Я попробую разобраться с примером - с возрастом лучше-то не становишься. Охти мне, окаянному.:)
Отв: Текстовый pdf из сканов
. дубль
Отв: Текстовый pdf из сканов
Чего-то я не понял - а чем все то же самое, сделанное в ФР и сохраненное в pdf не подходит?
Из ФР, после распознавания текста:
Файл-сохранить как pdf.
В опциях выбрать все или только нужные страницы.
Выставить параметр текст под изображением страницы и готово.
Весит тоже мало, распознает ФР на порядок лучше любого акробата, итог - файл pdf с картинкой и текстом, который можно копировать из pdf и т.п.
Результат, 700 кб, несколько страниц для примера сделал. Открывается даже акробатом 6 версии.
http://narod.ru/disk/1121505001/Zag_zhiv222.pdf.html
Вот как копируется текст из приложенного golma1 файла (стр. 161):
часы в этой ком н ате был и повсюду - большие
будил ь н и к и в в иде М и кк и - М аусов , сте н н ые с
гирька м и , ход и ки с кукуш ко й , электро н н ые со
с ветящ и м ися цифра м и , даже с порти в н ы й хронометр.
Все тикал и не в такт и показы вал и разное
вре м я . Леон б ыл во рву со змея м и . Усевш
ис ь между гусаром королевс ко й гвард и и и
гренадером в меховом кол паке, он с вол н е н ие м
смотрел н а своих отп рысков, которые кре п ко
спал и . П острелята в ы глядел и сеЙl.Jас таки м и
с м ирн ы м и , лежал и , тес но прижавш и с ь друг к
другу, перемешав руки и ноги - п релестное
зрели ще . Во сне у н и х были а н гел ьские л и ч и ки :
безм ятежное в ыраже н и е , кругл ы е розовые
щеч к и , п риоткрытый рот и к , в котором в иден
____________________________________________________
И вот как из моего файла:
Мир населен чудовищами. В этом более других
убеждены люди, чья жизнь проходит среди природы
— вне городов и их каменных стен. Из уст в уста,
из поколения в поколение передаются рассказы о
кровожадных драконах, лесных великанах, гигантских
змеях, других летающих, прыгающих, ползающих и
плавающих монстрах. Что это — порождение ночных
страхов? Или именно в легендах хранится облик реальных
существ, действительно обитающих на Земле,
но еще неведомых науке?
Отв: Текстовый pdf из сканов
Ваш файл будет содержать только распознанный текст. Он не точная копия сканов. Для вычитки он не годится, т.к. текст будет содержать возможные ошибки OCR. А Голмин - будет точной копией сканов, содержать еще (невидимым) и текстовой слой для поиска по книге, а для вычитки так удобнее всего. Нет? Не так? Или Ваш файл тоже будет точной копией?
Отв: Текстовый pdf из сканов
Точная копия.
Отв: Текстовый pdf из сканов
Но раза в 2-3 тяжелее акробатовского. Для вычитки пойдет, для хранения хочется чего-то покомпактней.
Получаемая картинка тоже отличается по качеству.
Поэтому для поиска из близлежащих слов выбираем нечасто встречающееся, можно даже не полностью.
Отв: Текстовый pdf из сканов
... И он сохраняется со всеми ошибками OCR, которые ты не увидел.
В предложенном варианте ты имеешь копию текста.
Этот pdf не предназначен для конвертирования, для копипаста, он служит точной копией скана и очень удобен для вычитки.
Но я ни на чём не настаиваю: каждый делает так, как ему удобнее. Я такой файл отправляю сканировщикам (для хранения) и вычитывальщикам (для вычитки).
Отв: Текстовый pdf из сканов
Голма, TaKir писал:
В самом деле можно и в ФР такое создать, но файлы получаются тяжелее.
Отв: Текстовый pdf из сканов
После этих слов я уже понял о чем в этой теме разговор, а сначала-то и не понял, про что.
Отв: Текстовый pdf из сканов
Вы файлик прежде глянули?
Будет точная копия страниц и нормально распознанный текст. А не тот кошмар, что распознает акробат.
Ты тоже бы файлик глянула, а? Чтобы не говорить не видя, ни о чем.
Я твой глянул, прежде чем сравнивать. ))
Копия страниц и распознанный текст прямо из ФР. Для твоих целей - передача на вычитку и проч.
Я в первом своем посте описал пошагово технологию. Именно для попробовать, если кто не умеет.
Как-то я ожидал, что люди сначала хоть посмотрят мой файл-результат, а потом будут критиковать то, что в глаза не видели, но, ошибся, бывает ))
Отв: Текстовый pdf из сканов
Конечно, я посмотрела. Обижаешь. В-)
Ошибся. Я даже попробовала.
У меня сейчас замечательный скан от niksi, который распознаётся практически без ошибок. Но одну OCR-ошибку я всё-таки нашла. На стр. 16. Хочешь исходник?
Потому что по твоей технологии сделанный pdf содержит такой текст:
Я попробовала и "сохранить как pdf/A" и "передать в pdf". (Размеры: "мой" - 10,3 Мб, при передаче - 2,6 Мб, при сохранении - 229 Мб.) Результат одинаковый - в смысле текста: везде сохранились амперсанд и "т". В сохранённом (229 Мб!) - проявляется при копировании (а значит, поиск тоже промахнулся бы), в переданном - на самом изображении.
Поэтому я и сказала: "со всеми ошибками OCR, которые ты не увидел".
Увидел - исправил, не увидел - так и останется в твоём pdf. В моём же текст будет такой же, как в исходнике. Поиск иногда "промахивается" (из-за плохого распознавания), но бороться с этим довольно легко. Он не предназначен для копирования текста, он нужен только как точная копия книги, в которой можно пользоваться поиском.
И ещё раз: я ни на чём не настаиваю, каждый волен делать так, как считает правильным. Тема для тех, у кого возникли вопросы после знакомства с "моими" pdf.
Отв: Текстовый pdf из сканов
Так.
Давай еще раз.
У меня в файле после ФР имеется картинка+распознанный текст.
Причем видишь ты картинку, а не текст. Текст можешь просто скопировать.
Для чистоты эксперимента посмотри в моем файле страничку с выходными данными. Если скопировать с нее текст, там будет слово "тест", которое не видно, поскольку видна именно картинка.
В твоем случае видим то же самое, сделанное средствами акробата. С гораздо худшим качеством распознавания.
Вопрос - зачем окр слой худшего качества? Для чего он в принципе там нужен?
Может я туплю чрезмерно в эти дни...
Т.е. имеем 2 pdf файла одной и той же книги.
Обе файла - картинка видна, и текст копируется. Оба имеют какие-то ошибки распознавания, скорее всего, если не делать вычитку..
В одном файле текст изначально прилично распознан и сформатирован.
Во втором случае - текст плохо распознан и плохо сформатирован.
Для чего нужен второй вариант?
Отв: Текстовый pdf из сканов
Вижу. После слов "Царева И.Б."
Смотри. Я сохранила одну и ту же книгу двумя методами: твоим и моим. В первом случае - 229 Мб, во втором - 10.
Скажи, что я сделала не так, и я попробую ещё раз.
Отв: Текстовый pdf из сканов
Сделал еще одну книгу. 144 страницы в grayscale.
Изначально пакет в ФР-8 весил 192 Мб.
pdf, сделанный из ФР-8 по описанной мной технологии весит 8,8 Мб.
(http://narod.ru/disk/1134832001/Ryabinin_scan%2Bocr.pdf.html)
Отв: Текстовый pdf из сканов
Ок. Сейчас попробую с "низким" качеством, у меня было "среднее". Всё остальное - так же.
144 страницы - 8,8 Мб. У меня 287
страницразворотов (страниц 574) - 10 Мб. ;)Как сохранится, напишу размер.
update:
18,8 Мб. Почти в два раза больше.
По подсказке izaraya отключила "использовать растровое содержание": картинка стала "мягче", но резкость сильно упала.
Вот для сравнения размеры файлов:
подчёркнутый - мой
"перед." - переданный (со всеми ошибками OCR)
"сохр." - сохранённый: 1 - в pdf/A, 2 - в pdf с текстом под картинками (среднее качество), 3 - то же (низкое качество).
Я всё же останусь при Акробате. ;)
Спасибо за подробности, теперь у других есть возможность выбрать подходящий вариант для себя.
Отв: Текстовый pdf из сканов
Я как бы ни разу не настаиваю, просто хотел выяснить, из-за чего такого важного, чего не может ФР, нужен акробат 9 про, и чем лучше его вариант )
Да, по весу разница около 2 раз в пользу 9-го акробата. С другой стороны - ищется поиском что-то по качественному тексту из ФР на порядок лучше, поскольку слова не разбиты на куски.
Но тут еще такой момент: ФР 9 и 10 версий в принципе делает более раздутые файлы и пакеты, по сравнению с той же 8 версией. (Пакет с одной и той же книгой в 8-м ФР весит 192, а в 9-й версии - 684 МБ).
Так что и на размере pdf это тоже сказывается...
Лорд как-то приводил цифры - в 10-м ФР пакеты со среднего размера книгой при скане в сером могут весить 1,5 гига...
Отв: Текстовый pdf из сканов
Может быть.
В любом случае - разговор получился полезным. Каждый узнал что-то новое, а вообще незнающие получили аж два варианта на выбор. ;)
Так что ещё раз спасибо.
Отв: Текстовый pdf из сканов
Ага, и тебе спасибо! )
Вообще бы совместить оба варианта как-то...
Чтобы и текст на картинке выглядел аккуратно и распознан был хорошо )
Отв: Текстовый pdf из сканов
Спасибо, TaKir, попробую по-вашему, раз точная копия.
И я не критиковала, ни-ни, я спрашивала. :)
Отв: Текстовый pdf из сканов
А что будет, если после распознавания в FR сохранить пакет, а затем открыть его в Акробате и сделать pdf? Единственное - развороты уже не получатся, т.к. при распознавании большинство их режет на страницы. В 10-м FR по методу TaKir-а файл получается очень тяжелым - больше 100 метров в качестве "для web". Но я делала из сканов в несжатых tiff на 600 dpi, поскольку детские книги я так и сканирую. Сам пакет у меня весит около 2-х гигов. Акробат я пока не ставила.
Отв: Текстовый pdf из сканов
Как открыть в Акробате пакет из ФР?
Отв: Текстовый pdf из сканов
Я не знаю как, и не знаю можно ли, потому и спрашиваю. :))
На самом деле я, видимо, просто оттягиваю момент по установке Акробата. Рано я обрадовалась способу TaKir-а. :(
Отв: Текстовый pdf из сканов
На самом деле размер не имеет значения, ведь речь идет о файлах, которые НЕ будут залиты на Либрусек, а предназначены для своего внутреннего потребления. Поэтому, пусть даже файл будет больше, но зато лучше распознанный, значит, с его помощью будет легче искать фразы.
Так что, несмотря на бо́льший размер, отдаю предпочтение этому способу.
И да, Акробат пока не поставил. Да и надо ли? Незнаю-незнаю.
Отв: Текстовый pdf из сканов
Вы, по обыкновению, не желаете заметить, о чем идет речь. Такие файлы должно быть удобно пересылать вычитывальщикам, они предназначены для пересылки друг другу в процессе работы. Поэтому вес, разумеется, имеет большое значение.
Отв: Текстовый pdf из сканов
Вы по обыкновению, стараетесь не замечать того факта, что вычитывальщику потом будет значительно сложнее вычитывать по такому "укороченному" скану.
Лучше потратить нескольку минут на копирование большого, но более хорошего, скана, чем потом тратить несколько дней на работу с укороченным сканом.
А что касается размера, то, напр. когда Roxana сделала скан в виде JPEG, то я сразу сказал, что это не годится и сканы должны быть в виде TIFF с градацией серого. А на вопрос, что это будет слишком много весить, сказал, что мне не составит труда за несколько минут Гигабайт сканов скачать, а она тоже может сильно не заморачиваться, а положить эти сканы в виде зараренных архивов по 100М на FTP депозита(не хотелось сканами захламлять FTP Либрусека). В результате получилось кажется 6 или 8, точно не помню, архивов, так что даже меньше Гигабайта получилось и скачалось влет, точно времени не засекал, примерно за час все архивы.(Это у меня ещё нет Премиум-аккаунта!)
Дык зато теперь FineReader доволен, что ему дадены его любимые 300DPI и сканы хорошего качества! А если бы скачал JPEG-и? Было бы мучение разбирать каждую букву!
(Правда, в этой книжке другая сложность: уж больно много языков задействовано, приходится каждую иноязычную область задавать отдельно, потому что если задать сразу язык русско-англо-немецко-греческо-японо-иврито-китайский, то будет мешанина, буквы из разных алфавитов все поперепутаются)
Так что, как грится,
Отв: Текстовый pdf из сканов
Господа, что это за бред?! Как-то совсем уже не адекватно пошла беседа.
Отв: Текстовый pdf из сканов
А не пойти ли тебе сам знаешь куда?
Лично я считаю бредом слова niksi о бреде.
Я лишь высказал пояснение о том, почему файл с бо́льшим размером может быть лучше, чем с маленьким размером, но менее удобным для вычитки. Небольшой оффтоп, поясняющий суть дела о том, что лучше сначала больше скачать, чем потом долго мучаться.
Отв: Текстовый pdf из сканов
Ты высказал не предположение, а уверенность в том, что JPEG - серый - 300 не пригоден для распознавания в ФР. В отличие от TIFF. Это полный бред. Установленный на личном опыте многих и многих. Легенда для дурачков. Просто эту тему читают не только те, у кого есть опыт в этих делах. Поэтому необходимо было это сказать, а то научишь. Если есть факты по этому вопросу, приводи. А голословные утверждения мы тут не потерпим. :)
Отв: Текстовый pdf из сканов
Где это я высказал уверенность в том, что JPEG - серый - 300 не пригоден?
Да пригоден-пригоден!
Даже более того!
Даже и 96DPI вполне пригоден!
Вопрос лишь в том, что лучше распознается!
Продолжаем оффтоп?
Отв: Текстовый pdf из сканов
Для тех, кто слаще морковки ничего не ел, может быть странным тот факт, что есть что-то слаще морковки. Так и тут.
Если факты противоречат убеждениям niksi, тем хуже для фактов.
Меня вот, например, на Яндексе не забанили.
Кстати, неправда и то, что JPEG обязательно будет иметь меньший размер, чем TIFF.
На Флибусте я уже где-то приводил пример, где один и тот же файл с одним и тем же количеством цветов и DPI имеет гораздо бо́льший вес в JPEG, чем в TIFF и PNG. Правда, как правило, jpeg вроде бы действительно меньше, но бывает и наоборот!
Кроме того, JPEG - сжатие с потерями, значит, действительно, может хуже распознаваться. При этом я вовсе не утверждаю, что такой скан нельзя распознать, я всего лишь говорю о том, что при распознании будет больше ошибок.
Кстати, об офтопе: очень удобный прием использовал niksi: приписать оппоненту то, что он не говорил, а потом с "блеском" опровергнуть свои собственные измышления.
Страницы