pdf vs djvu

Аватар пользователя sd

pdf
djvu
- это дубли: одна и та же книга, графическое отображение, текстовой слой, хорошо сделаны.
Но все-таки вопрос: какой формат предпочтителен при добавлении на сайт?
---
ИМХО: предпочитаю djvu - более компактный, читалки WinDjView и eBookDroid отлично с ним справляются.
НО: сталкивался с тем, что множество людей до сих пор не знают о существовании данного формата

Аватар пользователя larin

Предпочтителен pdf.
Его понимает любая читалка, включая киндл.
Его можно просматривать прям в браузере или проводнике.
Для djvu нужна специальная читалка, не на любом устройстве она есть.
Лучше бы fb2, понятное дело, но при выборе из двух зол - pdf.

Аватар пользователя sd

Спасибо. Объединил в пользу пдф.

Аватар пользователя Drunkenmunky

larin написал:
Предпочтителен pdf.
Его понимает любая читалка, включая киндл.
Его можно просматривать прям в браузере или проводнике.
Для djvu нужна специальная читалка, не на любом устройстве она есть.
Лучше бы fb2, понятное дело, но при выборе из двух зол - pdf.

Можно высказать пожелание при выборе "из двух зол" отдавать предпочтение все-таки более качественному документу?
В частности в приведенном примере качество pdf версии налицо. Это и его малый(для pdf) вес и слой распознанного текста, которого нет в djvu версии.
Как-то так.

Аватар пользователя sd

Drunkenmunky написал:
В частности в приведенном примере качество pdf версии налицо. Это и его малый(для pdf) вес и слой распознанного текста, которого нет в djvu версии.

Моя вина, пропустил отсутствие текстового слоя у дежавю. Конечно, его отсутствие дает несомненные преимущества пдф - там такой слой есть.

sd написал:
Моя вина, пропустил отсутствие текстового слоя у дежавю. Конечно, его отсутствие дает несомненные преимущества пдф - там такой слой есть.

Текстовый слой у djvu нетрудно добавить: для этого я обычно использую djvubind который запускает tesseract и генерирует текстовый слой. В результате, можно делать поиск по djvu так же как и в pdf.

Аватар пользователя sd

tigran.aivazian написал:
Текстовый слой у djvu нетрудно добавить

Да, я это знаю. Тема возникла из-за моей невнимательности - проверил наличие текстового слоя только у одного файла.
Хотя ошибка не отменяет вопрос - если бы оба файла содержали текстовой слой, то какой бы был предпочтителен для библиотеки.

Ониксы спокойно читают дежавю, но с пдф спотыкаются, не открывая полностью страницы или вынуждая перемещать текст чуть ли не по строчке. Так же затруднительно выставлять масштаб в отличие от дежавю.
Для меня единственный плюс пдф - наличие конвертора в фб2, чем и пользуюсь.

Аватар пользователя Isais

Плюс к достоинствам ПДФ-а: не портит картинки.
Если внимательно, а не мельком посмотреть на картинки в дежавю, волосы дыбом: черно-серые пятна вместо линий, цветность потеряна, полутона убиты... Короче говоря, легкий дежавю насмерть гробит иллюстрации, а при хорошем качестве картинок получает просто неприподъёмный.

Если книга сканированная и djvu сделан правильно (например, нет дефектов с иллюстрациями упомянутых Isais), то конечно предпочтителен djvu. Если книга "вёрстана" (т.е. "typeset", по-русски "вёрстана"?) то конечно будет глупо менять уровень атомарности с глифов на страницы, т.е. фактически "сканировать" её. Когда я встречаю сканированные (где каждая страница это картинка --- слово "сканированная" некоторые люди употребляют в смысле OCR, я совсем не это имею ввиду) книги в формате pdf то, прежде чем добавить их в свою библиотеку я всегда конвертирую в djvu формат. Для большинства книг это означает сокращение размера в 2-3 раза.

Isais, между прочим, размер djvu (с правильно сделанными картинками) почти никогда (т.е. кроме случаев JB2 кодировки) не превысит размер соответствующего pdf файла. В крайне редких случаях (из моего опыта, примерно, 10-15 книг на каждую тысячу) размер окажется на 10% больше, НО в таких случаях pdf вообще почти не читаем на arm архитектурах, т.е. нужен очень мощный Intel процессор, чтобы декодировать и рендировать файл.

Кстати, я забыл упомянуть самое главное преимущество djvu: страницы отображаются на эл. читалках с arm процессорами примерно от 5 до 30 раз быстрее, чем страницы соответствующего pdf файла. Я являюсь автором djvu подсистемы для разных читалок (от древнего Lbook V3 до современных Kindle, Kobo и др.) --- так что знаю, о чём говорю :)

Аватар пользователя larin

tigran.aivazian написал:
Я являюсь автором djvu подсистемы для разных читалок (от древнего Lbook V3 до современных Kindle, Kobo и др.) --- так что знаю, о чём говорю :)

Я являюсь всего лишь пользователем разных читалок, впрочем, как и подавляющее большинство посетителей библиотеки.
Так вот, киндл джвю не показывает. Не то что быстрее, вообще никак.
Это открытая информация - https://kdp.amazon.com/en_US/help/topic/G200634390.

larin написал:
tigran.aivazian написал:
Я являюсь автором djvu подсистемы для разных читалок (от древнего Lbook V3 до современных Kindle, Kobo и др.) --- так что знаю, о чём говорю :)

Я являюсь всего лишь пользователем разных читалок, впрочем, как и подавляющее большинство посетителей библиотеки.
Так вот, киндл джвю не показывает. Не то что быстрее, вообще никак.
Это открытая информация - https://kdp.amazon.com/en_US/help/topic/G200634390.

Пожимая плечами, он и FB2 не поддерживает...

Друзья, ни один разумный человек не станет пользоваться коммерческим дер..ом, устанавливаемым на читалках космическими паразитами, мотивацией которых является получение выгоды с простачков согласных платить деньги за книги, т.е. за последовательность нулей и единиц, которая в принципе и фундаментально _никогда_ не может быть чьей-то "частной собственностью". Когда вы покупаете читалку, первое, что необходимо сделать это установить Koreader и CoolReader. Точнее, так было раньше, а сейчас (уже несколько месяцев), даже одного Koreader-a вполне хватает, ибо его способность обращения с fb2 файлами уже догнала (и перегнала) способности CoolReader-a. Так вот, наша программа Koreader прекрасно работает и с djvu и с fb2 и со всеми остальными форматами. Я предполагал, что читатель (моих слов) осведомлён о таких простых вещах и пользуется только Koreader-ом (а чем же ещё?). Неужели есть ещё на планете такие "динозавры", которые пользуются коммерческими программами? Проснитесь --- новая эпоха всеобщего братства на носу и в ней никаких "майкросовтов" или "виндоузов" уже не будет. А вот Linux будет, и Library Genesis будет основным планетарным ресурсом книг, и надеюсь Либрусек тоже в определённой мере (ровно в той мере, в какой мы --- братья и сёстры --- трудимся на общее благо).

Аватар пользователя Дама пик

Спасибо, для fb2 меня и AlReader устраивает.
А для других форматов есть специальные программы чтения. Комбайны всегда проигрывают специальным машинам, по моему наблюдению.

Дама пик написал:
Комбайны всегда проигрывают специальным машинам, по моему наблюдению.

Это наблюдение верное и буквально до недавнего времени я его придерживался, т.е. использовал Koreader для pdf и djvu, a CoolReader для fb2 и epub. Но несколько недель назад я вернулся к этому вопросу из любопытства. Точнее комбинация любопытства ("смогли ли смертные продолжать делать что-то полезное, когда я 'ушёл на пенсию'" :) и практической нужды (для коррекции опечаток в fb2 необходима функция выделения текста, а в CoolReader-е её, к сожалению, пока нет. Хотя я напомнил Сергею Власову об этом и он сказал, что уже работает в этом направлении). Так вот, проверка и анализ качества рендеринга fb2 файла обеими программами (в идентичных режимах) показала, что Koreader не уступает в качестве, а, следовательно, в общем превосходит CoolReader (т.е. с учётом дополнительных функций, которых пока нет в CoolReader-e). Для полноты и точности отмечу, что эти результаты верны только на девайсах с очень высоким разрешением, таких как Kobo Aura One (7.8" 300dpi). А на низких разрешениях, например Kobo Mini или старые поколения Kindle, CoolReader продолжает лидировать по качеству рендеринга fb2.

Вот и получилось "исключение из правил" --- т.е. "комбайн" победил специализированную программу.

И ещё скажу: я был очень обрадован тем, что и без моего активного участия умные ребята из разных стран продолжают очень даже неплохо поддерживать и улучшать Koreader. Это было приятно и стало спокойно на сердце. Могу заниматься тем, чем я занимаюсь в данный момент и не пытаться "брать всё на свои плечи" :)

Аватар пользователя larin

У любой коммерческой компании мотивацией является получение выгоды. Обычно это записано прямо в уставе.
Я не настолько религиозен, чтоб меня это занимало.

На сегодня киндл - лучшая читалка по весу, качеству экрана и цене. Все остальные сильно хуже или сильно дороже, часто одновременно. Понятно, что они рассчитывают отбиться на продаже книг. Удачи. Но, к сожалению, штатной возможности установить на него коридер не предусмотрено. Да вроде и не надо, и так всё работает.

FB2 элементарно конвертируется в любой другой формат, для того и разрабатывался. Поэтому fb2-книга отправляется на киндл одной кнопкой прям с Либрусека, что характерно, бесплатно, pdf - аналогично, а вот djvu - нет. Не очень понимаю чем тут поможет ваша программа, письма киндлу обрабатывает не она.

larin написал:
Да вроде и не надо, и так всё работает.

Без Koreader-a читать книги по физике и математике на устройствах с размером экрана меньше 9 дюймов невозможно. А с Koreader-ом даже на 5-дюймовой Kobo Mini вполне читабельно. Даже если отвлечься от функции "realtime image analysis with recombining of decoded atoms into any rectangular area", в простонародье именуемой "reflow", потому что так была названа аналогичная функция в Adobe Digital Editions и мы вынуждены были использовать это название несмотря на то, что наша функция примерно в миллион раз сложнее и умнее, чем у Adobe. Итак, даже без этой функции, Koreader обрезает поля и использует всё пространство экрана и делает это правильно (т.е. в Kindle тоже есть аналогичная функция, но она работает неправильно, т.е. на большинстве файлов проваливается) --- а без этого невозможно читать изначально печатные издания предназначенные для стандартных размеров.

Киндл в руках не держал, ничего сказать про него не могу.
Пользовался Покетом. Что понравилось - подсветка. Можно спокойно читать и ночью. Голосовой движок встроен (для тех, у кого садится зрение - само то). Перелистывание сенсорным экраном и кнопками. Читает все форматы кроме коммерческих амазоновских. Текстовые Pdf переформатирует под экран или режет. Читал "Науку и жизнь" в Djvu. Буквы мелковатые, но читать можно (разворачивал страницу поперек). За три года упахал книжку.

Все зависит от файлов.
Текстовый PDF однозначно лучше Djvu.
Графический PDF (c текстовым слоем) и Djvu (с текстовым слоем) - надо смотреть по качеству файлов.
Для чисто текстовых книг с Ч\Б рисунками - выигрыш будет у Djvu bit.
Если кодировали книгу с серыми\цветными картинками и кодировали в Djvu skan - искажения будут сильные но и размер будет меньше чем в PDF.
Если кодировали в Djvu foto - искажений нет, но размер не отличается от Графического PDF.
Возможно - кодирование Djvu вклейкой картинок. Искажений нет, но размер намного меньше чем при кодировании в Djvu foto. Может быть сравним с текстовыми PDF.
Возможно - Djvu c раскраской. Размер почти не отличается от Djvu bit.
Возможно - Djvu перекодированный из текстовых PDF.

Полностью согласен с твоим анализом, Lyka :) Именно это я и хотел сказать, но поленился перечислять детали разных случаев.

Большинство книг, которые я создаю (или точнее создавал, ибо я уже много лет как бы "на пенсии" :) либо вообще без картинок, либо с ч/б картинками. И в таких ситуациях по всем параметрам (размер, качество и т.д.) побеждает именно djvu. Кстати, случай цветных картинок --- именно тот, в котором я не утруждаюсь конверсией из pdf в djvu, т.е. добавляю в свою библиотеку pdf (если он изначальный), ибо знаю что экономии размера (в этом, редком для меня, случае) практически не будет.

X