Графические форматы и архиваторы

Люди!

Не используйте архиваторы для графических форматов (.pdf и .djvu).
Эффект от них близок к нулю (максимум 5% в зависимости от содержимого для .pdf и часто отрицательный для .djvu).
А предварительную идентификацию файлов затрудняет изрядно.

Писано по мотивам сверки залитого мной файла с версией на файлообменнике.

Комментарии

Не так всё однозначно с архиваторами и .pdf/.djvu. Размер они действительно не уменьшают, зато архиваторы обеспечивают контроль целостности файла и, если озаботился автор и применяется архиватор RAR, восстановление поврежденных файлов. Кроме того, полезно класть в архив краткое описание книги, типа description.html, что я всегда для сделанных мною сканов делаю. Обычно туда помещаю страницу с выходными данными и оглавление. Это помогает при поиске нужного.

ivanstor написал:
архиваторы обеспечивают контроль целостности файла

md5/sha256/sha512/...

ivanstor написал:
если озаботился автор и применяется архиватор RAR, восстановление поврежденных файлов.

Знаем мы это.
Эффективность достаточно условна (либо неприличный рост размера).

ivanstor написал:
Кроме того, полезно класть в архив краткое описание книги, типа description.html, что я всегда для сделанных мною сканов делаю. Обычно туда помещаю страницу с выходными данными и оглавление. Это помогает при поиске нужного.

Для .djvu не скажу, для .pdf - достаточно тривиально включается в состав файла.

Anarchist написал:
ivanstor писал:
архиваторы обеспечивают контроль целостности файла

md5/sha256/sha512/...


Я тоже стараюсь придерживаться технически грамотных и целесообразных решений, но простому смертному гораздо проще посмотреть на ошибки WinRAR'а, чем качать проги для подсчёта суммы и изучать их. И файл с контрольными суммами не потеряется в процессе хранения/перекладывания.

При сжатии PDF с текстом эффект есть. У меня лежит "XHTML - учебный курс", исходный 10 344 170 б, в архиве (RAR) - 6 898 245 б. Содержит текст с картинками. "Perl за 24 часа" ужался почти в 2 раза.
Вот DjVU и PDF, состоящий целиком из картинок, сжиматься не будут.

По моему опыту (для случая .pdf) скажу, что всё не так однозначно.
Практически исключительно текстовый .pdf удалось ужать на целых 10% (ИМХО - не та величина, ради которой стоит упираться).
Да и помимо текста роялит как размер файла, так и форматирование

вово, есть разница отсканированые картинки текста, и чистый текст с иллюстрациями

Проблема состоит в том, что периодически появляются ошибки или обрывы связи.
Если pdf не заархивирован, то как контролировать скаченный файл на предмет ошибок?
Пролистывать каждый раз до сто двадцать десятой страницы, где вылезет ошибка?
Нет, это не наш метод - проще натравить архиватор на всю папку download/txt на предмет тестирования всех скаченных архивов.

Под ответственность заливающего (контроль хотя бы размера в байтах).
Как, впрочем, и при заливке архива.

От заливки архива отличается только тем, что вместо ничего ты получаешь что-то.

X