Типы файлов

Аватар пользователя larin

Навёл порядок в типах файлов.
В итоге осталось шесть текстовых форматов: chm, doc, epub, fb2, html, rtf, txt и два графических: djvu pdf
Все rar распаковал, все iso и прочий мусор поудалял.
Все виды вордовых и околовордовых файлов сложил в doc, независимо от версии.
Одиночные картинки поудалял, пачки собрал в pdf.

Обнаружилось несколько тысяч неправильно атрибутированных файлов, в самых разных комбинациях. Всё исправил.
Среди fb2 всё было почти идеально, а с остальным - мрак и ужас.
Теперь можно быть почти уверенным, что если скачиваешь txt, то внутри архива окажется txt, а не doc или pdf.

Возобновил генерацию ежедневных архивов /daily, в добавлении к дампам базы /sql.
Отказался от деления на fb2 и usr - прочее, теперь для каждого типа генерируется свой архив, максимально до 8 в день, реально меньше. Можно забирать только интересующее.
Если книга состоит из одного файла, то внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними.
В конце месяца буду делать общий месячный, а дневные удалять.
Удалённые книги в архивы не кладу, хотя на диске они есть. Экономия.

Аватар пользователя golma1

Удобно.
Для месячных архивов будет своя ссылка?

Аватар пользователя larin

golma1 написал:
Удобно.
Для месячных архивов будет своя ссылка?

Лежат в той же папке
Аватар пользователя golma1

larin написал:
golma1 написал:
Удобно.
Для месячных архивов будет своя ссылка?

Лежат в той же папке

Да, вижу. Спасибо.

larin написал:
Навёл порядок в типах файлов.
В итоге осталось шесть текстовых форматов: chm, doc, epub, fb2, html, rtf, txt и два графических: djvu pdf
Все rar распаковал, все iso и прочий мусор поудалял.
Все виды вордовых и околовордовых файлов сложил в doc, независимо от версии.
Одиночные картинки поудалял, пачки собрал в pdf.
Если книга состоит из одного файла, то внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними.
В конце месяца буду делать общий месячный, а дневные удалять.
Удалённые книги в архивы не кладу, хотя на диске они есть. Экономия.

Два вопроса:
1. на выборе типа файлов архивы все-таки показывает:
fb2: 310587
pdf: 38106
djvu: 35622
epub: 21394
doc: 8239
rtf: 1380
txt: 1099
html: 639
chm: 190
rar: 57
zip: 9
2. Если в течении месяца будет например, конвертирована книга из TXT (загруженная в этом месяце) в FB2, то в месячном архиве будет сколько файлов? Два или один?
Аналогичный вопрос для измененных файлов FB2.
Аватар пользователя larin

Lyka написал:
larin написал:

rar: 57
zip: 9

Да, слегка недожал. Сегодня добью

Lyka написал:

2. Если в течении месяца будет например, конвертирована книга из TXT (загруженная в этом месяце) в FB2, то в месячном архиве будет сколько файлов? Два или один?
Аналогичный вопрос для измененных файлов FB2.

Один, последний.
Удалённые нет смысла растаскивать, они нужны только для отката вандализма.
Аватар пользователя larin

Lyka написал:

rar: 57
zip: 9

Да, слегка недожал. Сегодня добью

Lyka написал:

2. Если в течении месяца будет например, конвертирована книга из TXT (загруженная в этом месяце) в FB2, то в месячном архиве будет сколько файлов? Два или один?
Аналогичный вопрос для измененных файлов FB2.

Один, последний.
Удалённые нет смысла растаскивать, они нужны только для отката вандализма.

larin написал:
Lyka написал:

rar: 57
zip: 9

Да, слегка недожал. Сегодня добью

Добили. Лежит труп всех остальных файлов.

Обалдеть, какая огромная работа.
Спасибо Вам за то, что Вы делаете!

Аватар пользователя STAR-MAN

Кстати, не видел расшифровку типов файла, точнее расширение файлов, которые здесь могут присутствовать.
Присобачить в отдельной теме? Рассмотрите и решите, нужно или нет такое.
Типу что такое эпубля, фбтуха, дока и прочие - что жрет и что принимает. Как открыть и где и чем.

STAR-MAN написал:
Кстати, не видел расшифровку типов файла, точнее расширение файлов, которые здесь могут присутствовать.
Присобачить в отдельной теме? Рассмотрите и решите, нужно или нет такое.
Типу что такое эпубля, фбтуха, дока и прочие - что жрет и что принимает. Как открыть и где и чем.

Что-то типа http://lib.rus.ec/soft?

larin написал:
Отказался от деления на fb2 и usr - прочее, теперь для каждого типа генерируется свой архив

Планируется ли аналогичная "генерация" или, скажем, пересборка ранее выложенных на торренты usr-архивов?

larin написал:
внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними

Как быть с fbd? Было бы неплохо в отдельный архив. Или, может, планируется отдельный же sql с описаниями?
Также было бы неплохо добавить колонку с CRC32.
larin написал:
В конце месяца буду делать общий месячный, а дневные удалять

Каков срок хранения "общего месячного" архива?
Аватар пользователя larin

Drunkenmunky написал:
larin написал:
Отказался от деления на fb2 и usr - прочее, теперь для каждого типа генерируется свой архив

Планируется ли аналогичная "генерация" или, скажем, пересборка ранее выложенных на торренты usr-архивов?

Со временем планируется.
То, что сейчас лежит на торрентах, оно реально ужасно.
Видимо подниму раздачу прям с сервера.

Drunkenmunky написал:

larin написал:
внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними

Как быть с fbd? Было бы неплохо в отдельный архив. Или, может, планируется отдельный же sql с описаниями?
Также было бы неплохо добавить колонку с CRC32.

sql лежит в /sql.
в нём есть md5

Drunkenmunky написал:
larin написал:
В конце месяца буду делать общий месячный, а дневные удалять

Каков срок хранения "общего месячного" архива?

Бессрочно.
Возможно, буду изредка пересобирать, для удаления удалённого.

larin написал:
Drunkenmunky написал:

larin написал:
внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними

Как быть с fbd? Было бы неплохо в отдельный архив. Или, может, планируется отдельный же sql с описаниями?
Также было бы неплохо добавить колонку с CRC32.

sql лежит в /sql.
в нём есть md5

Для получения md5 архивированного файла (если есть такая необходимость) его необходимо распаковать на диск. Это очень плохо сказывается на скорости обработки\синхронизации и т.д. большого количества файлов в разных архивах. Не говоря уже о скорости получения самого md5.
В то время как crc32 отдельного файла уже содержится в info блоке архива.
Колонка с crc32 была бы полезной. Могу более развернуто привести пару примеров.

larin написал:
Drunkenmunky написал:
larin написал:
Отказался от деления на fb2 и usr - прочее, теперь для каждого типа генерируется свой архив

Планируется ли аналогичная "генерация" или, скажем, пересборка ранее выложенных на торренты usr-архивов?

Со временем планируется.
То, что сейчас лежит на торрентах, оно реально ужасно.
Видимо подниму раздачу прям с сервера.

Многосотнемегабайтные PDF, форматы 10, ibc и т.д.
Цитата:
Drunkenmunky написал:
larin написал:
В конце месяца буду делать общий месячный, а дневные удалять

Каков срок хранения "общего месячного" архива?

Бессрочно.
Возможно, буду изредка пересобирать, для удаления удалённого.

Давние можно пересобирать раз в год. Текущий - с задержкой в неделю-две.
Аватар пользователя larin

Lyka написал:

Многосотнемегабайтные PDF, форматы 10, ibc и т.д.

никаких ibc нету. Только PDF и DJVU.
Многосотмегабайтных (>200M) довольно мало, меньше сотни.

Lyka написал:

Давние можно пересобирать раз в год. Текущий - с задержкой в неделю-две.

где-то так.

Огромная благодарность за Ваш труд. Вы делаете неоценимое благо для всего общества!

X