Типы файлов

17 сообщений / 0 новое
Последняя публикация
Типы файлов

Навёл порядок в типах файлов.
В итоге осталось шесть текстовых форматов: chm, doc, epub, fb2, html, rtf, txt и два графических: djvu pdf
Все rar распаковал, все iso и прочий мусор поудалял.
Все виды вордовых и околовордовых файлов сложил в doc, независимо от версии.
Одиночные картинки поудалял, пачки собрал в pdf.

Обнаружилось несколько тысяч неправильно атрибутированных файлов, в самых разных комбинациях. Всё исправил.
Среди fb2 всё было почти идеально, а с остальным - мрак и ужас.
Теперь можно быть почти уверенным, что если скачиваешь txt, то внутри архива окажется txt, а не doc или pdf.

Возобновил генерацию ежедневных архивов /daily, в добавлении к дампам базы /sql.
Отказался от деления на fb2 и usr - прочее, теперь для каждого типа генерируется свой архив, максимально до 8 в день, реально меньше. Можно забирать только интересующее.
Если книга состоит из одного файла, то внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними.
В конце месяца буду делать общий месячный, а дневные удалять.
Удалённые книги в архивы не кладу, хотя на диске они есть. Экономия.

RE:Типы файлов

Удобно.
Для месячных архивов будет своя ссылка?

RE:Типы файлов

golma1 написал:
Удобно.
Для месячных архивов будет своя ссылка?

Лежат в той же папке
RE:Типы файлов

larin написал:
golma1 написал:
Удобно.
Для месячных архивов будет своя ссылка?

Лежат в той же папке

Да, вижу. Спасибо.
RE:Типы файлов

larin написал:
Навёл порядок в типах файлов.
В итоге осталось шесть текстовых форматов: chm, doc, epub, fb2, html, rtf, txt и два графических: djvu pdf
Все rar распаковал, все iso и прочий мусор поудалял.
Все виды вордовых и околовордовых файлов сложил в doc, независимо от версии.
Одиночные картинки поудалял, пачки собрал в pdf.
Если книга состоит из одного файла, то внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними.
В конце месяца буду делать общий месячный, а дневные удалять.
Удалённые книги в архивы не кладу, хотя на диске они есть. Экономия.

Два вопроса:
1. на выборе типа файлов архивы все-таки показывает:
fb2: 310587
pdf: 38106
djvu: 35622
epub: 21394
doc: 8239
rtf: 1380
txt: 1099
html: 639
chm: 190
rar: 57
zip: 9
2. Если в течении месяца будет например, конвертирована книга из TXT (загруженная в этом месяце) в FB2, то в месячном архиве будет сколько файлов? Два или один?
Аналогичный вопрос для измененных файлов FB2.
RE:Типы файлов

Lyka написал:
larin написал:

rar: 57
zip: 9

Да, слегка недожал. Сегодня добью

Lyka написал:

2. Если в течении месяца будет например, конвертирована книга из TXT (загруженная в этом месяце) в FB2, то в месячном архиве будет сколько файлов? Два или один?
Аналогичный вопрос для измененных файлов FB2.

Один, последний.
Удалённые нет смысла растаскивать, они нужны только для отката вандализма.
RE:Типы файлов

Lyka написал:

rar: 57
zip: 9

Да, слегка недожал. Сегодня добью

Lyka написал:

2. Если в течении месяца будет например, конвертирована книга из TXT (загруженная в этом месяце) в FB2, то в месячном архиве будет сколько файлов? Два или один?
Аналогичный вопрос для измененных файлов FB2.

Один, последний.
Удалённые нет смысла растаскивать, они нужны только для отката вандализма.
RE:Типы файлов

larin написал:
Lyka написал:

rar: 57
zip: 9

Да, слегка недожал. Сегодня добью

Добили. Лежит труп всех остальных файлов.
RE:Типы файлов

Обалдеть, какая огромная работа.
Спасибо Вам за то, что Вы делаете!

RE:Типы файлов

Кстати, не видел расшифровку типов файла, точнее расширение файлов, которые здесь могут присутствовать.
Присобачить в отдельной теме? Рассмотрите и решите, нужно или нет такое.
Типу что такое эпубля, фбтуха, дока и прочие - что жрет и что принимает. Как открыть и где и чем.

RE:Типы файлов

STAR-MAN написал:
Кстати, не видел расшифровку типов файла, точнее расширение файлов, которые здесь могут присутствовать.
Присобачить в отдельной теме? Рассмотрите и решите, нужно или нет такое.
Типу что такое эпубля, фбтуха, дока и прочие - что жрет и что принимает. Как открыть и где и чем.

Что-то типа http://lib.rus.ec/soft?
RE:Типы файлов

larin написал:
Отказался от деления на fb2 и usr - прочее, теперь для каждого типа генерируется свой архив

Планируется ли аналогичная "генерация" или, скажем, пересборка ранее выложенных на торренты usr-архивов?

larin написал:
внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними

Как быть с fbd? Было бы неплохо в отдельный архив. Или, может, планируется отдельный же sql с описаниями?
Также было бы неплохо добавить колонку с CRC32.
larin написал:
В конце месяца буду делать общий месячный, а дневные удалять

Каков срок хранения "общего месячного" архива?
RE:Типы файлов

Drunkenmunky написал:
larin написал:
Отказался от деления на fb2 и usr - прочее, теперь для каждого типа генерируется свой архив

Планируется ли аналогичная "генерация" или, скажем, пересборка ранее выложенных на торренты usr-архивов?

Со временем планируется.
То, что сейчас лежит на торрентах, оно реально ужасно.
Видимо подниму раздачу прям с сервера.

Drunkenmunky написал:

larin написал:
внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними

Как быть с fbd? Было бы неплохо в отдельный архив. Или, может, планируется отдельный же sql с описаниями?
Также было бы неплохо добавить колонку с CRC32.

sql лежит в /sql.
в нём есть md5

Drunkenmunky написал:
larin написал:
В конце месяца буду делать общий месячный, а дневные удалять

Каков срок хранения "общего месячного" архива?

Бессрочно.
Возможно, буду изредка пересобирать, для удаления удалённого.
RE:Типы файлов

larin написал:
Drunkenmunky написал:

larin написал:
внутри архива будет этот файл с именем ID.TYPE, например 610418.doc, если из нескольких, то в архиве будет zip с ними

Как быть с fbd? Было бы неплохо в отдельный архив. Или, может, планируется отдельный же sql с описаниями?
Также было бы неплохо добавить колонку с CRC32.

sql лежит в /sql.
в нём есть md5

Для получения md5 архивированного файла (если есть такая необходимость) его необходимо распаковать на диск. Это очень плохо сказывается на скорости обработки\синхронизации и т.д. большого количества файлов в разных архивах. Не говоря уже о скорости получения самого md5.
В то время как crc32 отдельного файла уже содержится в info блоке архива.
Колонка с crc32 была бы полезной. Могу более развернуто привести пару примеров.

RE:Типы файлов

larin написал:
Drunkenmunky написал:
larin написал:
Отказался от деления на fb2 и usr - прочее, теперь для каждого типа генерируется свой архив

Планируется ли аналогичная "генерация" или, скажем, пересборка ранее выложенных на торренты usr-архивов?

Со временем планируется.
То, что сейчас лежит на торрентах, оно реально ужасно.
Видимо подниму раздачу прям с сервера.

Многосотнемегабайтные PDF, форматы 10, ibc и т.д.
Цитата:
Drunkenmunky написал:
larin написал:
В конце месяца буду делать общий месячный, а дневные удалять

Каков срок хранения "общего месячного" архива?

Бессрочно.
Возможно, буду изредка пересобирать, для удаления удалённого.

Давние можно пересобирать раз в год. Текущий - с задержкой в неделю-две.
RE:Типы файлов

Lyka написал:

Многосотнемегабайтные PDF, форматы 10, ibc и т.д.

никаких ibc нету. Только PDF и DJVU.
Многосотмегабайтных (>200M) довольно мало, меньше сотни.

Lyka написал:

Давние можно пересобирать раз в год. Текущий - с задержкой в неделю-две.

где-то так.

RE:Типы файлов

Огромная благодарность за Ваш труд. Вы делаете неоценимое благо для всего общества!

Войдите или зарегистрируйтесь, чтобы отправлять комментарии
X