Удаление дублей из архивов по 1000 книг. | Либрусек

Вы здесь Главная » Блоги » Блог пользователя Bullfear Удаление дублей из архивов по 1000 книг. Опубликовано вт, 20/01/2009 - 15:27 пользователем Bullfear Есть такая программа myhomelib. Для работы использует архивы либрусека. В этих архивах примерно 20% дублей. В связи с этим возникает вполне закономерное желание эти дубли убрать. pkn написал для этой цели скрипт. Скрипт перловый. Перл можно найти тут, скрипт тут. Скрипт создает копии зип архивов, с полным сохранением структуры и имен файлов, но без дублей. Как его запустить? Устанавливаем перл. По умолчанию ставится C:\Perl\ Скачиваем и копируем скрипт в папку C:\Perl\bin\. Переименовываем его в kop-inp-zip-dedead.pl Качаем списки и распаковываем их в папку папку librusec_update_lang, в корень диска C: Копируем архивы либрусека в E:\Lib.rus.ec - у меня так, если у вас по другому, нужно в параметрах скрипта прописать другой путь. В пути не должно быть пробелов и русских букв. Жмем пуск\выполнить, там пишем cmd и жмем enter. Откроется командная строка. Там пишем cd c:\ - это место куда будут копироваться архивы. После этого выполняем следующую команду C:\Perl\bin\perl5.8.0.exe C:\Perl\bin\kop-inp-zip-dedead.pl C:\librusec_update_lang E:\Lib.rus.ec ru Где C:\Perl\bin\perl5.8.0.exe - путь к exe перла. C:\Perl\bin\kop-inp-zip-dedead.pl - путь к скрипту. C:\librusec_update_lang - путь к спискам из myhomelib. E:\Lib.rus.ec - путь к архивам либрусека. ru - оставить только русские книги. Если написать all - оставит все языки. Идем пить чай. Работа скрипта, в зависимости от мощности вашего компьютера, займет 20 - 30 минут. До обработки, архивы либрусека занимают 18.4 Гб. После обработки 13.8 Гб. Блог пользователя Bullfear Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: kop-librusec-dedead - очень новая версия. Постоянная ссылка (Permalink) Опубликовано пт, 06/03/2009 - 11:33 пользователем pkn Bullfear написал: Скопировать при работающем скрипте не получилось, поэтому выкладываю скриншот. Странно... параметры ОК, вроде должно было нормально сработать... правда, не видно нормально ли загрузились SQL-таблицы... нельзя ли полностью вывод скрипта увидеть? Bullfear написал: Существенно. Представь - лежат архивы в папке. В myhomelib все настроено, и т.д. На винте свободна пара гигабайт. Сделал один раз ярлык и при обновлении архивов либрусека его запускаешь - он чистит лишние дубли, иностранцев и т.п., так как в старых архивах некоторое число файлов постоянно заменяется свежими версиями. После работы скрипта никуда не надо лезть, ничего не надо переименовывать(если получится подружить -dow с фаерволом ;). Убедил. Как руки дойдут - сделаю. Отв: kop-librusec-dedead - очень новая версия. Постоянная ссылка (Permalink) Опубликовано пт, 06/03/2009 - 16:14 пользователем Bullfear Изволь. Распаковка таблиц заняла чуть больше 20 минут. Дальше уже пошло убиение невиновных файлов, посему скрипт был безжалостно остановлен :) И так уже половину придется перекачивать. Кстати по поводу sql... А работать по спискам myhomelib скрипт разучился? Если да, то жаль - было намного быстрее. Отв: kop-librusec-dedead - очень новая версия. Постоянная ссылка (Permalink) Опубликовано пт, 06/03/2009 - 17:21 пользователем pkn Bullfear написал: Изволь. Распаковка таблиц заняла чуть больше 20 минут. Распаковка - это секунды, там парсинг длинный. Но это от компупера зависит, у меня это три минуты занимает :). Но учту, спасибо, если будет возможность - попробую эту часть ускорить. Bullfear написал: Дальше уже пошло убиение невиновных файлов, посему скрипт был безжалостно остановлен :) И так уже половину придется перекачивать. Ну извини... я честно предупреждал: "НЕ пользуйтесь этой опцией, если не уверены." ;) Bullfear написал: Кстати по поводу sql... А работать по спискам myhomelib скрипт разучился? Если да, то жаль - было намного быстрее. Не, это вряд ли получится. Я много пользуюсь частями именно этого скрипта, с SQL-таблицами, и поддерживать два формата - эт я не потяну. Теперь по сути: похоже, там баг в скрипте. При единственном фильтре "по языку ru" он нашел всего 5409 желаемых (wanted) книг из 123760. Не может быть чтобы в таблицах было всего 5 тысяч книг на русском. И у меня такой же примерно результат, даже ещё меньше, так что это не разница в Перле или в SQL-таблицах, а баг в скрипте. Буду искать, как только дойдут руки. Постараюсь не затягивать, но прямо сейчас - не могу. Отв: Удаление дублей из архивов по 1000 книг. Постоянная ссылка (Permalink) Опубликовано сб, 07/03/2009 - 06:16 пользователем Bullfear pkn написал: Но это от компупера зависит, у меня это три минуты занимает :) Ну дык на настольном и у меня будет около 3-х минут. Ты на ноуте пораспаковывай :Р pkn написал: При единственном фильтре "по языку ru" он нашел всего 5409 желаемых (wanted) книг из 123760. Тоесть косяк в единственном фильтре или именно в фильтре по языку? pkn написал: Ну извини... я честно предупреждал: "НЕ пользуйтесь этой опцией, если не уверены." ;) обиженным голосом Но ты не добавлял "... что в скрипте нет бага" :Р pkn написал: Буду искать, как только дойдут руки. Ясно, спасибо. Бум ждать, благо сейчас либрусек работает и это не так критично ;) Отв: Удаление дублей из архивов по 1000 книг. Постоянная ссылка (Permalink) Опубликовано вт, 10/03/2009 - 16:23 пользователем pkn Bullfear написал: обиженным голосом Но ты не добавлял "... что в скрипте нет бага" :Р Баг в скрипте есть всегда. Это аксиома. kop-librusec-dedead - 0.4.3 Постоянная ссылка (Permalink) Опубликовано вт, 10/03/2009 - 16:22 пользователем pkn kop-librusec-dedead верисия 0.4.3 - прицеплена к посту. Изменения: 1. Пофиксен злобный баг. Предыдущими версиями не пользоваться, они глюкавые на всю голову! 2. Добавлена опция -testrun : Делать всё как настоящее, но не писать/стирать никаких zip-архивных файлов. 3. Добавлена возможность перезаписывать поверх исходных файлов. Для этого надо чтобы -do (dirout, выходной директорий) показывал туда же где лежат исходные зипы (dirzip), и присутствовала опция -removeoriginals. Отв: kop-librusec-dedead - 0.4.3 Постоянная ссылка (Permalink) Опубликовано вт, 10/03/2009 - 16:23 пользователем Bullfear Спасибо, щас потестим :) Отв: kop-librusec-dedead - 0.4.3 Постоянная ссылка (Permalink) Опубликовано вт, 10/03/2009 - 16:43 пользователем Bullfear Меня терзают смутные сомнения... На первый взгляд все нормально, однако почти в каждом архиве скрипт находит примерно 250-300 дублей. Так и должно быть? Архивы уже были обработаны старой (безглючной) версией скрипта. Wanted total 96695 Books total 123760 to be squeezed 27065 Или он просто повторно обьединичивает единички? Тогда все в порядке. Из замеченного: быстрее стали грузится таблицы, это гуд :) А вот еще что. WARNING: Bad member name: "Ketrin_A_List_Etika_blstva.fb2" zipf="16988-117987" C этими файлами можно что-то сделать? Отв: kop-librusec-dedead - 0.4.3 Постоянная ссылка (Permalink) Опубликовано вт, 10/03/2009 - 16:56 пользователем pkn Bullfear написал: Или он просто повторно обьединичивает единички? Повторно объединичивает. Bullfear написал: Из замеченного: быстрее стали грузится таблицы, это гуд :) Это тебе показалось :) там ничего не делалось. Bullfear написал: А вот еще что. WARNING: Bad member name: "Ketrin_A_List_Etika_blstva.fb2" zipf="16988-117987" C этими файлами можно что-то сделать? АХЕЗ. Звёздочки в имени разрушают перловые regexp-ы. Я пока не могу научиться как бы их правильно сравнивать. Отв: kop-librusec-dedead - 0.4.3 Постоянная ссылка (Permalink) Опубликовано ср, 11/03/2009 - 00:26 пользователем Bullfear pkn написал: Это тебе показалось :) там ничего не делалось. Странно. Тем не менее факт. Тогда одно из трех: - Я сонный, поэтому думаю медленнее :) - Они эээ... Закешировались виндой, ибо ноут уже недели две не перезагружался. - Что третье? Говорю же - сонный я :Р Отв: kop-librusec-dedead - 0.4.3 Постоянная ссылка (Permalink) Опубликовано пн, 06/04/2009 - 11:36 пользователем lankier pkn написал: Bullfear написал: А вот еще что. WARNING: Bad member name: "Ketrin_A_List_Etika_blstva.fb2" zipf="16988-117987" C этими файлами можно что-то сделать? АХЕЗ. Звёздочки в имени разрушают перловые regexp-ы. Я пока не могу научиться как бы их правильно сравнивать. Можно экранировать переменную - /^\Q$membername\E$/ А можно использовать строковое сравнение вместо regexp (должно быть быстрее) - grep {$_ eq $membername} @FN_G; Отв: kop-librusec-dedead - 0.4.3 Постоянная ссылка (Permalink) Опубликовано пн, 06/04/2009 - 12:37 пользователем pkn lankier написал: pkn написал: Bullfear написал: А вот еще что. WARNING: Bad member name: "Ketrin_A_List_Etika_blstva.fb2" zipf="16988-117987" C этими файлами можно что-то сделать? АХЕЗ. Звёздочки в имени разрушают перловые regexp-ы. Я пока не могу научиться как бы их правильно сравнивать. Можно экранировать переменную - /^\Q$membername\E$/ А можно использовать строковое сравнение вместо regexp (должно быть быстрее) - grep {$_ eq $membername} @FN_G; Спасибо! Перловковар из меня тот ещё... Страницы « первая ‹ предыдущая 1 2	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии weis RE:Прошу переформатировать, распознать, etc... 1 неделя нэнси RE:Подайте бедному копеечку на книжку с литреса... 1 неделя tvv RE:DNS 2 недели sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 2 недели sem14 RE:Серия "Очень прикольная книга", издательство Азбука-классика 2 недели sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 2 недели larin RE:Заблокирован 3 недели konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 месяц sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 2 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 3 месяца tvv RE:faq brainstorm =) 3 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца larin RE:абонемент не обновлен 3 месяца sem14 RE:За иллюминатором (серия) - чего не хватает? 3 месяца Впечатления о книгах mysevra про Митрофанов: На десятой планете (илл. В. Смирнов) (Научная фантастика) 26 04 Читать такую книгу надо было вовремя. Оценка: неплохо mysevra про Гранже: Красная карма [litres] (Исторический детектив, Триллер, Детективы: прочее) 26 04 Один из любимых авторов, хоть в этот раз и показалось немного затянуто. Тем не менее, марочная вещь, хочу оригинал. Оценка: отлично! mysevra про Верн: Діти капітана Гранта [Les Enfants Du Capitaine Grant uk] (Приключения: прочее) 26 04 Мабуть, всі в дитинстві читали цю книгу, принаймні, моє покоління. Цей варіант перекладу українською - мій улюблений. Оценка: отлично! svetik489 про Панов: В сумерках моря [litres] (Триллер, Детективы: прочее) 26 04 фигня какая- то...женско-сопливая Оценка: плохо дядя_Андрей про Я вернусь через тысячу лет 26 04 Первая книга хорошая. Очень хорошая. Помню, как мы зачитывались ей в детстве. Да и в юности, если уж на то пошло. НО! Настораживали всё же некоторые моменты. И, чисто технические, и социологические. Представлены наброски коммунистического ……… Daist про Тимофей Грехов 25 04 Безграмотная хрень с неестественными диалогами. "жить в впроголодь" я ещё смог переварить, но от "я решил назвать его тигройд" блеванул и удалил эту писанину. На автор.тудей отзывы разрешены только от друзей и сплошь хвалебные. valeryma про Белин: Новый каменный век. Том I (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература) 24 04 Занудное писево. Боженька не обидел автора талантом потрындеть на старости лет, но сильно обидел талантом писателя. Оттого в книжке 90 процентов пустого словоблудия.. Оценка: плохо Дей про Ненормальный практик 23 04 Всесильный попаданец всех нагибает и всех трахает. Ничего оригинального. Олег Макаров. про Большаков: Спасти СССР! [litres] (Героическая фантастика, Попаданцы) 22 04 Автор: 1. Зануда 2. Не умеет писать интересно (стиль) 3. Слабый словарный запас пытается компенсировать витиеватостью предложений. Тяжело читать такое. Прочитал 2% и хватит. Оценка: нечитаемо Sello про Евсеев: Романчик (Современная проза) 22 04 Эка, какие петли выписывает порой жизнь: от благоговейного отношения к Солженицыну, Растроповичу до лобзания нонешней монаршей руки, с залипанием губ в 2022 году на межпальцевой развилке. Что же касается собственно опуса, ……… Оценка: неплохо Дей про Шеф повар 21 04 Повествование о тринадцатилетней девочке-попаданке, изложенное от лица местного подростка. Девочка "попадает", осваивается и начинает вовсю прогрессорствовать, поражая широтой знаний. В основном её прогрессорство сводится ……… Yuriko про Поселягин: Кровь Архов [litres] (Боевая фантастика, Космическая фантастика, Попаданцы) 20 04 Почему-то здесь 1 книга, а на флибусте 3 больше впечатлений