Вы здесьУдаление дублей из архивов по 1000 книг.
Опубликовано вт, 20/01/2009 - 15:27 пользователем Bullfear
Есть такая программа myhomelib. Для работы использует архивы либрусека. В этих архивах примерно 20% дублей. В связи с этим возникает вполне закономерное желание эти дубли убрать. pkn написал для этой цели скрипт. Скрипт перловый.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
DGOBLEK RE:Прошу переформатировать, распознать, etc... 7 часов
Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 17 часов konst1 RE:Ух, как я не люблю спамеров! 2 дня нэнси RE:Подайте бедному копеечку на книжку с литреса... 2 недели tvv RE:DNS 2 недели sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 2 недели sem14 RE:Серия "Очень прикольная книга", издательство Азбука-классика 3 недели larin RE:Заблокирован 4 недели konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 3 месяца tvv RE:faq brainstorm =) 3 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца larin RE:абонемент не обновлен 3 месяца Впечатления о книгах
vladimir1098 про Круз: Эпоха мёртвых. Начало (Боевая фантастика, Постапокалипсис)
01 05 Я бы с казал что эта книга занимает в постапокалиптической фантастике то место которое занимает в юморе Евгений Петросян. А в остальном конечно твёрдая пятёрка.
Kutulik про Ракитин: Неординарные преступники и преступления. Книга 10 (Психология, Юриспруденция, Публицистика, Документальная литература)
01 05 Спасибо, отлично)) Осталась только американские трагедии 12 и всё
Дей про Доктор Фальк
01 05 Кто сунул это в детективную фантастику? Нет там фантастики. И какое отношение третья книга имеет к Фальку? Скучно. Очень скучно, натужно и неинтересно.
Green Bug про Максимов: Черный ксеноархеолог [litres] (Космическая фантастика, Научная фантастика, Современная проза)
30 04 Начиналось неплохо, но дальше пошла религиозная и политическая пропаганда в совершенно нелитературных объёмах. Нечитаемо. Оценка: нечитаемо
Дей про Колдун Российской империи
30 04 После прочтения 4 частей серии мне кажется, что повествование сильно выиграло бы, если бы сюжет ограничился детективными расследованиями в таком антураже с участием необычного дива. Без политики, завоевания миров и вот этого вот всего.
Kutulik про Ракитин: Неординарные преступники и преступления. Книга 6 (Психология, Юриспруденция, Публицистика, Документальная литература)
29 04 Очень хорошо, ждем 7-10 и серия закрыта. Останется только найти Американские трагедии 12 и всё, можно сказать все криминальные книги Ракитина закрыты Оценка: отлично!
Aleks_Sim про Ракитин: Неординарные преступники и преступления. Книга 4 (Психология, Юриспруденция, Публицистика, Документальная литература)
29 04 Для Kutulik - продолжение будет скоро, Американские трагедии 12 - когда появится.
udrees про Торп: Рогал Дорн: Крестоносец Императора [ЛП] (Эпическая фантастика)
29 04 Ничего особенного, то же кровавое подчинение ветвей человечества. Описание примарха неполное. Книга для любителей Warhammer 40000 для полной коллекции. Концовка на мой взгляд портит повествование. Оценка: неплохо
udrees про Кристо: Ночная охота [litres] (Героическая фантастика, Фэнтези, Мистика)
29 04 Женская книга про любовь-морковь только в мире монстров и людей. Написано в основном о чувствах, переживаниях, эмоциях, которые испытывают персонажи. Действий не так много, как хотелось бы. Даже редкие сражения описаны не ……… Оценка: плохо
Barbud про Кулешов: Казачий повар. Том 1 (Альтернативная история, Исторические приключения, Самиздат, сетевая литература)
28 04 Что-то совсем бредовое, нелогичное и стиль изложения - картон картоном. Не советую. Оценка: нечитаемо
Kutulik про Ракитин: Неординарные преступники и преступления. Книга 4 (Психология, Юриспруденция, Публицистика, Документальная литература)
28 04 А есть продолжения? Там если не ошибаюсь 10 книг И есть ли Американские трагедии 12?
RedRoses3 про Абдуллаев: Возмездие Байкала (Детективы: прочее)
28 04 Почему-то Абдуллаев настойчиво утверждает что " Над пропастью во ржи! написал Стейнбек, а не Сэлинжер.... |
Комментарии
Отв: kop-librusec-dedead - очень новая версия.
Странно... параметры ОК, вроде должно было нормально сработать... правда, не видно нормально ли загрузились SQL-таблицы... нельзя ли полностью вывод скрипта увидеть?
Убедил. Как руки дойдут - сделаю.
Отв: kop-librusec-dedead - очень новая версия.
Изволь. Распаковка таблиц заняла чуть больше 20 минут. Дальше уже пошло убиение невиновных файлов, посему скрипт был безжалостно остановлен :) И так уже половину придется перекачивать.

Кстати по поводу sql... А работать по спискам myhomelib скрипт разучился? Если да, то жаль - было намного быстрее.
Отв: kop-librusec-dedead - очень новая версия.
Распаковка - это секунды, там парсинг длинный. Но это от компупера зависит, у меня это три минуты занимает :). Но учту, спасибо, если будет возможность - попробую эту часть ускорить.
Ну извини... я честно предупреждал: "НЕ пользуйтесь этой опцией, если не уверены." ;)
Не, это вряд ли получится. Я много пользуюсь частями именно этого скрипта, с SQL-таблицами, и поддерживать два формата - эт я не потяну.
Теперь по сути: похоже, там баг в скрипте. При единственном фильтре "по языку ru" он нашел всего 5409 желаемых (wanted) книг из 123760. Не может быть чтобы в таблицах было всего 5 тысяч книг на русском. И у меня такой же примерно результат, даже ещё меньше, так что это не разница в Перле или в SQL-таблицах, а баг в скрипте. Буду искать, как только дойдут руки. Постараюсь не затягивать, но прямо сейчас - не могу.
Отв: Удаление дублей из архивов по 1000 книг.
Ну дык на настольном и у меня будет около 3-х минут. Ты на ноуте пораспаковывай :Р
Тоесть косяк в единственном фильтре или именно в фильтре по языку?
*обиженным голосом* Но ты не добавлял "... что в скрипте нет бага" :Р
Ясно, спасибо. Бум ждать, благо сейчас либрусек работает и это не так критично ;)
Отв: Удаление дублей из архивов по 1000 книг.
Баг в скрипте есть всегда. Это аксиома.
kop-librusec-dedead - 0.4.3
kop-librusec-dedead верисия 0.4.3 - прицеплена к посту.
Изменения:
1. Пофиксен злобный баг. Предыдущими версиями не пользоваться, они глюкавые на всю голову!
2. Добавлена опция -testrun : Делать всё как настоящее, но не писать/стирать никаких zip-архивных файлов.
3. Добавлена возможность перезаписывать поверх исходных файлов. Для этого надо чтобы -do (dirout, выходной директорий) показывал туда же где лежат исходные зипы (dirzip), и присутствовала опция -removeoriginals.
Отв: kop-librusec-dedead - 0.4.3
Спасибо, щас потестим :)
Отв: kop-librusec-dedead - 0.4.3
Меня терзают смутные сомнения... На первый взгляд все нормально, однако почти в каждом архиве скрипт находит примерно 250-300 дублей. Так и должно быть? Архивы уже были обработаны старой (безглючной) версией скрипта.
Wanted total 96695
Books total 123760
to be squeezed 27065
Или он просто повторно обьединичивает единички? Тогда все в порядке.
Из замеченного: быстрее стали грузится таблицы, это гуд :)
А вот еще что.
WARNING: Bad member name: "Ketrin_A_List_Etika_bl**stva.fb2" zipf="16988-117987"
C этими файлами можно что-то сделать?
Отв: kop-librusec-dedead - 0.4.3
Повторно объединичивает.
Это тебе показалось :) там ничего не делалось.
АХЕЗ. Звёздочки в имени разрушают перловые regexp-ы. Я пока не могу научиться как бы их правильно сравнивать.
Отв: kop-librusec-dedead - 0.4.3
Странно. Тем не менее факт. Тогда одно из трех:
- Я сонный, поэтому думаю медленнее :)
- Они эээ... Закешировались виндой, ибо ноут уже недели две не перезагружался.
- Что третье? Говорю же - сонный я :Р
Отв: kop-librusec-dedead - 0.4.3
Можно экранировать переменную - /^\Q$membername\E$/
А можно использовать строковое сравнение вместо regexp (должно быть быстрее) - grep {$_ eq $membername} @FN_G;
Отв: kop-librusec-dedead - 0.4.3
Спасибо! Перловковар из меня тот ещё...
Страницы