Вы здесьAldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168 книг)
Опубликовано вт, 26/08/2008 - 16:32 пользователем pkn
Выделил из AldLit вторую очередь заливки: EBD (11 книг) и KIT (4168 книг) EBD = книги из AldLit, которые в Либрусеке представлены результатом eBookDownloader-а, и version-aldlit >= version-libr KIT = книги из AldLit, которые в Либрусеке представлены результатом LibRusEc Kit-а, и version-aldlit >= version-libr Предзаливочная обработка(в изложенном порядке): Поскольку изначально было version-aldlit >= version-libr, то приподнятие версии на 0.001 должно было, по идее, убедить либрусечный заливочный скрипт в старшинстве заливаемой версии . В порядке эксперимента залил EBD (11 книг). Результат удручает: на 11 файлов - 6 дублей и 5 отказов. Ни один файл не был молча принят :(( Причины непонятны... Файл Andrey_Rubanov_Sazhayte_i_vyirastet уже есть в базе. Повторы недопустимы. --------------------
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
agent4707 RE:Подайте бедному копеечку на книжку с литреса... 11 часов
Саша из Киева RE:Хождение во власть. После путча 1 день weis RE:Прошу переформатировать, распознать, etc... 1 день babajga RE:Алиса в стране чудес 4 дня tanyaguscha RE:Грушевое дерево 5 дней babajga RE:Ёжик, который хотел обнять Луну 5 дней babajga RE:Самый храбрый совёнок 5 дней babajga RE:Похититель домофонов 5 дней Саша из Киева RE:Неудавшийся священник 6 дней Саша из Киева RE:Хочу быть лётчиком 1 неделя Саша из Киева RE:Бессмертен подвиг ваш 1 неделя sem14 RE:Искатель жемчуга 1 неделя Larisa_F RE:Жизнь не отменяется 1 неделя Larisa_F RE:Из озера взметнулись молнии 1 неделя babajga RE:На краешке чуда 2 недели sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 2 недели Саша из Киева RE:Ведомственный притон 2 недели kusheyev RE:Заливка 3 недели Впечатления о книгах
Barbud про Поселягин: Прапорщики по адмиралтейству [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
23 04 Вот вроде же зарекался читать Поселянина, так нет - какой-то черт дёрнул открыть это поделие. Убедился, что уровень "творчества" автора если и изменился, то только к худшему. Жуткий нечитаемый картон, не осилил. Оценка: нечитаемо
Я бреду по берегу про Беляев: Ариэль (Научная фантастика)
23 04 В далекие школьные годы взахлеб зачитывался книгами Александра Беляева. Классика советской, российской, и мировой фантастики. Отлично! Оценка: отлично!
kolombok про Доктор [Афанасьев]
23 04 Ну а по мне, так понравилось, если бы я в детстве такие книжки читал... Это я пока о половине первой книги говорю, хорошо зашло хотя мне уже за (вставьте возраст). В целом скажу, за первую половину книги, годная молодая фантастика, ………
Belomor.canal про Анонимус: Выжига, или Золотое руно судьбы [litres] (Исторический детектив)
22 04 В отличии от всех предыдущих книг серии, необыкновенно динамичный триллер, почти без длиннот! Похоже, произошла смена команды Анонимуса и нас ждут захватывающее, профессионально сделанные книги! Оценка: отлично!
zhunter про Группа крови на плече
22 04 С удовольствием читал незатейливый боевичок, но ахинея про радиоактивные вещества просто убила и в землю закопала. Аутор, ты блин в школе то учился?
Isais про Пелевин: Орден желтого флага [OCR] (Социальная фантастика)
21 04 Я честно прочел 48% файла. Я честно высоко оценил блестящую стилизацию под литературу XVIII века. Имею право прийти к заключению: эту книгу следует читать в самом-самом, САМОМ последнем случае. Только когда в доме ………
Isais про Поганец: Дикий 2 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
21 04 Когда ни разу в жизни не видел ни книги, ни печатного текста вообще, но все равно зудит сочинить рОман ("что я, хуже других?"), получается вот такое... Оценка: нечитаемо
nik_ol про Полякова: Таинственная четверка (Крутой детектив, Детективы: прочее)
21 04 А Анна будет продолжать писать за Татьяну или всё? Александру комментарем ниже: мне, например, не всегда что-то грандиозное нужно литературное читать, типа Достоевского или Моэма, Булгакова или Ремарка! Иногда вот такие, ……… Оценка: хорошо
andmalin про Шопперт: Вовка-центровой – 6: Мундиаль [СИ] (Альтернативная история, Самиздат, сетевая литература)
21 04 Хорошая серия , мне понравилось. Оценка: отлично!
gleb99 про Кормильцев: Взлёт и падение СвЕнцового дирижабля (Контркультура, Публицистика)
20 04 Файл не найден". Может кто-то помочь с книгой?
Lan2292 про Воронков: Время еще не пришло [СИ] (Фэнтези, Попаданцы, Самиздат, сетевая литература)
20 04 Очень понравилось, прочитала отрываясь, что бы продлить удовольствие. Жду продолжения, спасибо автор. Оценка: отлично! |
Комментарии
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Чудеса... попытался сейчас, от отчаяния, залить ещё раз ровно тот же самый rar, содержащий ровно те же самые 11 файлов... результат:
-----------------------
file:Andrey_Rubanov_Sazhayte_i_vyirastet Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Сажайте, и вырастет http://lib.rus.ec/b/119946/join/104702
file:Andrey_Rubanov_Velikaya_Mechta Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Великая Мечта http://lib.rus.ec/b/119947/join/104703
Книга уже есть в библиотеке - Космос!!! http://lib.rus.ec/b/119940
Книга уже есть в библиотеке - Крейсер «Безумный» http://lib.rus.ec/b/119941
Книга уже есть в библиотеке - Принцесса помойки http://lib.rus.ec/b/119942
Книга уже есть в библиотеке - Звезда с одним лучом непонятный жанр http://lib.rus.ec/b/119943
file:Daliya_Meyerovna_Truskinovskaya_Bednyie_ryitsari Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Бедные рыцари http://lib.rus.ec/b/119948/join/102653
file:Polina_Dashkova_Vechnaya_noch Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Вечная ночь http://lib.rus.ec/b/119949/join/102646
file:Dzhuliana_Makleyn_Prelyudiya_lyubvi Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Прелюдия любви http://lib.rus.ec/b/119950/join/100660
Книга уже есть в библиотеке - Я и ты под персиковыми облаками http://lib.rus.ec/b/119944
Книга уже есть в библиотеке - Дело № 34840 http://lib.rus.ec/b/119945
-----------------------
То есть...
1. 6 файлов, залившихся (через дублей, но залившихся), во второй попытке получили отлуп ("Книга уже есть в библиотеке"). Что есть логично.
2. 5 файлов, в первой попытке получившие другой отлуп ("уже есть в базе. Повторы недопустимы."), во второй попытке прошли (через дублей, но прошли). Что есть непонятно.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки.
Похоже, главная тут - функция AddFileToLibrusec, находится в файле author.inc. Распечатал файло, буду читать на сон грядуший...
P.S. Чтобы грепнуть сорс на моем винбоксе - пришлось его из UTF-8 перекодировываь в win-1251. И все равно не помогло - grep кириллицы не понимает хоть убей... нашел тыком.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Не используй костыли типа цыгвин, используй нативные инструменты!
vim - the best!!!
Отв: AldLit, вторая очередь заливки
А как ты вычислял LibRusEc Kit? К примеру если книга была китом, а потом заменилась на нормальный вариант, в архивах остался кит и добавился нормальный вариант. Причем не факт что "прямо" добавился. Тоесть могут быть разночтения в тегах вида "конан" "конан(конан варвар - 3)". Теперь еще один пункт. Книги либрусека часто датированы 2011 годом, что изрядно смущает его дублеловку. Также у некоторых файлов версия не 1.0 как должна бы быть, а 1.5.
ИМХО для либрусека проще понимать зипы. На рарах периодически спотыкается.
*вздыхает* зря... размер увеличился, качество файлов не изменилось.
Отв: AldLit, вторая очередь заливки
Ну... логика сравнилки на данный момент примерно такая. Сравнилка берет одно файло из AldLit-а, ставит ему priority=0 (NEW), и с ним в зубах идет по всем 100+ тысячам Либрусека.
Если встретился такой-же-тайтл AND такая-же-фамилия-автора AND либр-файл имеет в program-used первым словом eBookDownloader AND version-aldlit >= version-libr, то помечаем это файло как EBD, priority=1 (EBD).
Но на этом сравнилка не останавливается, а идет, с тем же файлом, по Либрусеку дальше.
Если встретился такой-же-тайтл AND такая-же-фамилия-автора AND либр-файл имеет в program-used первым словом LibRusEc Kit AND version-aldlit >= version-libr, то помечаем это файло как KIT, priority=2 (KIT).
И идем дальше.
Если опять такой-же-тайтл AND такая-же-фамилия-автора, NO LibRusEc Kit or eBookDownloader, но выполняется version-aldlit >= version-libr, то priority=3 (REP)(значит REPlace, наш алдлитный файл лучше либрусечного)
И идем дальше.
Если опять такой-же-тайтл AND такая-же-фамилия-автора, NO LibRusEc Kit or eBookDownloader, и не выполняется version-aldlit >= version-libr, то priority=4 (OLD)(значит OLD, наш алдлитный файл хуже либрусечного)
При этом priority может только увеличиваться, не вниз, так что порядок встречи дублей не имеет значения.
В результате получаем разбивку АлдЛита на пять групп:
0 NEW - алдлитное файло новое, в Либрусеке не встречено.
1 EBD - алдлитное файло имеет в Либрусеке дубль от eBookDownloader
2 KIT - алдлитное файло имеет в Либрусеке дубль от LibRuEc Kit
3 REP - алдлитное файло имеет в Либрусеке дубль от кого-то ещё, но алдлитное файло лучше.
4 OLD - алдлитное файло хуже имеющегося в Либрусеке.
Вроде должна работать такая логика.
Ну тут я бессилен. Такие книги воспринимаются как разные.
Гм... мне-то это пофиг, я на дату вообще не смотрю... а вот если дублеловка смотрит... непонятно зачем бы ей это, но вдруг... надо будет на этот предмет сорсы тоже глянуть.
Оп-па... такого не замечал. Проверю.
Спасибо, учту.
Ларин сказал UTF - значит UTF.
Отв: AldLit, вторая очередь заливки
Вобщем из логики скрипта что смутило: очень часто бывает что на либрусеке лежат книги одного автора(файла), а на альде - другово. Соответственно и версии отличаются. Не факт, что файл автора X, версии 1.6 будет лучше файла автора Y версии 1.4.
А вот либрусек понимает что это дубли :Р Для этого надо не учитывать в названии книги все, что в круглых скобках.
Хм... ты прав. Это глюк fb2fix. Пропускал через него весь либрусек и по какой-то загадочной причине, он решил влепить части либрусечных файлов версию 1.5. Глянул эти же файлы здесь - версия 1.0, так что вопрос снимаю.
Отв: AldLit, вторая очередь заливки
Оно, конечно, не факт. Но как ещё программно решить какая из книг лучше, если не по номеру версии? Авторов-файла по ранжиру же не построишь. Конечно, можно в сравнилке учитывать не только версию, но и автора-файла. То бишь если автор-файла один и тот же, то лучше книга с большей версией. Но если авторы-файла разные, проблема остается.
Впрочем, в любом случае REP - это третья очередь заливки, и с ней, когда время придет, будем разбираться отдельно. Дай бог пока с KIT управиться.
Гм... а ведь и правда похоже... как-то этот момент я пропустил. Попробую в сравнилке прибивать в названии все, что в круглых скобках.
Отв: AldLit, вторая очередь заливки
Надо учитывать автора. А если авторы разные - в отдельный список для ручного разгребания, и ничего не трогать. Список потом можешь опубликовать - "всем миром" будем сравнивать :) Не факт что на альде будут лучшие версии. К примеру хроники нарнии лучше на либрусеке. А пратчет был лучше на альде.
Отв: AldLit, вторая очередь заливки
OK
Отв: AldLit, вторая очередь заливки
Можно еще применить вот такой метод
http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0
Но, здесь надо обязательно учитывать разницу в длине сравниваемых строк. Очепятки отлавливает аж бегом. Ну или когда в кириллицу вставляют латинские символы одинакового начертания.
Отв: AldLit, вторая очередь заливки
Листинг показал, что таких файлов в Либрусеке всего два, оба раза версия приподнята обоснованно. Ложная тревога.
Отв: AldLit, вторая очередь заливки
ИМХО, дубли и ошибки неизбежны. Лучше иметь сотню дублей, чем потерять одну хорошую книгу. Совершенно невозможно избавиться от ошибок, когда анализируется только заголовок. Не говоря о возможных ошибках / опечатках, там еще все зависит от того, кто его делал и как. Меня смущает другое. Когда все сомнения останутся позади, просьба не заливать все такой дикой массой, как в прошлый раз - там было около 40 страниц обновлений за день :(. Практически невозможно все просмотреть, и выбрать / скачать то, что интересно. Пожалейте сервер и наши глаза! Если можно, просьба заливать ну хотя бы произведений по 500 в день ;). Конечно, если это трудно технически, лейте как есть, переживем ;). Может, это даже к лучшему - отмучиться сразу и не растягивать удовольствие. Точно знаю только, что при прошлой заливке я пропустил много интересного, по чисто физической невозможности просмотреть и оценить все.
Отв: AldLit, вторая очередь заливки
Лучше сразу отмучатся :) Я например когда добавлял архивы либрусека, чтобы лишний раз не перезаписывать, то, что уже есть(а альд я выкачивал полностью), не добавлял книги вообще за 18-е число. Аналогично поступлю и с этой заливкой. А вот если будет по 500 книжек в день - начнутся проблемы. Так что лучше уж кучей.
Отв: AldLit, вторая очередь заливки
Это-то да... проблема в том, что если не удается убедить дублеловку принять новый файл молча, то приходится каждую пару дублей разрешать вручную, кликая. При заливке нескольких тысяч книг это становится, мягко говоря, проблематично.
Я думал на этим вопросом... по-моему, все-таки лучше рубить кошке хвост разом, а не по частям...
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки.
Гы... на 250-гиговом диске, выделенном под эти игры, осталось 25 гиг места. Пришлось кое-что постирать к бубеням...
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Кстати, та кошмарная) заливка уже отразилась в Дайли и можно ли её уже скачать одним файлом обновлений?
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Да, только не одним, Илья на два разбил (слишком большой файл?).
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
ОК, спасибо! Попробую найти.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Если именно те два файла в Дейли, то на http://lib.rus.ec/all/daily/ они под (ошибочно одним и тем же) именем 114698-119287.zip 114698-119287.zip
Линки там под этими именами на самом деле на два разных файла:
http://lib.rus.ec/all/daily/114698-117000.zip
http://lib.rus.ec/all/daily/117001-119287.zip
Но в принципе основная разбивка "по тысяче" http://lib.rus.ec/allbooks уже тоже добралась до этих номеров и даже дальше.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки. Понял про Либрусек пару вещей, заслуживающих записи.
1. Приподнимание версии не заставит дублеловку молча принять файл. Потому что:
LogAction ("INSERT INTO libbook (FileName, FileSize, FileType, Title, Year, SeqId, SeqNumb, Id, Ver, Lang, FileAuthor) VALUES ("$nn", '$fs', '$filetype','$title','$year', '$SeqId', '$sequencei','$id', '$ver', '$lang', '$nick')", "Add book","");
$b = Sel("BookId FROM libbook WHERE FileName = "$nn"");
if (!$b) return $r. "Что-то не получилось. Свяжитесь с администрацией";
if ($actionid = Sel ("ActionId FROM libactions WHERE ActionDesc = 'Add book'
AND BookId = 0 AND ActionSQL LIKE "($nn," LIMIT 1"))
Update (libactions, "BookId=$b", "ActionId=$actionid");
$r .= "<p><a href=/b/$b/edit target=_blank>Книга добавлена</a><br>";
system ("chmod a+r $nn1");
foreach ($GenreIds as $gid) Insert ('libgenre', 'BookId, GenreId', "$b, $gid");
foreach ($PD->AvtorIds as $aid) {if ($aid && $la != $aid) Insert ('libavtor', 'BookId, AvtorId', "$b, $aid"); $la = $aid;}
if ($dublid = Sel ("BookId FROM libbook JOIN libavtor USING (BookId) WHERE Title="$title" AND AvtorId = $a AND BookID != $b AND NOT Deleted"))
$r .= "<p>Кажется, нашли дубля. Ткните в него для разрешения конфликта. <a href=/b/$b/join/$dublid target=_blank>Дубль: $title</a>";
(file author.inc lines 599-610)
Здесь $b это АйДи (либрусечный номер) свежедобавленной книги, $dublid - АйДи (либрусечный номер) найденного дубля. Версия не учитывается совсем. Надо искать другие пути обхода дублеловилки.
2. В Либрусеке много книжек, в которых:
# fictionbook/description/document-info/author/nickname rusec
# fictionbook/description/document-info/author/email lib_at_rus.ec
# fictionbook/description/document-info/program-used LibRusEc kit, Fiction Book Designer, Fiction Book Investigator, FB Editor v2.0
# fictionbook/description/document-info/date 29.11.2007
# fictionbook/description/document-info/id 283111f6-feec-102a-9d2a-1f07c3bd69d8
# fictionbook/description/document-info/version 1.0
# fictionbook/description/publish-info/book-name Поэтический побег
То бишь, после LibRusEc kit был и FBD, и множество всякого, но версия так и осталась 1.0
Мне надо в сравнилке сильно ужесточить критерии для зачисления в категорию KIT.
Вероятно, по ID, см. тут: http://www.fictionbook.org/forum/viewtopic.php?p=34606&sid=ce80b4a0e032856378070ac1bcf5dfd6#34606