124173

Добавил пару десятков тысяч книжек.
Итого получилось около 20 тысяч авторов, 80 тысяч книг, 22G fb2 и 65G pdf/djvu.
Среди этого наверняка много дублей - где-то автора неправильно обозвали, где-то название чуть иначе написано.
Такие тонкости робот не ловит.
Кто чего заметит убедительно прошу сообщить. Сам я такой объем до пенсии не проработаю. А совместными усилиями - глядишь, и справимся.

P.S. Кто-то, смотрю, уже wget-ом тянет всё подряд. Я не против, тяните, только лучше бы чуть попозже. Структура еще не устаканилась, каталоги будут переименовываться, книги массово добавляться. Потом придется перевытягивать.
И зачем брать обе версии - fb2.zip и html? Они похожи. Если надо, могу к зипам ftp-доступ организовать. Или еще чего придумать интересного, типа списка файлов для wget-a по какому-нибудь критерию. По автору/жанру/типу/формату/еще как. Думайте. А то выкачивать почти сотню гиг без разбора как-то глупо, на мой взгляд. Извините. А если хотите зеркало организовывать - надо договариваться о репликации базы. Без этого неудобно получится, не во всех файлах метаинформация есть. Разгребать замучаетесь. И, опять же, чуть позже. Как из пре-беты выйду.

Комментарии

Что-то не получается сегодня скачать книги, когда пытаюсь скачать, пишет - "страница не найдена". Что я делаю неправильно ? :)

Ты всё делаешь правильно. А я - ошибся.
Поправил. Попробуй ещё раз.

Заработало, спасибо:).

у нас тут ночь уже. Торможу.
Если б не сказала - так бы и не починил до утра.

Здравствуйте!
Спасибо за Вашу либу!

На http://www.the-ebook.org/forum/viewtopic.php?t=6515 и на http://www.fictionbook.org/forum/viewtopic.php?t=4330 идет обсуждение унификации библиотек и создания механизма сохранения и распространения книг в сети и проч.
Вы уже проделали огромную работу по созданию либы и переводу множества книг в фб2.
Может Вы поучаствуете в топике по унификации либ на http://www.the-ebook.org/forum/viewtopic.php?t=6515?
Безусловно, Ваши знания и опыт будут полезны в этом важном деле и интересной задаче.

ПС. У меня есть своя небольшая либа "Собачья библиотека" (http://epaper.ru.googlepages.com/home)
Правда, там примерно 90% книг в ртф, остальное - в пдф. Всего сейчас около 130 книг по кинологической тематике.
Все вычитано и причесано в плане форматирования. Буду рад, если книги оттуда пополнят Вашу библиотеку.

С уважением, ТаКир

http://epaper.ru.googlepages.com/home - "Собачья библиотека" - кинологическая литература рунета.

Вы не могли бы перегнать rtf в fb2? Можно без излишеств, лишь бы были прописаны жанр, автор и название?
Это сильно облегчило бы мне жизнь.
На the-ebook я зашел сегодня, и был тут же забанен. За ссылку на мой жж с обсуждением наезда крымской братвы (http://rusec.livejournal.com/8623.html). Типа, реклама. Непонятно только чего. Суровые там мужики собрались, видать. Чуть что - бан.

Там (the-ebook) просто нельзя ссылки новичкам размещать - спам замучил.)) Потому банится, похоже, автоматом.
Так что не воспринимайте как личный наезд ))

По поводу "перегнать rtf в fb2" - я не очень силен в фб2 - всего пару книг перевел... Занимаюсь сканом и вычиткой, и времени на все никак не хватает. И в очереди еще немало книг стоит.
Могу, конечно, каким-нибудь doc2fb2 сделать, но результат, боюсь, будет не очень... Тем более там нередки таблицы, картинки, всякие формулы из генетики и проч.
Просто имейте ввиду, что эти книги есть в наличии и качество вычитки там хорошее, все сверено с бумагой, все выходные данные, рисунки, обложки и прочее в наличии ))
http://epaper.ru.googlepages.com/home - "Собачья библиотека" - кинологическая литература рунета.

Понял. Раз там все так непросто, выложу как есть, в rtf. Наверное. Надо чуток подумать. Три часа ночи, спать пора. Завтра гляну. Спасибо.

Добрый день.
А можно для начала просто список книг в csv формате, чтоб там было название, автор фамилия, автор имя, перечень жанров. Ну а если там же будет прямая ссылка - то вообще класс:)

Полный список, на все 100G? Или только fb2?
Формат нужен csv или html сойдет? Не очень хорошо понимаю, как в csv оформляются ссылки...
Давайте продумаем детальней - какие фильтры накладывать при создании списка.

да, на все. лучше csv, потому как из html я все равно буду делать csv:)

вот пример строки для ШаркЛиба
Books;Book5;русская фантастика;;осинский;владимир;чудеса маленькой грези;
вот пример строки для бук-либа
"Чужие по фильму Ридли Скотта Alien N 1 (Чужие-1)";"ALIEN01.ARJ";"15.08.1997";"BOOK\BOEVIK.102\BOOK";"134289";"4";"ЧУЖИЕ";"Художественная проза (ББК 84)";"Переводная фантастика";"Контакт с инопланетянами";"Глеб";"Киреев";"243";"1";;;;
вот пример строки для моей свалки в фб2
d:/slalka/ya/yackevich_vladimir_brodyaga.fb2.zip;ru/ya/yackevich_vladimir/brodyaga_yackevich_v.fb2.zip;Бродяга;Яцкевич;Владимир;
Ну а ссылка - не понял в чем проблема, наверное в кавычки взять надо. Ну и главная проблем - либу положат:) Так что для начала в открытый доступ не надо.

Ну а фильтры, то меня полный список интерсует, а фильтры - это для тех, кто жанрами интересуется или отдельными авторами. Ну и по форматам еще, но если фб2, то перегнанные автоматом мне, например, не интересны. У вас версии в фб2 ведутся? И как-то отличить можно ручной фб2 от робота?

а про 100 Г - это очень неплохо, только надо много сил еще приложить, чтобы разложить, дубли и т.д. убрать. Может что и помогу, только я немного умею.

Кстати, баг вылез в комментариях, если строка динная.

помимо fb2, которых всего 20G, есть куча pdf/djvu и прочего, вплоть до bmp.

вместо ссылки могу дать id.
ссылка на fb2.zip будет lib.rus.ec/pl/2.pl/?id, на html - lib.rus.ec/pl/1.pl/?id
список ощутимо похудеет, а это, наверное, важно, при таких объемах?
потом по id будет проще отлавливать новости - они тупо увеличиваются.
Так и сделать - списо книг с id > последнего?

Вот, на пробу, кусочек из серединки - http://lib.rus.ec/librusec25.txt
Так пойдет?

а цитаты в ответах вставлять как-то можно? а то не нашел.

id годится, спасибо, попробовал - все прекрасно работает.

Теперь сам список - годится, но, может быть, заложиться на еще одного соавтора? Если соавторов нет - добавится тройка ;;; зато если есть - будет проще искать книжку. Или как у Вас с соавторами организовано? Если что-то надо делать, то не стоит, годится.

А для новинок - вообще прекрасное решение, ИМХО.

Ну и про вычитку непонятно - это как будет идти - просто как новинки или все-таки учет версий предполагаете? В фб2 это предусмотрено.

Ну и про жанры - было бы неполохо полный список иметь и как оно организовано - ну в смысле есть ли иерархия. По этому поводу мне понравилась идея http://www.gribuser.ru/xml/fictionbook/3.0_draft/ClassFB.html.

====а цитаты в ответах вставлять как-то можно? а то не нашел.
Можно как-то :)
Наверное.
Я еще не разбирался.
Наверняка к друпалу есть модуль красивого цитирования.

====но, может быть, заложиться на еще одного соавтора?
вообще-то в fb2, да и у меня в базе, книга может иметь произвольное количество авторов. И три-четыре - не предел, и больше встречается. Как эту радость засунуть в линейный список - не знаю. Как жанры, через запятую?

====неполохо полный список иметь и как оно организовано
Жанры пока организованы по схеме FB2.1, список - http://lib.rus.ec/pl/g.pl?all
Общую схему менять не буду, буду добавлять недостающее. Наверное. Может быть.
При этом, скажем <детектив, фантастика>, <детектив> и <фантастика> - это по сути три разных жанра.

====все-таки учет версий предполагаете? В фб2 это предусмотрено.
Интересно, как это на практике работает. Скажем, есть документ версии 4 с алдебарана и версии 3 с фанлиба. Какой круче?

====По этому поводу мне понравилась идея http://www.gribuser.ru/xml/fictionbook/3.0_draft/ClassFB.html.
Полный бред, даже обсуждать не хочется. Интересно, почему у меня книга, отнесенная к нескольким жанрам, не появляется на страничке автора несколько раз? И деление читателей по годам... Несерьезно. Это даже хуже, чем FB2.1. Там хоть идея разумная, только список надо доработать.
Я как понял, никто всерьез это не рассматривает, включая автора.

===========Как эту радость засунуть в линейный список - не знаю. Как жанры, через запятую?
давайте так, годится, только информационные поля надо брать в кавычки, чтобы внутренние запятые правильно учлись.
Главное условие - чтобы полей, отделенных ; было везде одинаковое количество.

И еще - а синонимы ты не собираешь, ну типа абби;линн и эбби;линн? Но это - отдельная песня. В этот список их совать нечего.

===========При этом, скажем <детектив, фантастика>, <детектив> и <фантастика> - это по сути три разных жанра
спасибо за список, схема понятна.

===========Интересно, как это на практике работает. Скажем, есть документ версии 4 с алдебарана и версии 3 с фанлиба. Какой круче?

насколько понимаю, версии каждый отсчитывает сам. Ну и в твоей либе отсчет должен пойти самостоятельно. А что принять в качестве точки отсчета - волюнтаризм, вобчем. Правильно обосновать - это ну очень тяжко. ИМХО, ессно.

Кстати, узнать один это документ или разные можно по Ид внутри фб2, если один - выбирать старшую версию, а вот для разных - волюнтаризм.

===========Полный бред, даже обсуждать не хочется.
напрасно насчет бреда. А нехочется обсуждать - не будем :)
кстати, у тебя есть фантастика, и есть детская фантастика ;)

===Кстати, баг вылез в комментариях, если строка динная===

чуть подробнее, что за баг? Может, это у друпала фича такая?

баг в том, что длинная строка без пробелов (это где пример писал) вылазит за границу центрального поля экрана и выводится поверх правого поля. Это в FireFox 1.0.8. Посмотрел в Эксплорере - там расширяет центральное поле, тоже некрасиво, но так правильнее. Зато здесь окно ввода OpenID Login со всеми кнопками рисует прямо поверх текста в центральном поле, а в левом поле - просто пустое место.

Конечно, может стОит FireFox обновить?

По поводу отлова дубликатов. В своё время я для этих целей пользовался нечёткими сравнениями (даже функцию соответствующую на Perl написал). Названия сравнивались с уже имеющимися и, если находились излишне похожие (предел подбирался эмпирическим путём) выдавалось предупреждение о возможном дублировании. В упомянутом роботе есть такая возможность?

X