Учебные материалы на Либрусеке

В сообществе МГУ возникла мысль создать централизованную онлайн-коллекцию учебно-научных материалов. И теперь нужна площадка для этого действа.
С одной стороны, Либрусек вполне для этого подходит - выкладывабельны файлы любых форматов, возможны обсуждения, доступ прямо из браузера, равно как и скачка.
С другой стороны, это идёт несколько вразрез с концепцией именно библиотеки, тем более, что под учебными материалами понимаются не только книги-статьи, но и рукописи - конспекты, разбор задач?

Как многоуважаемая публика отнеслась бы к такому использованию Либрусека?

Комментарии

+1
Если выкладывают деловые книги, научную, околонаучную и псевдонаучную литературу и, прости Господи, эзотерику, то почему бы не выкладывать учебные материалы?

Еще раз (уже писал) обращаю внимание публики на библиотеку http://ihtik.lib.ru, где множество учебной литературы, а также, что еще более ценно - научная и техническая. Ее тоже совсем неплохо бы закинуть на Либресек, целиком. Скачка там пока свободная, а что завтра будет - неизвестно. Для скачки - там адресная строка и модифицируемый номер, простейший скрипт будет работать - нужен просто хороший канал и ftp. У кого есть возможность перекинуть - подумайте! У меня, с компьютером дома и каналом 128 kbps - такой возможности нет.

Кое-что я у них брал.
К сожалению, это не так просто, как хотелось бы.
Качается-то замечательно, а вот потом начинаются сложности.
Книги повторяются по несколько раз, никакой системы в названиях нет, автоматическая обработка невозможна.

Да, это так. К тому же все в основном djvu, и немного - pdf. Поэтому для массовой выкачки и упорядочения и потребуются добровольцы. Я, вообще, удивлен, что Ихтик еще не прикрыли, с российским рвением и идиотизмом ;). С другой стороны, поразительно, какой труд вложен создателями ресурса в сканирование книг. Жаль будет, если пропадет. Нигде дольше нет такого! Может, не мудрствуя лукаво, просто создать на Либрусеке копию? А систематика - ну ее в баню? Кому надо - разберется ;).

Движок либрусека требует, чтобы у книги было название, авторы, жанр и т.п.
Из всего этого можно автоматом проставить только жанр. Название, авторы и прочая информация у ихтика забита в имя файла, причём неединообразно, автоматической обработке не подлежит. Я замучался всё это богатство причёсывать прорабатывая компьютерный раздел. Одних только дублей было несколько сотен. Причём когда я ему прислал список дублей - он не понял зачем это вообще нужно.
К тому же большая часть ихтика не выложена онлайн, доступна только на dvd.
Было бы неплохо выкупить у них всю коллекцию, причесать, поудалять дубли, проставить метаинформацию - но у меня сейчас на это времени нет. Да и сервер понадобится побольше, большая она очень. Хотя это как раз самое простое.

Можно выкладывать, я не против.
Подумайте какой функционал для того потребен будет.

Вообще было бы неплохо перекинуть на либрусек библиотеку колхоза
(lib.homelinux.org) А то ее состояние(пароли и общее удобство пользования) вызывает некоторые опасения...

Возьмёшься?

А вот и ещё идея - раздел (просто пост, скажем), в котором вывешены текущие нужды библиотеки. Типа "Вон хттп://там лежат книги, их надо понемножку перевести к нам" или "Нужен такой модуль к Друпалу, который делает такую кнопку, от которой всем сразу становится хорошо". Эти задачи ставит только руководство:), а пользователи-волонтёры отмечаются и берутся решать ту или иную.
Таким образом достаточно много народу можно мобилизовать, ИМХО. Из тех, кто просто не знает, как бы можно было поучаствовать...

Я сам попытаюсь организовать МГУшную движуху, чтобы просто продумать, что нам конкретно понадобится. И потом, вероятно, и буду это реализвывать.
---------
Терминаторы апокалипсис предотвращали-предотвращали, да не выпредотвратили; никак апокалипсис не предотвратить, не перепредотвратить, не перевыпредотвратить.

У библиотеки нужд нет. Ну, почти. Так, отлов багов.
Нужды у пользователей - для того есть раздел на форуме http://lib.rus.ec/forums-6
Можно выбирать любую и слать патчи. Исходники доступны.

А, да. Форум же есть. Виноват, не приметил:)
А под "библиотекой" я понимаю не только собственно сайт, но и его посетителей. (Их-то нужды я и имел в виду)
---------
Терминаторы апокалипсис предотвращали-предотвращали, да не выпредотвратили; никак апокалипсис не предотвратить, не перепредотвратить, не перевыпредотвратить.

А поделить работу никак нельзя..?
Я возмусь сделать из основного индекса http://lib.homelinux.org/_djvu/_catalog/index_1.html, и всех страничек типа http://lib.homelinux.org/_djvu/_catalog/index_2.html ,
большой индексный текстовой файл, легко парсируемый где в каждой строке автор, название, год выпуска, тип файла, язык, ссылка для wget-a.

Потом можно сделать скрипт который с того индекса заливает книжки в либрусеке и базу - но ето лучше сделать с твоей стороны - проще будет (не надо возиться с роботом который заливает на ftp, потом емулирует браузер для заливки каждого файла в либрусека и пр). И, бессмысленно сливать гигы с колхоза локально (он и без того у меня больно медленный) и потом обратно аплоадить в либрусеке.

Логично.
Если будет легко парсируемый файл, то выкачать уже не составит проблем.
Давай.
Еще бы как-нибудь про дубли подумать...

Можешь заодно и ихтиком заняться, той его частью, которая выкачивабельна.

Договорились.
Ихтик пока не хочу, там не вижу метод автоматически отделять имя автора от имя книги... Обычно разделены дефисом " - " но не всегда, имхо много хлама будет.

Там не только отделять.
Там может быть Иван Иванов, может Иван Иванович Иванов, может быть Иванов Иван Иванович и т.п.
А уж когда несколько авторов, что часто для научной литературы - совсем весело.
Я аж в скрипт загнал часто встречающиеся имена и фамилии, чтоб он хоть как-то разбирался.
Нужен ли народу неестественный интеллект? Имхо не нужен.
Придётся ждать, пока ихтик осознает необходимость следования стандарту. (любому - лишь бы одному)

Колхоз:
Сделал индекс и залил на ftp, в директорию /kolhoz-superindex. Инструкции там же.
Я сохранил классификацию колхоза в одно из полей, она очень хороша для поиска (типа поиск "Differential geometry"... и получил все книжки). Можно наверное создать новые "научные жанры", либо добавить к имени книжки /первое, конечно лучше/. Можешь и ее игнорировать.

Иначе обычный текстовой файл, каждая строка - книжка. Удобно парсить с awk и пр.
Я перекодировал кирилицу с 1251 на utf, надеюсь проблемы не будут.

Если найдешь глюки или что-либо нужно изменить - скажи, перегенерю как надо /теперь ето просто/.

Когда свой скрипт делаешь, обрати внимание на трансакционность... Колхоз довольно шаткий, нельзя рассчитывать что будет доступен или ошибки ни возникнут... У меня качается очень и очень медленно (1-5К/s). Тут только cron спасет.

запустил выкачку.
мда, скорость ужасна.
выкачиваться такими темпами будет не один месяц :(
ладно, пусть качается.
Может проверишь как-нибудь список на предмет дублей? Хотя бы крупные файлы чтоб не перекачивать.

Дублей не должно быть. (внутри самого индекса, конечно - иначе насчет либрусека не знаю....)
Вот проверяю по уникальность имени файла внизу.
Но оказывается, проскользнули несколько "пустых" строк /без файла для скачки, может другое есть.../, скрипт что-то не так пропарсил или у них были пустые строки в таблиц.
Все же делай простую верификацию...

manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | wc -l
20886
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | uniq | wc -l
20833
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | uniq -d

manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | uniq -d | wc -l
37
manul@siduxbox:~/piratek/homelinux$ cat kolhoz-superindex.txt | wc -l
20886
manul@siduxbox:~/piratek/homelinux$ cat kolhoz-superindex.txt | uniq | wc -l
20886
manul@siduxbox:~/piratek/homelinux$

Кстати, прежде когда я заливал файлы через ftp (много fb2 упакованные в zip) твой скрипт отлова дублей отлично работал предоставляя вручную разборку дублей или подозрительных.
Теперь ето не работает... Все заливается молчаливо. И точно дубли появляются каждый раз...
Нельзя ли восстановить ето, когда у тебя время есть. Так хорошо было;)

интересно именно насчёт либрусека.
чтобы не тянуть то, что уже есть. бо долго
хотя бы самые толстые файлы проверить

пустые строки моему скрипту пофиг, сожрёт

дуполовку посмотрю.

Насчет либрусека думаю много не будут... Не так уж много у тебя научной литературы.
Иначе несколько точно есть... Я залил Хофштадтера и Пенроуза с колхоза же.
Но 20000 книг вручную не проверить?
Насчет размеров.. Там вообще почти все файлы толстые, не шутка. Total size of collection: 80 гига...

80 гиг текущими темпами (1K/s) будет качаться больше трёх лет...
Если поднимется до 5, как у тебя - управимся за год.
Как-то это неправильно, тебе не кажется?

;) Неправильно конечно.
Они весь уикенд были в дауне, я сегодня 1 день только html-индексы качал чтобы пропарсить.

С другой стороны я думаю они специально лимитят скорость... Для всех IP или только для зарубежных не знаю.
Можешь попытаться связаться с ними чтобы предоставили тебе канал потолще... Или лучше выслать все по почте;)

Чего то исчезли "Последние поступления".. /только первая страница, остальные нормально/.

Хоть одна книжка за день скачалась с колхоза?
В каком жанре у тебя они поступать будут, а то не видно....

Да, работа там большая. Но в принципе, если брать за имя автора (или сериала ;) просто первое слово строки, то процентов на 90 это решит вопрос. А 10%, конечно, будет хлам. Однако, во-первых, это не будет хуже, чем на самом Ихтике, а намного лучше ;) - все же по авторам сортировка получится. Во-вторых же, потом понемногу разгребем мусор вместе. Только для этого нужно будет на Либрусеке разместить материалы с Ихтика в отдельных разделах как-то, не мешать авторов в общую кучу. Вот тогда и я охотно помогу - когда качать не надо, а можно на месте почистить мусор. На первых порах можно английские/латинские названия исключить вообще, ограничившись только русскими - там гораздо лучше упорядочено - автор почти всегда на первом месте.
ЗЫ. Лучше я знаком с разделом "Электроника", и предложения мои - в основном основаны на нем. Но во всех разделах как будто похоже в смысле мусора. Насчет ряда разделов (например, "Восточные учения, эзотерика, теософия, оккультизм, каббалистика и т.п.") можно не торопиться ;). Пусть меня назовут скептиком (или еще как ;), но, ИМХО, эта чушь не нужна вообще, ни там, ни тут. Опасная чушь, более того. Далеко не каждый может позволить себе риск читать это. ИМХО, конечно.

По учебным материалам советую глянуть на http://dmbooksprog.narod.ru/
Установка очень простая а литературы огромное количество

(ихтик) Много ручной работы.
1) Описания файлов могут не соответствовать содержимому файла.
2) Файл внутри архива может быть испорчен, как правило, из-за неполного скачивания.
3) Внутри архива может оказаться не сама книжка, а только её оглавление.
4) Много архивов, содержащие отдельные статьи, похожих на "Тезисы доклада 'к вопросу о что-то-там-в-носу'".

Нельзя все книги, например, по математике, когда их будет действительно много, держать в одном "разделе" sci_math. Для того, чтобы найти что-то подходящее, придётся просмотреть весь раздел. Либо надо делать древовидную систему жанров, либо делать поиск, например, по ключевым словам, либо делать механизм для работы с УДК, либо ёще что-то.

Во времена, когда не было компьютеров,
если надо было найти книгу в обычной библиотеке, то в каталоге искалась карточка. Если книги нет или она "на руках", с карточки переписывался УДК (или его узнавали заранее), затем просматривались в каталоге все карточки книг с похожими УДК, и подбиралась книжка (и не одна!) нужной темы.

Т.е. нужен некий механизм поиска, которые сократит список найденных книг "по теме" до разумного размера.

Нынешних поисков -- по жанру, по автору и по названию не хватает.

X