Вы здесьУчебные материалы на Либрусеке
Опубликовано пт, 15/02/2008 - 05:19 пользователем kirushik
В сообществе МГУ возникла мысль создать централизованную онлайн-коллекцию учебно-научных материалов. И теперь нужна площадка для этого действа. Как многоуважаемая публика отнеслась бы к такому использованию Либрусека?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
babajga RE:Удивленная сова 1 день
Larisa_F RE:Серия «Квадрат» издательства «Текст» 3 дня Aleks_Sim RE:Беженцы с Флибусты 3 дня edvud RE:Прошу переформатировать, распознать, etc... 3 дня monochka RE:С 8 Марта! 5 дней babajga RE:Книга чуДОМищ 1 неделя alexej36 RE:Подайте бедному копеечку на книжку с литреса... 1 неделя ProstoTac RE:Подборка о Первой Мировой 1 неделя babajga RE:Нержавеющая сабля 1 неделя sem14 RE:«Уроки русского» 1 неделя Isais RE:Древний Рим. Подборка книг 1 неделя kopak RE:О группе Дятлова. О той самой, того самого... 1 неделя babajga RE:Отчаянная осень 2 недели babajga RE:Сказки Сени Малины 2 недели babajga RE:Сказки 2 недели babajga RE:Мои четвероногие друзья 2 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Isais RE:Семейственность в литературе 2 недели Впечатления о книгах
clomeron про Пехов: Ветер и искры [сборник : с иллюстрациями ; litres] (Фэнтези)
13 03 Топовое фэнтези. Автор большой молодец. Оценка: отлично!
clomeron про Пехов: Страж [тетралогия] (Фэнтези)
13 03 Это одна из вершин творчества признанного мастера русского фэнтези. Всякие там Мартины и прости Господи Аберкромби нервно курят в углу.))) Оценка: отлично!
clomeron про Аберкромби: Дурацкие задания [The Fool Jobs ru] (Фэнтези)
13 03 Ну и кому вообще нужен этот рассказ? Оценка: нечитаемо
clomeron про Аберкромби: Прежде, чем их повесят [Before They Are Hanged ru] (Фэнтези)
13 03 Трэш средней степени паршивости Оценка: нечитаемо
Олег Макаров. про Сказ: Темный Герой [СИ] (Фэнтези, Попаданцы, ЛитРПГ, Самиздат, сетевая литература)
12 03 Увидев гранату, залетающую в окно, спецназовец кричит напарнику: — Тимур, осторожней! а я перестаю читать. Потому что... ну просто потому что нельзя такое читать Оценка: нечитаемо
Олег Макаров. про Костин: Книжный магазин «Альтист» (Фантастика: прочее, Попаданцы, Самиздат, сетевая литература)
12 03 Это автор начитался "Марка и Эзры" что ли? :))))
clomeron про Сандерсон: Память Света [litres] [A Memory of Light ru] (Героическая фантастика, Фэнтези)
12 03 Эпичное завершение самой масштабной фэнтези-саги за всю историю жанра. Читать всем, кто ждал официальное издание. Оценка: отлично!
clomeron про Дяченко: Время нарушать запреты [Рубеж + Пентакль] (Научная фантастика)
11 03 Классная вещь. Но это не для всех.) Оценка: отлично!
clomeron про Дяченко: Украинский цикл [Рубеж + Пентакль] (Боевая фантастика)
11 03 Отличные романы. Но качество файла так себе. Оценка: отлично!
alexk про Блейк: Решающая улика (Классический детектив)
11 03 Ведь на обложке написано - "Николас Блейк". Нахрена писать вместо псевдонима настоящее имя автора? Надеюсь никто не догадается пойти переименовать все книги Горького в Пешкова, а Булычева в Можейко?
alexk про Мор: Классическая утопия [сборник litres] (Социальная фантастика, Классическая проза)
11 03 Можно смело считать переизданием 34 тома БВЛ /b/568449
Sello про Голсуорси: Сага о Форсайтах. Том 2 (Классическая проза)
10 03 Конечно, такие объемные произведения вряд ли в нынешнее время востребованы - и времени, как бы ты ни читал быстро, занимает немало, и в таких масштабных текстах легко запутаться в событиях, держа их постоянно в памяти, и вообще ……… Оценка: хорошо |
Комментарии
Re: Учебные материалы на Либрусеке
+1
Если выкладывают деловые книги, научную, околонаучную и псевдонаучную литературу и, прости Господи, эзотерику, то почему бы не выкладывать учебные материалы?
Re: Учебные материалы на Либрусеке
Еще раз (уже писал) обращаю внимание публики на библиотеку http://ihtik.lib.ru, где множество учебной литературы, а также, что еще более ценно - научная и техническая. Ее тоже совсем неплохо бы закинуть на Либресек, целиком. Скачка там пока свободная, а что завтра будет - неизвестно. Для скачки - там адресная строка и модифицируемый номер, простейший скрипт будет работать - нужен просто хороший канал и ftp. У кого есть возможность перекинуть - подумайте! У меня, с компьютером дома и каналом 128 kbps - такой возможности нет.
Re: Учебные материалы на Либрусеке
Кое-что я у них брал.
К сожалению, это не так просто, как хотелось бы.
Качается-то замечательно, а вот потом начинаются сложности.
Книги повторяются по несколько раз, никакой системы в названиях нет, автоматическая обработка невозможна.
Re: Учебные материалы на Либрусеке
Да, это так. К тому же все в основном djvu, и немного - pdf. Поэтому для массовой выкачки и упорядочения и потребуются добровольцы. Я, вообще, удивлен, что Ихтик еще не прикрыли, с российским рвением и идиотизмом ;). С другой стороны, поразительно, какой труд вложен создателями ресурса в сканирование книг. Жаль будет, если пропадет. Нигде дольше нет такого! Может, не мудрствуя лукаво, просто создать на Либрусеке копию? А систематика - ну ее в баню? Кому надо - разберется ;).
Re: Учебные материалы на Либрусеке
Движок либрусека требует, чтобы у книги было название, авторы, жанр и т.п.
Из всего этого можно автоматом проставить только жанр. Название, авторы и прочая информация у ихтика забита в имя файла, причём неединообразно, автоматической обработке не подлежит. Я замучался всё это богатство причёсывать прорабатывая компьютерный раздел. Одних только дублей было несколько сотен. Причём когда я ему прислал список дублей - он не понял зачем это вообще нужно.
К тому же большая часть ихтика не выложена онлайн, доступна только на dvd.
Было бы неплохо выкупить у них всю коллекцию, причесать, поудалять дубли, проставить метаинформацию - но у меня сейчас на это времени нет. Да и сервер понадобится побольше, большая она очень. Хотя это как раз самое простое.
Re: Учебные материалы на Либрусеке
Можно выкладывать, я не против.
Подумайте какой функционал для того потребен будет.
Re: Учебные материалы на Либрусеке
Вообще было бы неплохо перекинуть на либрусек библиотеку колхоза
(lib.homelinux.org) А то ее состояние(пароли и общее удобство пользования) вызывает некоторые опасения...
Re: Учебные материалы на Либрусеке
Возьмёшься?
Re: Учебные материалы на Либрусеке
А вот и ещё идея - раздел (просто пост, скажем), в котором вывешены текущие нужды библиотеки. Типа "Вон хттп://там лежат книги, их надо понемножку перевести к нам" или "Нужен такой модуль к Друпалу, который делает такую кнопку, от которой всем сразу становится хорошо". Эти задачи ставит только руководство:), а пользователи-волонтёры отмечаются и берутся решать ту или иную.
Таким образом достаточно много народу можно мобилизовать, ИМХО. Из тех, кто просто не знает, как бы можно было поучаствовать...
Я сам попытаюсь организовать МГУшную движуху, чтобы просто продумать, что нам конкретно понадобится. И потом, вероятно, и буду это реализвывать.
---------
Терминаторы апокалипсис предотвращали-предотвращали, да не выпредотвратили; никак апокалипсис не предотвратить, не перепредотвратить, не перевыпредотвратить.
Re: Учебные материалы на Либрусеке
У библиотеки нужд нет. Ну, почти. Так, отлов багов.
Нужды у пользователей - для того есть раздел на форуме http://lib.rus.ec/forums-6
Можно выбирать любую и слать патчи. Исходники доступны.
Re: Учебные материалы на Либрусеке
А, да. Форум же есть. Виноват, не приметил:)
А под "библиотекой" я понимаю не только собственно сайт, но и его посетителей. (Их-то нужды я и имел в виду)
---------
Терминаторы апокалипсис предотвращали-предотвращали, да не выпредотвратили; никак апокалипсис не предотвратить, не перепредотвратить, не перевыпредотвратить.
Re: Учебные материалы на Либрусеке
А поделить работу никак нельзя..?
Я возмусь сделать из основного индекса http://lib.homelinux.org/_djvu/_catalog/index_1.html, и всех страничек типа http://lib.homelinux.org/_djvu/_catalog/index_2.html ,
большой индексный текстовой файл, легко парсируемый где в каждой строке автор, название, год выпуска, тип файла, язык, ссылка для wget-a.
Потом можно сделать скрипт который с того индекса заливает книжки в либрусеке и базу - но ето лучше сделать с твоей стороны - проще будет (не надо возиться с роботом который заливает на ftp, потом емулирует браузер для заливки каждого файла в либрусека и пр). И, бессмысленно сливать гигы с колхоза локально (он и без того у меня больно медленный) и потом обратно аплоадить в либрусеке.
Re: Учебные материалы на Либрусеке
Логично.
Если будет легко парсируемый файл, то выкачать уже не составит проблем.
Давай.
Еще бы как-нибудь про дубли подумать...
Можешь заодно и ихтиком заняться, той его частью, которая выкачивабельна.
Re: Учебные материалы на Либрусеке
Договорились.
Ихтик пока не хочу, там не вижу метод автоматически отделять имя автора от имя книги... Обычно разделены дефисом " - " но не всегда, имхо много хлама будет.
Re: Учебные материалы на Либрусеке
Там не только отделять.
Там может быть Иван Иванов, может Иван Иванович Иванов, может быть Иванов Иван Иванович и т.п.
А уж когда несколько авторов, что часто для научной литературы - совсем весело.
Я аж в скрипт загнал часто встречающиеся имена и фамилии, чтоб он хоть как-то разбирался.
Нужен ли народу неестественный интеллект? Имхо не нужен.
Придётся ждать, пока ихтик осознает необходимость следования стандарту. (любому - лишь бы одному)
Re: Учебные материалы на Либрусеке
Колхоз:
Сделал индекс и залил на ftp, в директорию /kolhoz-superindex. Инструкции там же.
Я сохранил классификацию колхоза в одно из полей, она очень хороша для поиска (типа поиск "Differential geometry"... и получил все книжки). Можно наверное создать новые "научные жанры", либо добавить к имени книжки /первое, конечно лучше/. Можешь и ее игнорировать.
Иначе обычный текстовой файл, каждая строка - книжка. Удобно парсить с awk и пр.
Я перекодировал кирилицу с 1251 на utf, надеюсь проблемы не будут.
Если найдешь глюки или что-либо нужно изменить - скажи, перегенерю как надо /теперь ето просто/.
Когда свой скрипт делаешь, обрати внимание на трансакционность... Колхоз довольно шаткий, нельзя рассчитывать что будет доступен или ошибки ни возникнут... У меня качается очень и очень медленно (1-5К/s). Тут только cron спасет.
Re: Учебные материалы на Либрусеке
запустил выкачку.
мда, скорость ужасна.
выкачиваться такими темпами будет не один месяц :(
ладно, пусть качается.
Может проверишь как-нибудь список на предмет дублей? Хотя бы крупные файлы чтоб не перекачивать.
Re: Учебные материалы на Либрусеке
Дублей не должно быть. (внутри самого индекса, конечно - иначе насчет либрусека не знаю....)
Вот проверяю по уникальность имени файла внизу.
Но оказывается, проскользнули несколько "пустых" строк /без файла для скачки, может другое есть.../, скрипт что-то не так пропарсил или у них были пустые строки в таблиц.
Все же делай простую верификацию...
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | wc -l
20886
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | uniq | wc -l
20833
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | uniq -d
manul@siduxbox:~/piratek/homelinux$ awk -F "|" '{ print $6 }' kolhoz-superindex.txt | uniq -d | wc -l
37
manul@siduxbox:~/piratek/homelinux$ cat kolhoz-superindex.txt | wc -l
20886
manul@siduxbox:~/piratek/homelinux$ cat kolhoz-superindex.txt | uniq | wc -l
20886
manul@siduxbox:~/piratek/homelinux$
Кстати, прежде когда я заливал файлы через ftp (много fb2 упакованные в zip) твой скрипт отлова дублей отлично работал предоставляя вручную разборку дублей или подозрительных.
Теперь ето не работает... Все заливается молчаливо. И точно дубли появляются каждый раз...
Нельзя ли восстановить ето, когда у тебя время есть. Так хорошо было;)
Re: Учебные материалы на Либрусеке
интересно именно насчёт либрусека.
чтобы не тянуть то, что уже есть. бо долго
хотя бы самые толстые файлы проверить
пустые строки моему скрипту пофиг, сожрёт
дуполовку посмотрю.
Re: Учебные материалы на Либрусеке
Насчет либрусека думаю много не будут... Не так уж много у тебя научной литературы.
Иначе несколько точно есть... Я залил Хофштадтера и Пенроуза с колхоза же.
Но 20000 книг вручную не проверить?
Насчет размеров.. Там вообще почти все файлы толстые, не шутка. Total size of collection: 80 гига...
Re: Учебные материалы на Либрусеке
80 гиг текущими темпами (1K/s) будет качаться больше трёх лет...
Если поднимется до 5, как у тебя - управимся за год.
Как-то это неправильно, тебе не кажется?
Re: Учебные материалы на Либрусеке
;) Неправильно конечно.
Они весь уикенд были в дауне, я сегодня 1 день только html-индексы качал чтобы пропарсить.
С другой стороны я думаю они специально лимитят скорость... Для всех IP или только для зарубежных не знаю.
Можешь попытаться связаться с ними чтобы предоставили тебе канал потолще... Или лучше выслать все по почте;)
Re: Учебные материалы на Либрусеке
Чего то исчезли "Последние поступления".. /только первая страница, остальные нормально/.
Re: Учебные материалы на Либрусеке
Хоть одна книжка за день скачалась с колхоза?
В каком жанре у тебя они поступать будут, а то не видно....
Re: Учебные материалы на Либрусеке
Да, работа там большая. Но в принципе, если брать за имя автора (или сериала ;) просто первое слово строки, то процентов на 90 это решит вопрос. А 10%, конечно, будет хлам. Однако, во-первых, это не будет хуже, чем на самом Ихтике, а намного лучше ;) - все же по авторам сортировка получится. Во-вторых же, потом понемногу разгребем мусор вместе. Только для этого нужно будет на Либрусеке разместить материалы с Ихтика в отдельных разделах как-то, не мешать авторов в общую кучу. Вот тогда и я охотно помогу - когда качать не надо, а можно на месте почистить мусор. На первых порах можно английские/латинские названия исключить вообще, ограничившись только русскими - там гораздо лучше упорядочено - автор почти всегда на первом месте.
ЗЫ. Лучше я знаком с разделом "Электроника", и предложения мои - в основном основаны на нем. Но во всех разделах как будто похоже в смысле мусора. Насчет ряда разделов (например, "Восточные учения, эзотерика, теософия, оккультизм, каббалистика и т.п.") можно не торопиться ;). Пусть меня назовут скептиком (или еще как ;), но, ИМХО, эта чушь не нужна вообще, ни там, ни тут. Опасная чушь, более того. Далеко не каждый может позволить себе риск читать это. ИМХО, конечно.
Re: Учебные материалы на Либрусеке
По учебным материалам советую глянуть на http://dmbooksprog.narod.ru/
Установка очень простая а литературы огромное количество
Re: Учебные материалы на Либрусеке
(ихтик) Много ручной работы.
1) Описания файлов могут не соответствовать содержимому файла.
2) Файл внутри архива может быть испорчен, как правило, из-за неполного скачивания.
3) Внутри архива может оказаться не сама книжка, а только её оглавление.
4) Много архивов, содержащие отдельные статьи, похожих на "Тезисы доклада 'к вопросу о что-то-там-в-носу'".
Re: Учебные материалы на Либрусеке
Нельзя все книги, например, по математике, когда их будет действительно много, держать в одном "разделе" sci_math. Для того, чтобы найти что-то подходящее, придётся просмотреть весь раздел. Либо надо делать древовидную систему жанров, либо делать поиск, например, по ключевым словам, либо делать механизм для работы с УДК, либо ёще что-то.
Во времена, когда не было компьютеров,
если надо было найти книгу в обычной библиотеке, то в каталоге искалась карточка. Если книги нет или она "на руках", с карточки переписывался УДК (или его узнавали заранее), затем просматривались в каталоге все карточки книг с похожими УДК, и подбиралась книжка (и не одна!) нужной темы.
Т.е. нужен некий механизм поиска, которые сократит список найденных книг "по теме" до разумного размера.
Нынешних поисков -- по жанру, по автору и по названию не хватает.