B147858 Рубрикатор как инструмент информационной навигации
Опубликовано пт, 15/05/2009 - 12:27 пользователем oldvagrant
Forums: Рубрикатор как инструмент информационной навигации to Ulenspiegel
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 16 часов
sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 22 часа Isais RE:Семейственность в литературе 3 дня Violontan RE:Жан Батист Мольер воскрешенный 5 дней Dead_Space RE:DNS 5 дней sem14 RE:Гонкуровская премия 1 неделя Dead_Space RE:Беженцы с Флибусты 1 неделя Саша из Киева RE:Приключения белочки Рыжки 3 недели alex-from RE:Оплатил два раза, но абонемента нет 3 недели Kiesza RE:На 78-м году жизни скончался советский и российский... 3 недели Paul von Sokolovski RE:Бушков умер. 1 месяц lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц mig2009 RE:Багрепорт - 2 1 месяц Isais RE:Издательство "Медуза" 1 месяц babajga RE:Народные сказки - Сказки народов Сибири = Fairy-Tales of... 1 месяц Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 месяц sibkron RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц Isais RE:Игорь Северянин - Том 2. Поэзоантракт 2 месяца Впечатления о книгах
Lan2292 про Иевлев: Карандаш и уголь [СИ] (Боевая фантастика, Киберпанк, Самиздат, сетевая литература)
30 11 Это было интересно, очень интересно. Оценка: отлично!
decim про Ибаньез: Затерянная библиотека (Приключения: прочее)
30 11 Вторая часть серии "О чём молчит река". Дамское с приключениями. Без оценки.
dolle про Сугралинов: Город титанов (Боевая фантастика, Постапокалипсис, ЛитРПГ, Самиздат, сетевая литература)
30 11 Сюжет раскручивается, герой не имба и не превозмогает как у большинства авторов. Хорошая литРПГ в антураже тропического зомби-апокалипсиса.
mysevra про Обухова: Тихие шаги (Детективная фантастика, Мистика, Самиздат, сетевая литература)
29 11 Да какой там детектив или мистика, это тотальная и всепоглощающая драма с претензией. К тому же, дурно изложенная. Оценка: плохо
mysevra про Титов: Тёмный исток [СИ] (Боевая фантастика, Детективная фантастика, Самиздат, сетевая литература)
29 11 Двойственное впечатление. Частные детективы, космос, способности гл.героя, задумка, сюжет – всё замечательно. Казалось бы, чего ещё желать. И в то же время персонаж настолько раздражает своим неуместным кокетством, инфантильностью ……… Оценка: неплохо
mysevra про Бурлан: Симорон. Паштет из дирижаблей и флейт. Десять лакомых кусочков (Самосовершенствование)
29 11 Самое удивительное, что, если поднапрячься и продраться сквозь шутки-прибаутки, эта штука действует. Но смысл-то как раз в том, чтобы не напрягаться. В общем, каждому своё, а мне не подошло. Оценка: неплохо
udrees про Психология: Дыши. Как стать смелее (Психология, Подростковая литература, Детская психология)
29 11 Проходная психологическая книженция. Написана отрывисто, крупными мазками, одни советы отделены от других большими пробелами. К каждой странице прилагается какой-то рисунок размером со страницу. Текст написан редко, с разрывами ……… Оценка: неплохо
udrees про Верхотуров: Ядерная война. Все сценарии конца света (Публицистика, Военная документалистика)
29 11 Неплохая книга с обобщением материалов по поводу ядерного оружия и ядерной войны. Сначала немного истории с разработкой и сбросом бомб на Японию. Потом последствия взрывов на людей и государства. Потом про сценарии войны у ……… Оценка: хорошо
udrees про Морале: Я приду за тобой! (Юмористическая фантастика, Эротика, Самиздат, сетевая литература)
29 11 Книга написанная озабоченным школьником, или бывшим школьником. Практически никаких художественных описаний, кроме тел девушек, секса и разговоров. С первых страниц главный персонаж - суккуба – уже начинает действовать, убивать ……… Оценка: плохо
udrees про Морале: Крысиный бег I [СИ] (Эротика, Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
29 11 Эротический опус, опять приключения школоты, написанное школьником и для школьников. Еще и запихали сцены секса пасынка со своей мачехой, потом сводной сестрой, потом матерью подруги и многое другое. У автора одинаковые шаблонные ………
Дей про Возвращение Великого
27 11 Исключительно мусорная книжка. Ни сюжета, ни грамотности, сборник ляпов.
alexk про Владимиров: Охотник на демонов 2 (Боевик, Приключения: прочее, Самиздат, сетевая литература)
26 11 Далеко не первый такой файл вижу, но всё понять не могу, как можно было так исходник испохабить? Или это руками лишних пробелов после тэгов добавили? |
Отв: B147858 Рубрикатор как инструмент информационной навигации
Легко. Тезис первый, он же главный - "хоть чучелом, хоть тушкой, но ехать надо".
Stager - отмалчивается, как девушка в ответ на вопрос "Ты меня любишь?", а найти что-либо техническое, не зная заранее названия, в библиотеке ... сложновато.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну хорошо. Предположим, случилось страшное, и Вас заинтересовало программирование PIC-контроллеров. Поиск по "PIC" в библиотеке результатов не даст, поиск по "контроллеры" - даст набор книг на "Генезисе", но - если искомая книга называлась "Программирование средств промышленной автоматизации" - этот бесценный труд пролетит мимо Вас.
Найти библиографию по теме где-нибудь в и-нете, безусловно, можно, но хотелось бы, чтобы Либрусек был в этом смысле вещью самодостаточной.
Отв: B147858 Рубрикатор как инструмент информационной навигации
А чё я, чё я-то? Я ваще завсегда за.
Мой тезис таков:
Отличие информационной организации от склада - в наличии тематического поиска. Любая библиотека - что электрическая, что бумажная - это в первую очередь склад (с более или менее развитой логистикой). А библиотекой, т.е., храмом знаний, этот склад делают средства тематического поиска.
Раньше в бумажных библиотеках такие средства были - тематический каталог, библиографические издания плюс собственно библиографы. Теперь всё умерло, и этот механизм погребён под завалами информации. С альтернативами, в общем, плохо.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Я бы, честно говоря, к поиску добавил еще и навигацию по классификационному дереву. Что-то типа "А что у нас тут по программированию есть ? А для Web ? А чтоб еще и PHP присутствовало ?"
При любом раскладе - то, что "всё плохо", мы уже поняли. Теперь хотелось бы узнать, что надо сделать, чтобы всё опять стало хорошо :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну это и есть оно.
Правильно в наше время это оно должно выглядеть так:
Юзер в свободной форме даёт запрос.
В ответ он получает список понятий, соответствующих запросу.
Кликнув по понятию, юзер переходит в ту или иную классификационную систему, в то место, где это понятие находится.
И видит там книжки - по теме, по теме уже, по теме шире, по теме сбоку.
А если не понравилось - то выбрать список понятий, которым требуемое должно удовлетворять.
Тогда и будет -
Такое "оно" называется - "сужать запрос по тезаурусу". Но в современной программистской мысли почему-то модно расширять...
Как минимум - не класть книжки в картинках....
Отв: B147858 Рубрикатор как инструмент информационной навигации
Это невозможно.
Миссия pdf, кстати, была в частности в том, чтобы совместить текстовое представление с обеспечением сохранности содержания. Иначе научные статьи публиковали бы в rtf, скажем. Хорошо, если djvu или pdf файл имеет текстовый слой. В том случае, если он получен из авторского текста. Если из OCR - то такая естественнонаучная книжка годится только на шпаргалки студентам.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Книжка в картинках - это всё равно, что ничего.
Господа! Сказать файнридеру "распознать всё" - это один клик. Второй - создать pdf с текстовым слоем. И не обязательно класть текстовый слой поверх картинки - можно и наоборот.
Даже если результат будет содержать массу дефектов распознавания, в нём исчезнут формулы и картинки - всё равно его будет достаточно для более-менее адекватного автоматического индексирования. А альтернативы автоматическому индексированию нет.
Любая самая крутая классификация требует, чтобы кто-то соотнёс книгу с этой самой классификацией. Проиндексировал, типа. В процессе систематизации или предметизации. Три четверти книг в этой стране систематизируются примерно двадцатью сотрудниками Ленинской библиотеки. По ББК. Их не будет больше, и работать лучше они тоже не будут - работа эта низкооплачиваемая, однако требует наличия ума и образования.
Очевидно, тексты, книгами не являющиеся, никто никогда не проиндексирует. И какого тематического поиска вы хотите? Особенно, если курочите заглавия - лишая себя возможности воспользоваться плодами труда профессиональных систематизаторов?
Альтернатива - автоматическое индексирование. А для художественной литературы - вообще единственная возможность, ибо её никто не систематизирует. Да и классификаторов для неё нет.
Автоматическое индексирование даёт посредственный результат, требует специально заточенных классификационных систем - но это единственный путь. Но что-то вы не пылаете энтузиазмом...
Резюме: нет волшебного рецепта. Вот я скажу - и всё будет. Нет. Чтобы было - нужно делать. Нужно составить и поддерживать рубркатор. Нужно иметь текстовые книги. Нужно поддерживать в правильности их реквизиты. Нужно как-то соотнести книги с рубрикатором. И только потом - воспользоваться плодами.
А я вообще полагаю, что большинство народу тайно глубоко убеждено, что компьютер умеет думать, и если подождать -он всё придумает. Сам.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Вы хотите сказать, что в документе djvu или pdf могут параллельно существовать распознанный текстовый слой (пусть коряво распознанный, но невидимый для читающего и видимый для инструмента индексирования) и тот же текст в виде обычной картинки?
Если так, то ситуация кардинально меняется...
Отв: B147858 Рубрикатор как инструмент информационной навигации
В DJVU - однозначно может. И, более того, там даже может существовать оглавление, распознаваемое djvulibre (по крайней мере).
Более того, есть даже инструмент, позволяющий автоматизировать процесс (DjvuOCR), хоть и не "в один клик". И если суровый Stager предлагает сделать стандартом для добавления технической литературы DJVU с текстовым слоем и оглавлением (как минимальное требование), я, наверное, подчинюсь :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Я бы предложил - толку что?
Отв: B147858 Рубрикатор как инструмент информационной навигации
Нууу... Мне самому такая мысль уже приходила в голову. О том, чтобы нераспознанную книжку - сперва в морилку, потом в распрямилку, распознать и сделать оглавление. Проблема в том, что с технологией всего процесса я еще только разбираюсь, получается медленно - а залить что-нибудь свеженькое иногда свербит, и сильно. Скажем так - буду стремиться к окультуриванию. Но - проблемы классификации это автоматом не решает :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Не знаю за djvu, но длля pdf -
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну почему же... я - пылаю. Точнее, тлею. Пока что на этапе думания, да и то - с продолжительными остановками (реал, знаете ли, заедает...). Но вот уже, в дополнение к предыдущему разговору, додумался до того, что neural network для автораспознавания жанров художки таки придётся использовать. И до того, что не так neural network страшен, как его малюют - есть вполне пригодные готовые библиотеки, я остановился на FANN. Теперь вот думаю, нельзя ли всё-таки и подбор кивордов (ага, лошадей с мечами) тоже автоматизировать. Пока, правда - тупик...
Отв: B147858 Рубрикатор как инструмент информационной навигации
Звездолет на дикой планете. Звездолет упоминается раз пять, лошади с мечами - раз 100. К какому жанру причислит такую книгу ИскИн?
Отв: B147858 Рубрикатор как инструмент информационной навигации
К фентези. And rightly so.
Отв: B147858 Рубрикатор как инструмент информационной навигации
А как? Я совсем не понимаю в нейроных сетях, но, вроде, обучающая последовательность должна иметь однозначные критерии соответствия определённому результату, причём - одному. Как найти (составить?) текст, стопудово соответствующий одному делению классификации из (хотя бы) двух сотен, и стопудово не соответствующий никакому другому - я не представляю.
Ну тут правда тупик :-) Этот вопрос исследовался и многие пытались. Для отдельного текста - можно. Общие для двух - ну, где-то как-то... Для трёх - уже только местоимения :-)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Не хотелось бы поднимать старый флейм на тему, "что лучше - книга в плохом формате или вообще никакой".
Скажем так - скорость конвертации и вычитки мною книг существенно ниже скорости появления в и-нете любопытной литературы, и с этим я мало что могу поделать.
Но это - что касается программы минимум. А мне, честно говоря, хотелось большего - услышать от Вас, как профессионала, конкретные рекомендации. На уровне "копать здесь, кидать сюда, пока летит - отдыхать" :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Чисто технически: имя файла отданной книги - горбатое, и сам файл - классический пример того, как не надо использовать djvu. Я полагаю, распознать и закатать в .txt изготовителю помешали исключительно религиозные соображения.