ВАЛИДНОСТЬ. что это такое и с чем ее едят? Попытка вынести на обсуждение вопрос минимальных требований к книгам.

Вроде как назрело. Не холиварим. Только конструктив
Вот как-то так у меня получается.

Валидность - минимальные требования к файлу для того, чтобы он мог появиться в библиотеке.

Валидный файл - это:
1. файл в формате, описанном существующими ныне правилами. с предпочтением формату фб2 (пишу по-русски, чтобы не тыркать раскладку) и отсутствующий в библиотеке

2. файл с текстовым содержанием, который поддается прочтению специализированными на его формате программами, либо офисными текстовыми редакторами, обладающими функцией
графические файлы должны быть читаемы спец. программами либо стандартными графическими редакторами/вьюерами

3. файл, сквозная фрагментация текстового слоя которого не меньше 25% (при условии, что смысловая составляющая такого текста не утрачивается). Текст, удовлетворяющий требованию 25%, являющийся цельным блоком (середина, конец, начало) считается валидным и полным при отсутствии полного текста в библиотеке и выполнении условий п.5.

4. отдельные страницы файлов графического формата фрагментами не являются.

5. в теле файла независимо от его формата ОБЯЗАТЕЛЬНО должны указаны быть автор и название публикуемого документа.

6. минимальный размер. Здесь происходит основная загвоздка, ибо при заниженном минимуме возникает куча трудностей с упорядочиванием, а так же создается почва для спама. При разумном подходе минимальный размер нужно, наверное, все же ограничивать. Это спорно.

о формате фб2
формат является предпочтительным, но не обязательным. Файл фб2, отсутствующий в библиотеке, не распознаваемый фб2 софтом, но удовлетворяющий требованиям 1-6 является валидным.
При неправильно заполненном листке Дескрипшн - видимо, придется руками делать всем миром. Либо в самих файлах, либо, для начала, в формах на сайте.

Жанр - штука обманчивая и при массовой заливке ее можно упускать, главное, чтобы файл находился поиском по автору или названию.

Качество - внешние и внутренние составные части, обеспечивающие улучшение внешнего вида документа.
Дальнейшие манипуляции с входящим файлом являются работами по улучшению его качества.
Вычитка, переформатирование в предпочтительный для библиотеки формат, структурирование, и пр. работы по улучшению вида документа.

параллельно с этой веткой идет обсуждение на тему качества, думаю, что не стоит спорить какие книги нам нужны - качественные или некачественные. Конечно качественные, и там можно будет поговорить о приоритета одних видов качества над другими.

Комментарии

Попытка создания темы для обсуждения по существу встретила живейший отклик в народных массах...

Внесу, пожалуй, свои 5 копеек. Правда, это не совсем относится к валидации, но чтобы не засорять первую страницу кучей тем, думаю, что, поскольку к оформлению файлов это таки имеет отношение, то, имхо, это допустимо.

1. Хотелось бы, чтобы книги хранились преимущественно в текстовых форматах, прежде всего fb2, раз уж он принят тут в качестве стандарта. Графические форматы занимают слишком большой объем и, имея канал всего в 256K, приходится зачастую отказываться от закачки файлов в десятки мегабайт, да и диск у меня не резиновый. Кроме того, некоторые форматы, которые не являются общеупотребительными, также могут вызвать проблему. Например, формат prc на моем настольном компьютере читать довольно проблематично.

2. Хотелось бы, чтобы варианты одной и той же книги, отличающиеся только вычиткой, не плодились в неограниченном количестве. Я лично не понимаю, зачем вообще держать все варианты файла, но если это и впрямь кому-то надо, то ходя бы окончательный (на каждый текущий момент) вариант книги как-то был выделен от остальных. Самое неприятное, что в "последних поступлениях" зачастую также имеется по 3-5 вариантов некоторых книг, причем часто одного и того же размера. Честно говоря, неохота выкачивать все варианты и тем более все их анализировать, чтобы понять, какой вариант - окончательный. Это неудобно.

3. Это довольно мелкий вопрос, но все же. Хотелось бы, чтобы все файлы именовались единообразно (В последнее время, правда, в основном уже соблюдается) и если уж имя файла начиинается с автора книги, то чтобы сначала шла фамилия, а потом имя (а не наоборот, как я смотрю, сложилось на Либрусеке).

Все так, кроме предпочтения форматов. Именно в графических форматах присутствует чуть не половина уникальных книг и журналов, т.к. нереально перевести в фб2 множество формул, схем и картинок. Вас лично никто ведь не заставляет их скачивать - дело это сугубо добровольное ;), а формат файлов виден. Единственно, я бы посоветовал тем, кто будет в дальнейшем делать сам такие файлы, отказаться от pdf в пользу djvu, т.к. последний гораздо компактнее.

Цитата:
Я лично не понимаю, зачем вообще держать все варианты файла, но если это и впрямь кому-то надо, то ходя бы окончательный (на каждый текущий момент) вариант книги как-то был выделен от остальных.

Не хватит ресурсов человеческих. И решение придется кому-то принимать, опять же - дополнительные полномочия и склоки по поводу удаленных версий. Они время от времени и так всплывают.
Цитата:
Это довольно мелкий вопрос, но все же. Хотелось бы, чтобы все файлы именовались единообразно (В последнее время, правда, в основном уже соблюдается) и если уж имя файла начиинается с автора книги, то чтобы сначала шла фамилия, а потом имя (а не наоборот, как я смотрю, сложилось на Либрусеке)

Вроде бы просто фамилии. без имен.

yurbox написал:

Не хватит ресурсов человеческих. И решение придется кому-то принимать, опять же - дополнительные полномочия и склоки по поводу удаленных версий. Они время от времени и так всплывают.

Я и не требую непременно удалять, но как-то помечать последний вариант все же не мешало бы. Или хотя бы, чтобы каким-то образом была виддна хронология версий. А разбираться в 3,4,5 версиях тем более не хватит ресурсов человеческих. Какой-то выход все же нужен.
yurbox написал:

Вроде бы просто фамилии. без имен.

Сейчас скачал книгу для пробы, действительно только фамилия. Если это стало новым стандартом и будет применяться ко всем файлам, то замечательно.
Аватар пользователя Mylnicoff

foxm написал:
Я и не требую непременно удалять, но как-то помечать последний вариант все же не мешало бы.

Дубли отлавливаем и удаляем. Оставляя лучшие версии. Этим правом также, кстати, наделен любой пользователь библиотеки.

Mylnicoff написал:

Дубли отлавливаем и удаляем. Оставляя лучшие версии. Этим правом также, кстати, наделен любой пользователь библиотеки.

Просто я скачиваю каждый день "Последние поступления" и сразу заношу в свою библиотеку. И практически каждый день несколько книг встречаются в "Последних поступлениях" несколько раз. И, честно говоря, ударность труда отдельных пользователей или библиотекарей, в течении одного дня умудряющихся залить на Либрусек до 5 дублей одной книги, меня просто поражает. ;)
Получается, что в реальном режиме времени отловить дубли вручную совершенно не реально.
А нельзя ли автоматизировать устранение дублей только из "Последних поступлений", например, путем помещения в нее только самого последнего по времени дубля?
Аватар пользователя Mylnicoff

foxm написал:
И, честно говоря, ударность труда отдельных пользователей или библиотекарей, в течении одного дня умудряющихся залить на Либрусек до 5 дублей одной книги, меня просто поражает. ;)
Получается, что в реальном режиме времени отловить дубли вручную совершенно не реально.
А нельзя ли автоматизировать устранение дублей только из "Последних поступлений", например, путем помещения в нее только самого последнего по времени дубля?

1. Библиотекари - тоже пользователи. Насчет ударности труда: вы же сами ратовали за то, чтоб лили больше, без разбора, а библиотекари к 3000 году разберутся. Вот и разбираемся.
2. Дубли ловятся не только в последних поступлениях, а во всей библиотеке.

Во-первых, я ратовал за то, чтобы лили больше разных книг, а не по пять дублей одной и той же книги. И непонятно вообще, откуда появляется столько версий за ОДИН день (причем это КАЖДЫЙ день и НЕ С ОДНОЙ книгой)? Не лучше ли заливать только окончательную версию правки? Тогда бы и дублей было бы максимум два, а не 5 и время и усилия тех, кто правит, тоже было бы сэкономлено. Так что для меня такое количество дублей за один день просто загадка.
Во-вторых, я и не требую, как Вы, верно, заметили, чтобы библиотекари разбирались в реальном режиме времени. Я спросил насчет возможности автоматизировать исключение дублей из последних поступлений. Ответа я не услышал.
В любом случае, я предпочитаю вариант много книг, даже если это влечет много дублей, чем мало дублей, но мало и книг.

PS Я заранее признаю, что я злобный и гнусный враг №1 всех библиотекарей Либрусека и это исключительно из-за меня Либрусек далек от совершенства, особенно в плане качества книг. Только, пожалуйста, перестаньте кидаться в меня камушками.

Аватар пользователя Mylnicoff

foxm написал:
Во-первых, я ратовал за то, чтобы лили больше разных книг, а не по пять дублей одной и той же книги. И непонятно вообще, откуда появляется столько версий за ОДИН день (причем это КАЖДЫЙ день и НЕ С ОДНОЙ книгой)? Не лучше ли заливать только окончательную версию правки? Тогда бы и дублей было бы максимум два, а не 5 и время и усилия тех, кто правит, тоже было бы сэкономлено. Так что для меня такое количество дублей за один день просто загадка.
Во-вторых, я и не требую, как Вы, верно, заметили, чтобы библиотекари разбирались в реальном режиме времени. Я спросил насчет возможности автоматизировать исключение дублей из последних поступлений. Ответа я не услышал.
В любом случае, я предпочитаю вариант много книг, даже если это влечет много дублей, чем мало дублей, но мало и книг.
PS Я заранее признаю, что я злобный и гнусный враг №1 всех библиотекарей Либрусека и это исключительно из-за меня Либрусек далек от совершенства, особенно в плане качества книг. Только, пожалуйста, перестаньте кидаться в меня камушками.

1. Люди льют, что хотят. Им, видимо, лениво посмотреть на наличие или отсутствие книги. И лениво что-либо делать с тем, что они льют. Не всем, конечно, некоторым.
2. По возможности автоматизации - это не ко мне. Может, agrey знает или pkn. А как, кстати, исключить дубли - их же сначала сверить надо и оставить более качественный вариант.
3. Это не кидание камушками. Просто честный ответ на поставленные вами вопросы предполагает выброс некоторого количества такого гравия: либо мы строго контролируем закачки, и иногда кратковременно могут пострадать невинные люди, либо мы оставляем, как есть, и появляется много сопутствующего мусора.

Mylnicoff написал:

1. Люди льют, что хотят. Им, видимо, лениво посмотреть на наличие или отсутствие книги. И лениво что-либо делать с тем, что они льют. Не всем, конечно, некоторым.

Поскольку всем дублям присвоены номера, то система видит, что это один и тот же файл. Поэтому при добавлении книги можно было бы усложнить добавление дубля, усиленно спрашивая, точно ли хотят добавить дубль. Тогда ленивый не станет добавлять. Заодно это некая защита и от вандалов.

Mylnicoff написал:

2. По возможности автоматизации - это не ко мне. Может, agrey знает или pkn. А как, кстати, исключить дубли - их же сначала сверить надо и оставить более качественный вариант.

А я и не предлагаю удалять дубли. Просто в "Последние поступления" помещать только один файл из дублей. Например, последний по времени или самый большой.
Mylnicoff написал:

3. Это не кидание камушками. Просто честный ответ на поставленные вами вопросы предполагает выброс некоторого количества такого гравия: либо мы строго контролируем закачки, и иногда кратковременно могут пострадать невинные люди, либо мы оставляем, как есть, и появляется много сопутствующего мусора.

Так я и пытаюсь найти вариант, чтобы и библиотекарей не грузить лишней работой и чтобы мне было проще скачивать книги. Но я лучше потерплю неудобства, если альтернативой будет уменьшение количества книг.
Аватар пользователя Mylnicoff

foxm написал:
А я и не предлагаю удалять дубли. Просто в "Последние поступления" помещать только один файл из дублей. Например, последний по времени или самый большой.

Последний по времени или самый большой может быть худшего качества.

Mylnicoff написал:

Последний по времени или самый большой может быть худшего качества.

Да я все равно все файлы перегоняю в текстовый формат. Так что мне качество не так уж и важно
Аватар пользователя Mylnicoff

foxm написал:
Mylnicoff написал:

Последний по времени или самый большой может быть худшего качества.

Да я все равно все файлы перегоняю в текстовый формат. Так что мне качество не так уж и важно

Ну, я тоже в rtf перегоняю, но ведь и другие пользователи есть.

Mylnicoff написал:

Ну, я тоже в rtf перегоняю, но ведь и другие пользователи есть.

И много поможет другим пользователям куча дублей? Вот сейчас просмотрел последние поступления, так там книга Сергей Тармашова "Катастрофа" представлена в 6 (шести) вариантах! Рекорд! (точнее антирекорд...) С учетом того, что каждый день не одна книга имеет по нескольку дублей, то я не представляю себе, что кто-нибудь может реально просмотреть все эти дубли для выбора наилучшего. Поэтому, имхо, все же лучше выбирать оптимальный (хоть по какому-то критерию) дубль, а при необходимости пользователь может посмотреть и остальные дубли в библиотеке на предмет выбора более подходящего варианта.


чтобы не плодить посты, еще несколько замечаний по другим вопросам.
computers написал:

Все так, кроме предпочтения форматов. Именно в графических форматах присутствует чуть не половина уникальных книг и журналов, т.к. нереально перевести в фб2 множество формул, схем и картинок. Вас лично никто ведь не заставляет их скачивать - дело это сугубо добровольное ;), а формат файлов виден. Единственно, я бы посоветовал тем, кто будет в дальнейшем делать сам такие файлы, отказаться от pdf в пользу djvu, т.к. последний гораздо компактнее.

Конечно, никто не заставляет, но если хочется? ;) А посмотришь на файлы мегабайт в 20 и, хоть рука и дрожит ;), а галочку с них снимешь... Я ж и не писал, что вообще графические файлы не нужны. Я просто хотел бы, чтобы от них по возможности отказывались.


Цитата:

yurbox написал:

Вроде бы просто фамилии. без имен.

Сейчас скачал книгу для пробы, действительно только фамилия. Если это стало новым стандартом и будет применяться ко всем файлам, то замечательно.

А вот сейчас просмотрел последние поступления, вот там по-прежнему имя файла формируется как <имя автора>_<фамилия автора>_<название книги>.
Нельзя ли и в Последних поступлениях сделать так, чтобы фамилия автора шла на первом месте?


На: http://lib.rus.ec/node/123605#comment-36700
Приношу свои извинения тов. yurbox за то, что развел в его теме оффтоп. Я уже писал, что, поскольку заметил, что, увы, никто длительное время так и не стал обсуждать эту тему по существу (а жаль, имхо), то решил, чтобы не плодить темы начать обсуждение похожмх вопросов. И я, честно скажу, совершенно не ожидал, что ветка развернется на такую длину...

foxm написал:

На: http://lib.rus.ec/node/123605#comment-36700
Приношу свои извинения тов. yurbox за то, что развел в его теме оффтоп. Я уже писал, что, поскольку заметил, что, увы, никто длительное время так и не стал обсуждать эту тему по существу (а жаль, имхо), то решил, чтобы не плодить темы начать обсуждение похожмх вопросов. И я, честно скажу, совершенно не ожидал, что ветка развернется на такую длину...

Не стоит извинений. Просто своим первым постом вы нарушили чудесную картинку того благороднейшего игнора, которого подобная постановка конкретных вопросов на обсуждение, несомненно, заслуживает. Ибо если все будут знать - что такое валидный файл, то становится под угрозу возможность элитарного обладания сакральными знаниям. Толпу завораживают непонятные слова.

При закачке, развернуть файл в чистую строку, без всех спецсимволов и тегов. Пробелы свернуть в 1, а кавычки в непарные. Привести все к одному регистру и сравнить с такой же строкой уже имеющегося файла. Если совпадение больше 50%(границу подобрать по библиотечной статистике), тупо спрашивать у юзера, раза 3 :), типа "возможно вы закачиваете дубль, т.к. совпадает NN% текста. Вы уверены?". Окно с вопросом показывать на экране со случайным разбросом, что б юзер не тупо жмакал на клавишы.
Вариант не сложный, а дублей может и поуменьшить. Ведь эти дубли рождаются из-за отсутствия серверного инструмента сравнения файлов. Если будет возможность это сделать во время закачки - людям будет проще, т.к. не надо будет искать локальных вариантов.

Mylnicoff написал:
Этим правом также, кстати, наделен любой пользователь библиотеки.

...Но, видимо, не для всех книг: http://lib.rus.ec/s/4938
А?
Аватар пользователя Mylnicoff

Ряд книг блокируются от правок - в первую очередь новинки. Вандалам именно они не нравятся больше всего.
Но в данном случае удалить дубль сложно по иной причине. 3 дубля этой книги уже удалено, кстати.

По теме валидности будем выступать, или оффтоп - это основной принцип?
Уленшпигель (сорри за кирилицу) этот топик по вашей просьбе был сделан. Или ваша просьба была провокацией, как я и предполагал? ТОпик ваш под названием Качество в итоге вылился в обсуждение видов кавычек. Очень как бы, ммм.. ммм... познавательный получился. Но вряд ли конструктивный.
Или я зря тратил время на написание пунктов шапки?
Пусть лучше тут будет пусто, как вчера, чем посторонние разговоры...

Вопрос в тему. По новому ЧаВо
4.3.3.2.3 Книги в которых отсутствует более 10% текста. Очевидно, что если в тексте набор случайных символов, это тоже сюда попадает.
Ув. библиотекари. На мой взгляд 10% - это слишком жесткая планка, которую необходимо понизить хотя бы до 50%
Приведу основания. Существует файл. Полкниги от начала. Это 50%, что не укладывается в формат и не подлежит выкладке в библиотеку добропорядочным послушным юзером, читавшим ЧаВо. Другой такой же юзер имеет конец этой книги. и тоже не выкладывает на сайт.
В итоге - книга потеряна, а могла бы быть собрана в случае необходимости тем, у кого есть недостающий кусок.
Пример такой книги в библиотеке есть. Это http://lib.rus.ec/b/20500 Я вчера намеренно изменил ей название, чтобы указать на то, что она не в полном объеме. Так вот. В реале - это книга в руку толщиной и здесь представлена как раз на 50% своего объема. Допустим, сейчас при желании, можно отсканировать и выложить только второй кусок и склеить, это и без того немалый труд. при отсутствии же первой части работа увеличивается в два раза.
Это пример, возможно, и исключительный, однако факт остается фактом.
И еще вопрос. Правильно ли я поступил, изменив название таким образом?

Согласен по обоим вопросам.

X