удаление "двойников"

Аватар пользователя Антонина82
Forums: 

Когда я объединяю писателя, часто возникает ситуация, что одно и то же произведение, но в разное время залитое (один формат fb2), появляется в списке. Программа предлагает мне удалить худший экземпляр. Но поскольку я не обладаю багажом знаний в создании электронных книг, то по короткому вопроснику не могу судить, какой вариант лучше. Для начала список
Бойлен Клер «Эмма Браун»
Наменский Артём «Недра»
Норвилл Мэннинг - "Шаар - скиталец будущего"
Олдисс Брайан Уилсон - "Беспосадочный полет"
"Долгие сумерки Земли"

Янссон Туве - "Волшебная зима"
"Маленькие тролли или большое наводнение"

Брумель Валерий - "Не измени себе"

Наличие в библиотеке двух ОДИНАКОВЫХ книг ни к чему.Наверное, будет лучше, указывать в этой теме о наличии "двойников", а продвинутые пользователи библиотеки будут решать какой экземпляр оставить.

Аватар пользователя larin

s_Sergius написал:
Не дубль. Это архив из трех произведений, а это отдельное произведение.

Дубль.
По отдельности есть? Есть.
Значит дубль.

Достал уже этот спам, когда на страничке автора лежит том1, том2, том1+2, том3, том1+2+3, том2+3, итого шесть файлов вместо трёх. И всё это добро засоряет выдачу поиска, растаскивается по зеркалам и вообще портит.

Если тома не имеют смысла по отдельности, то надо снести их все и оставить только сборник. А лучше дождаться пока будет дописано, а не выкладывать по главам.
Если имеют - то сборники не нужны.

ИМХО стоит объединять мелочь в файлы покрупнее. Особенно много такого из ранних. Например, вот эту серию http://lib.rus.ec/s/21591. Или куча народных сказок кило до десятка.
Отдельный вопрос про качество файлов. Последнее время выкладывают Булычева Гуслярскую серию. Например, http://lib.rus.ec/b/631668. Обложка одна, издательская серия прописана другая.
Фактически вся серия Гусляр-3 есть в этом сборнике http://lib.rus.ec/b/541381. Аналогично и для других.
Есть есть авторский сборник, то отдельные рассказы стоит приводить к нему. За исключением - с другими картинками и т.д.
Серия "Галактическая полиция" Булычева вся есть здесь http://lib.rus.ec/b/474397 и http://lib.rus.ec/b/631609. А файлов 15-ть!
Мелкие рассказы - http://lib.rus.ec/b/108184.
.
http://lib.rus.ec/b/612225 - а вот это зря пообъединяли.

http://lib.rus.ec/s/134
Главы обозвали отдельными книгами.

Аватар пользователя larin

fixed.

http://lib.rus.ec/b/591342 глава из http://lib.rus.ec/b/262622
Пьер Алексис Понсон дю Террайль
http://lib.rus.ec/b/557466 http://lib.rus.ec/b/606735 http://lib.rus.ec/b/72721 http://lib.rus.ec/b/72722
http://lib.rus.ec/b/557459 полностью в одном томе (но структуру надо править) http://lib.rus.ec/b/517197 два первых http://lib.rus.ec/s/1112 - по отдельности книги
http://lib.rus.ec/b/255998 состоит из http://lib.rus.ec/b/606734 и http://lib.rus.ec/b/606733, так-же http://lib.rus.ec/s/1114 - часть из целого

Аватар пользователя sd

> http://lib.rus.ec/b/591342 глава из http://lib.rus.ec/b/262622
Главу о Некрасове можно читать не скачивая. Нет смысла объединять, пока Том 1 не переведен в фб2

http://lib.rus.ec/b/393187/ - это две части http://lib.rus.ec/b/72677 + http://lib.rus.ec/b/72678 отличия - лье - мили и нумерация арабские - римские
Графиня де Шарни три варианта с разными переводчиками одинаковые (?)
http://lib.rus.ec/s/10916 сборники включают 4 и 6 из 18 - оставить одиночные.

Аватар пользователя sd

Lyka написал:
http://lib.rus.ec/b/393187/ - это две части http://lib.rus.ec/b/72677 + http://lib.rus.ec/b/72678 отличия - лье - мили и нумерация арабские - римские

Две разные редакции, но разница совершенно формальная. Плюс, у однотомного варианта намного лучше верстка. Объединяю.

http://lib.rus.ec/a/11607 Скотт, Вальтер. Собрание сочинений в 20 томах [djvu] Зачем это, если есть Скотт, Вальтер. Собрание сочинений в 20 томах [fb2]? Зачем объёмное djvu, если есть fb2???

Spiridonov.Sergey1959 написал:
http://lib.rus.ec/a/11607 Скотт, Вальтер. Собрание сочинений в 20 томах [djvu] Зачем это, если есть Скотт, Вальтер. Собрание сочинений в 20 томах [fb2]? Зачем объёмное djvu, если есть fb2???

Контрольный экземпляр без ошибок OCR, внесенных создателем файла, с эталонной разбивкой на абзацы, с правильными переводчиками\ссылками\комментариями... Или файлы для эстетов, не принимающих FB2...
ИМХО стоит для изданных в бумаге иметь и графические форматы Djvu или Pdf. Единственное но для Djvu/Pdf созданных из текстовых документов их не стоит иметь.

Издательские дубли - серия "В одном томе". Но надо сверять то что лежит с Фантлабом (https://fantlab.ru/series20)
Например, http://lib.rus.ec/b/619218 соответствует серии.
http://lib.rus.ec/b/471127 написано компиляция, хотя указало что сделано Литресом. Иллюстрации соответствуют изданию Литреса. Возможно что компиляция этой серии http://lib.rus.ec/s/20846, но тогда потерялись в серии картинки.
http://lib.rus.ec/b/552112 самоделка литмировская.
http://lib.rus.ec/b/471327 не соответствует серии, нет статьи Олег Юзифович. Победить Дьюго (статья), стр. 794-798
аналогично отсутствует послесловие http://lib.rus.ec/b/471124

Файлы же не удаляются! Отправляйте монстров в АРХИВ!!! Просим уже сколь раз. Кому надо, посмотрят, найдут, вынут, почитают. Таких эстетов раз и обчёлся, а все остальные большинство спотыкаются о ненужные нам файлы!!!! МОНСТРОВ пдф и дежавю в АРХИВ, если есть фб2!!!

Аватар пользователя s_Sergius

Spiridonov.Sergey1959 написал:
...ненужные нам файлы!!!!

Скромненько так обобщил.
Аватар пользователя Антонина82

Spiridonov.Sergey1959 написал:
Файлы же не удаляются! Отправляйте монстров в АРХИВ!!! Просим уже сколь раз. Кому надо, посмотрят, найдут, вынут, почитают. Таких эстетов раз и обчёлся, а все остальные большинство спотыкаются о ненужные нам файлы!!!! МОНСТРОВ пдф и дежавю в АРХИВ, если есть фб2!!!

Тов. Спиридонов. Пишите о себе в ед.лице. Или вы представляете какую-то группу пользователей? Тогда сообщите, что вы - коллективный рупор сообщества книголюбов, в состав которой входят...

Фактический дубль СИ - Литрес
http://lib.rus.ec/b/608989/join/599405

Есть серия http://lib.rus.ec/s/5955. Это разобранные сборники.

http://lib.rus.ec/b/568602 (с картинками где-то 1200 на 1200 и размером в 25 метров) и http://lib.rus.ec/b/566217 более реальный вариант

http://lib.rus.ec/s/52152 серия - разобранная книга http://lib.rus.ec/b/400183

http://lib.rus.ec/b/626449 http://lib.rus.ec/b/172827 http://lib.rus.ec/b/417814
http://lib.rus.ec/b/533587 http://lib.rus.ec/b/269694

http://lib.rus.ec/b/158997 http://lib.rus.ec/b/607673 дубль, но надо вылавливать и там и там ошибки. например: в зало так холодно

Дорогой тов. Спиридонов,
Мне кажется, что надо кому-то принять решение --- либо данная библиотека содержит печатные книги (т.е. с концепцией страницы --- на нашей планете в данную эпоху они представлены физическими форматами pdf и djvu; в недавнем прошлом сюда входили ps и dvi), либо не содержит. Если содержит (т.е. это не "библиотека электронных книг" а вообще "библиотека, где много книг" --- судя по ярлыку в левом верхнем углу сайта, именно последнее), тогда Ваш аргумент не состоятельный. Конечно, djvu файлы абсолютно необходимы, ибо в них нет ошибок внесённых OCR. Не забывайте, что даже самые чистые и перечитанные тысячи раз электронные книги содержат минимум 50-100 опечаток, а чаще несколько сотен, а если очень большая книга, то тысячи или десятки тысяч. И единственный способ их исправить это сравнить с djvu оригиналом. Например, пару дней назад я исправил 50 опечаток в книге "Два капитана" из старой Библиотеки приключений --- казалось бы в такой популярной книге (кстати, сделанной очень профессионально и качественно в fb2! Я не сомневаюсь, что если бы её сделал я, то наверняка было бы более 50-и опечаток) не должно было остаться ни одной опечатки...

С другой стороны, если кто-то примет (неверное, с моей точки зрения) решение переименовать Либрусек в "библиотеку исключительно электронных книг" (т.е. просто поток знаков, а не глифов (pdf) или сканированных страниц (djvu)), тогда нужно все djvu глобально удалить. Есть ли соответствующая книга в fb2 формате или нет, не имеет никакого значения, ибо, как я уже сказал --- djvu и fb2 содержат совершенно разную информацию (совпадающую только в тех местах, где в fb2 нет ошибок).

Ясное понимание концептуального различия между печатными и электронными книгами, как мне кажется, абсолютно необходимо для успешной работы с хранилищами содержащими оба типа информации.

tigran.aivazian написал:
Например, пару дней назад я исправил 50 опечаток в книге "Два капитана" из старой Библиотеки приключений --- казалось бы в такой популярной книге (кстати, сделанной очень профессионально и качественно в fb2! Я не сомневаюсь, что если бы её сделал я, то наверняка было бы более 50-и опечаток) не должно было остаться ни одной опечатки...

Сверялись с бумагой или Djvu?
Дело в том, что старые советские издания писались по несколько иному правописанию. И слова, которые вы посчитали опечатками, вполне могли быть именно так напечатаны в книге.

Сверялся с djvu файлом, который в точности воспроизводит бумажное издание (т.е. без идиотской компрессии которая заменяет буквы и делает строчки "кривыми").
Когда я сам (или ученики под моим руководством) сканирую какую-либо книгу, я никогда не использую компрессию и сохраняю книгу "pixel for pixel". Т.е. если книга в djvu формате имеет размер не 10-15MB, а всего 2-3MB, то я сразу подозреваю, что что-то не так.
Не беспокойтесь, я работал внимательно и проверял каждую опечатку по оригиналу. Часто это были пропущенный emdash (не знаю как по-русски emdash --- длинный дефис, что-ли?) или лишний абзац внутри прямой речи.
Более того, я сам из той эпохи, т.е. в детстве читал именно эти самые оригиналы и, следовательно, это моё "родное" правописание :)

Кстати, интересная штука подсознание. Я обычно читаю одновременно 40-50 книг (на 10 языках, по многим наукам и немножко худ. лит тоже :) и если это эл. книги, то подбираю шрифт согласно "характеру" книги (это "чутьё" выработалось за годы работы издаталем). Так вот, читая "Два капитана" я перепробовал несколько шрифтов и всё было "не то". И вот, наконец, попробовал Paratype Academy и сразу почувствовал "это то, что нужно". Но это было ДО того как я начал исправлять опечатки, т.е. до того, как я нашёл и скачал сканированный djvu оригинал. Так вот, оригинал оказался набранным именно шрифтом Академия (или очень похожим на него --- те же характерные "ц", "щ", "р" и т.д.)! Видимо в подсознании была эта информация (в детстве-то я всю библиотеку приключений, разумеется, читал) и оно подсказало какой шрифт "тот", а какой "не тот" :)

tigran.aivazian написал:
Сверялся с djvu файлом, который в точности воспроизводит бумажное издание (т.е. без идиотской компрессии которая заменяет буквы и делает строчки "кривыми").

Это не компрессия кривая, это ручки кривые. Замена букв идет при кодировании сканов в 300dpi. Строчки кривые - значит так сканировалось.\обрабатывалось.
Цитата:
Когда я сам (или ученики под моим руководством) сканирую какую-либо книгу, я никогда не использую компрессию и сохраняю книгу "pixel for pixel". Т.е. если книга в djvu формате имеет размер не 10-15MB, а всего 2-3MB, то я сразу подозреваю, что что-то не так.

Меня наоборот удивляет когда Djvu текстовой книги (цветная обложка + форзац + фото автора + текст) весит 10-15-20 метров. Судя по моему опыту, что-то мудрят.
Цитата:
Не беспокойтесь, я работал внимательно и проверял каждую опечатку по оригиналу. Часто это были пропущенный emdash (не знаю как по-русски emdash --- длинный дефис, что-ли?) или лишний абзац внутри прямой речи.
Более того, я сам из той эпохи, т.е. в детстве читал именно эти самые оригиналы и, следовательно, это моё "родное" правописание :)

Если будете выкладывать - укажите в истории что вычитано по такому-то изданию!
Цитата:
Кстати, интересная штука подсознание. Я обычно читаю одновременно 40-50 книг (на 10 языках, по многим наукам и немножко худ. лит тоже :) и если это эл. книги, то подбираю шрифт согласно "характеру" книги (это "чутьё" выработалось за годы работы издаталем). Так вот, читая "Два капитана" я перепробовал несколько шрифтов и всё было "не то". И вот, наконец, попробовал Paratype Academy и сразу почувствовал "это то, что нужно". Но это было ДО того как я начал исправлять опечатки, т.е. до того, как я нашёл и скачал сканированный djvu оригинал. Так вот, оригинал оказался набранным именно шрифтом Академия (или очень похожим на него --- те же характерные "ц", "щ", "р" и т.д.)! Видимо в подсознании была эта информация (в детстве-то я всю библиотеку приключений, разумеется, читал) и оно подсказало какой шрифт "тот", а какой "не тот" :)

А может наоборот. Paratype Academy создавался на основе типографского шрифта.

Да, вполне вероятно Paratype Academy создавался на базе типографского шрифта. Большинство (если не все) оптических семейств создаётся именно так. Например, Adobe Garamond Premier Pro Opticals основан на старинном шрифте времён Ришелье (кажется биографию Ришелье на нём впервые напечатали --- иронически, автор шрифта был протестант :)

Насчёт компрессии, нет, я имел ввиду именно то, что сказал. Под "кривыми" строчками я имел ввиду неравномерность вертикального расстояния между строками (baseline), возникающую от замены букв на эквивалентные. Например, буква "а" встречается 100 раз на данной странице, но вместо того, чтобы хранить всю страницу как есть (т.е. БЕЗ компрессии) она разбивается на атомарные объекты и все повторения заменяются ссылкой на один объект. Но высота у всех этих букв "а", конечно, не одинакова и поэтому получается впечатление "кривой" строки. А насчёт искривления при сканировании, это тоже имеет место, но это совсем другой эффект.

http://lib.rus.ec/b/625762
http://lib.rus.ec/b/627221
Не дает объединить из-за знака качества

Аватар пользователя sd

Есть несовпадения по тексту, возможно, разные редакции
У 627221 в истории версий прописано: "2.1 сверка с бумагой, вставка пропущенных фрагментов"
У 625762 место издания - Киев, у 627221 - Москва
Добавил знак качества 625762-му

http://lib.rus.ec/b/408813 1189K (67) (скачать doc) на него и даётся ссылка в серии ЖЗЛ http://lib.rus.ec/node/286483 !!! и http://lib.rus.ec/b/536659

Клаузевиц 3M, 306 с. (39) (скачать djvu) http://lib.rus.ec/b/295244 - На этот файл ссылка в перечне http://lib.rus.ec/node/286483
Клаузевиц 1771K, 193 с. (1297) http://lib.rus.ec/b/305395

Марко Поло 486K, 112 с. (1722) (читать) (скачать)
Марко Поло 7M, 352 с. (скачать pdf) опять на этот файл ссылка в перечне http://lib.rus.ec/b/594732 хотя есть http://lib.rus.ec/b/278368 но в другой серии. Можно как то сверить?

Аватар пользователя sd

Arabella-AmazonKa написал:
Марко Поло 486K, 112 с. (1722) (читать) (скачать)
Марко Поло 7M, 352 с. (скачать pdf) опять на этот файл ссылка в перечне http://lib.rus.ec/b/594732 хотя есть http://lib.rus.ec/b/278368 но в другой серии. Можно как то сверить?

Вы могли бы это сделать сами:
скачать pdf и открыть
сравнить
- это одна и та же книга?

Вы прекрасно знаете, что ЖЗЛ под контролем, и помните мое сообщение про серии расказов и сборники. Вы спокойно удалили, на меня модер наехал! (Я под колпаком, мне надо вести себя осторожно, раз на порнорассказ с пытками и прочим наехала! Я его размазала по стенке, а мне приписали его пропаганду! Не хочу бан получать.) Помните как мне баном грозили, а вы спокойно удалили.
Чтобы сравнить, тем более книгу из другой серии, не ЖЗЛ, надо опыт сравнения иметь, чего-то там смотреть. я ни бум бум да и не хочу лишний раз с модерами общаться, с их наездами....

Не вижу проблемы в вылавливании дублей. Скачать одну книгу, скачать другую (или просмотреть на сайте). Если обе FB2 - при сравнивании на сайте видна разница.
Можно открыть на сайте FB2-info. В нем может быть указано:
разные версии одной книги (id - один, версии разные)
Я так указываю "конвертировано из txt и т.д."
Бывает указано id-librusec исходника.
Если книги в разных форматах - сравнить глазками. Достаточно пары страниц.
Для переводных книг соседствуют несколько книг: с указанным переводчиком, без указания переводчика, народный перевод. Тут и бывают дубли.
Дублями являются между собой текстовые форматы fb2 - txt - Doc - Epub - PDF текстовый (как,
например, http://lib.rus.ec/b/571582 и http://lib.rus.ec/b/571677).
Дублями не являются текстовый и графический форматы. http://lib.rus.ec/b/50734 FB2 и http://lib.rus.ec/b/577950 Djvu

пока сложно. FB2-info вообще пока тёмный лес. Дублями не являются текстовый и графический форматы. http://lib.rus.ec/b/50734 FB2 и http://lib.rus.ec/b/577950 Djvu. Для меня второй дубль: там и рисунков вроде нет, зачем этот монстр? Видите, начну что-то сама Делать, может модератор накажет. Djvu для меня допустим, если там рисунков много и FB2 получается очень громоздким. А так перевод из Djvu очень сложен, все в инете про это пишут. Так что пока сама не рискую многое делать.

Аватар пользователя sd

Arabella-AmazonKa написал:
Вы прекрасно знаете, что ЖЗЛ под контролем, и помните мое сообщение про серии расказов и сборники. Вы спокойно удалили, на меня модер наехал! (Я под колпаком, мне надо вести себя осторожно, раз на порнорассказ с пытками и прочим наехала! Я его размазала по стенке, а мне приписали его пропаганду! Не хочу бан получать.) Помните как мне баном грозили, а вы спокойно удалили.
Чтобы сравнить, тем более книгу из другой серии, не ЖЗЛ, надо опыт сравнения иметь, чего-то там смотреть. я ни бум бум да и не хочу лишний раз с модерами общаться, с их наездами....

Вам был задан простой вопрос, вы на него не ответили.
Если не способны открыть файл и посмотреть, что в нем - вам нечего делать в базе библиотеки.
Аватар пользователя sd

Lyka написал:
http://lib.rus.ec/b/185308 http://lib.rus.ec/b/352893 знак качества
Объединил, знак качества убрал - не прописаны ссылки на комментарии.
Аватар пользователя georgetray

Kирa Стрeльникoва и Кира Стрельникова

Один автор в двух лицах. Внутри разные версии произведений.

http://lib.rus.ec/b/413994 СИ и http://lib.rus.ec/b/438076 печатная, поправленная корректором (или автором?)
М-да - Слегка покачиваясь М-да… — Мягко покачиваясь
Да так… Ничего. - Мужчина ……… гостинице, в какой-то разнесчастной Шале, которая и не поймёшь, - то ли город, а то ли просто разъевшаяся деревня
Да так… Ничего. — Сергей ……… гостинице, в какой-то разнесчастной Шале, которая и не поймешь, то ли город, а то ли разъевшаяся деревня

Аватар пользователя sd

done

http://lib.rus.ec/b/135492 полностью входит (за исключением мемориев - самопально вставленных) в http://lib.rus.ec/b/146126
http://lib.rus.ec/b/181319 (текстовая) http://lib.rus.ec/b/639886 (с картинками) текст не отличается.
http://lib.rus.ec/s/39718 и http://lib.rus.ec/s/12423 - есть сборники и поотдельности.
Дубль? http://lib.rus.ec/b/388791 http://lib.rus.ec/b/605529
Есть серия http://lib.rus.ec/s/19511 и сдвоенные тома: http://lib.rus.ec/b/625423 http://lib.rus.ec/b/625424

Аватар пользователя sd

Lyka написал:
http://lib.rus.ec/b/135492 полностью входит (за исключением мемориев - самопально вставленных) в http://lib.rus.ec/b/146126

Сборник "Крест" имеет копирайт автора за 2003 год. Т.е. автора спрашивали о его составлении.
НО: В продаже данный сборник не содержит двух последних пунктов, т.е. большая вероятность что данный сборник на сайте - компиляция верстальщика из уже существующих в сети текстов.
Сборник "Последний парад" в продаже отсутствует, но есть у Мошкова
http://lib.ru/PROZA/DEGTEW_W/parad.txt
с указанием копирайта автора за 2006 год (наследники?).
т.е. скорее всего данный сборник - сетевой, но с разрешения автора.
Так как форматирование последнего на сайте лучше, объединяю в его пользу с комментарием:
Цитата:
Полностью содержит сборник "Крест" (2003)

---
Проблема с обложкой. Обложка от "Карамболь" - обманка, есть отличия:
https://www.ozon.ru/context/detail/id/2157092/
Я как-то делал обложку - "Обложка отсутствует". В данном случае она бы была к месту, но не смог ее найти.
===
Поменял обложку. Если найдется настоящая обложка сборника "Последний парад", то ее и надо будет добавить.
UPD:
Вернулась обложка-обманка. Т.к. эта обложка прописана в файл, она будет выскакивать вновь при обновлении дискрипшенеа. Пришлось добавить запись в комментарий.
UPD 2:
Добавил вместо обложки портрет автора. Обновил дескрипшен. Портрет остался.
Пожалуйста, не прикрепляйте сборнику обложки фейки! Сперва найдите обложку сборника, чей состав совпадает с данным сборником

http://lib.rus.ec/b/316559 литресовский корректированный без форзаца и иллюстраций и http://lib.rus.ec/b/318361 СИ (?)
http://lib.rus.ec/b/393229 литресовский корректированный без форзаца и иллюстраций http://lib.rus.ec/b/394972 с печатными иллюстрациями и форзацем
http://lib.rus.ec/b/283787 http://lib.rus.ec/b/396173
http://lib.rus.ec/b/481323 сборник и почастям http://lib.rus.ec/s/14682

Страницы

X