По поводу конвертации в fb2

У меня часто есть свободное время. Поэтому я частенько конвертирую и вычитываю книги в fb2. Но меня напрягает ситуация с поиском книг в соответствующем разделе либрусека. Неохота возиться в мусоре, искать книгу которую нужно конвертировать.
Что если сделать очередь книг на конвертацию - к примеру выводиться список, человек выбирает нужную ему книгу, и жмет - скрыть, либо чекбокс, который перечеркивает книгу.
Это обозначает что книга взята. Списко сильно бы облегчил дело всем.
Кого следует просить об этой фиче? Ведь не один ларин же пишет сайт.

Комментарии

Встречное техпредложение: запретить (программно) замену книг в кодировке UTF-8 на книги в однобайтных кодировках. Ибо находятся ребята (не будем показывать пальцем), которые, ничтоже сумняшеся, убивают все неконвертируемые символы в уникодном тексте.
Ларину на заметку.

Малолетний Д. написал:
Встречное техпредложение: запретить (программно) замену книг в кодировке UTF-8 на книги в однобайтных кодировках. Ибо находятся ребята (не будем показывать пальцем), которые, ничтоже сумняшеся, убивают все неконвертируемые символы в уникодном тексте.
Ларину на заметку.

Не обдуманное предложение, батенька. Часто бывает так, что в юникоде очень плохое качество текста, я качаю с литреса, и просто заменяю. А там ansi - и страшного в этом ничего не вижу, т.к. это не китайский язык. Кроме длинного тире там ничего не потеряется.

Psychedelic написал:
Не обдуманное предложение, батенька.

Обдуманное, обдуманное. Вот у меня под рукой файл. Последнее редактирование - Psychedelic.
Цитата:
Кроме длинного тире там ничего не потеряется.

А кроме длинного тире никаких таких символов не бывает, угу.

Малолетний Д. написал:
Psychedelic написал:
Не обдуманное предложение, батенька.

Обдуманное, обдуманное. Вот у меня под рукой файл. Последнее редактирование - Psychedelic.
Цитата:
Кроме длинного тире там ничего не потеряется.

А кроме длинного тире никаких таких символов не бывает, угу.

Какой файл, ссылку дайте, я вам подробно объясню почему это так, а не иначе. И что было до. Давайте.

Цитата:
А кроме длинного тире никаких таких символов не бывает, угу

Ну какие например из тех что используются в рассказах, романах и прочей худ лит. и лит. в целом?
Сразу скажу кавычки елочки есть и в ANSI.

Psychedelic написал:
Малолетний Д. написал:
А кроме длинного тире никаких таких символов не бывает, угу
Ну какие например из тех что используются в рассказах, романах и прочей худ лит. и лит. в целом?
Ударение. Мягкий перенос. Длинное, чёрт возьми, тире - если оно используется как тире, а короткое - в перечислениях, диапазонах и маршрутах (Москва - Адлер). Наконец, есть ещё математика - плюс-минус, умножение, "дэ" (дэ вэ по дэ тэ, если кто ещё помнит, о чём это). Всякие сигмы с дельтами и ламбдами.
Впрочем, не в том сюжет - ведь и в 1251 всё это богатство можно сохранить (через "&#юникодныйномер" - FBE2 автоматом конвертирует при смене кодировки), и в utf-8 можно угробить (перепустить через FBI - он заменяет не-1251-ные символы на "?", независимо от кодировки файла). Сюжет в том, что после преобразования надо проверять, а тот, кому западло проверить наличие книги в библиотеке, думаешь, проверит то, что сам наваял? :(

Судья Ди написал:
Psychedelic написал:
Малолетний Д. написал:
А кроме длинного тире никаких таких символов не бывает, угу
Ну какие например из тех что используются в рассказах, романах и прочей худ лит. и лит. в целом?
Ударение. Мягкий перенос. Длинное, чёрт возьми, тире - если оно используется как тире, а короткое - в перечислениях, диапазонах и маршрутах (Москва - Адлер). Наконец, есть ещё математика - плюс-минус, умножение, "дэ" (дэ вэ по дэ тэ, если кто ещё помнит, о чём это). Всякие сигмы с дельтами и ламбдами.
Впрочем, не в том сюжет - ведь и в 1251 всё это богатство можно сохранить (через "&#юникодныйномер" - FBE2 автоматом конвертирует при смене кодировки), и в utf-8 можно угробить (перепустить через FBI - он заменяет не-1251-ные символы на "?", независимо от кодировки файла). Сюжет в том, что после преобразования надо проверять, а тот, кому западло проверить наличие книги в библиотеке, думаешь, проверит то, что сам наваял? :(

Длинное тире, основная потеря. Все остальное используется редко, если совсем не используется.
Нет я не против юникода, но только там где он действительно необходим. На компьютере разница не почувствуюется, на порт. девайсах почувствуется более длительной загрузкой (файл в два раза больше).
Дело не в этом, а в предолжении с запретом на замену юникод на анси. Лежит файл в UTF - качество плохое. Чел. качает с литреса, в ANSI - и не может заменить. Он возмет да вставит его в Bookdesigner для конвертации в юникод, и получим вообще прекрасное качество. Но зато в юникоде.

Psychedelic написал:

Дело не в этом, а в предолжении с запретом на замену юникод на анси. Лежит файл в UTF - качество плохое. Чел. качает с литреса, в ANSI - и не может заменить. Он возмет да вставит его в Bookdesigner для конвертации в юникод, и получим вообще прекрасное качество. Но зато в юникоде.

Можно легко и без ошибок конвертировать в UTF с помощью Fb2Fix.

На Литресе, кстати, если не ошибаюсь, всё в UTF.

pkn написал:
Можно легко и без ошибок конвертировать в UTF с помощью Fb2Fix.
М-мм... не уверен, что всё пройдёт без ошибок. Единственный известный мне относительно безглючный конвертер 1251 в UTF-8 - это notepad, и то требует доработки руками: сначала в самом notepad'е заменить в тексте имя кодировки, а затем редактором вроде far'овского убрать первые три байтика.
pkn написал:
На Литресе, кстати, если не ошибаюсь, всё в UTF.
Ага, и сильно оно им помогло? Вот, например, судовая роль ЗПЛ "Тёмное пламя" - по мнению литреса:
Начальник экспедиции, историк Фай Р?дис
Командир звездолета, инженер аннигиляционных установок Гриф Рифт
Астронавигатор-I Вир Нори?н
Астронавигатор-II М?нта Кор
Инженер-пилот Див Симб?л
Инженер броневой защиты Гэн Атал
Инженер биологической защиты Нея Х?лли
Инженер вычислительных установок Соль Саин
Инженер связи и съемки Олла Дез
Врач Звездного Флота Эвиза Тан?т
Биолог Тиви?са Хен?ко
Социолог-лингвист Ч?ди Да?н
Астрофизик и планетолог Тор Лик
Внимание, вопрос: как всё же кого звали? :) В смысле - какие именно буковки стояли на месте знаков вопроса?

Судья Ди написал:
pkn написал:
Можно легко и без ошибок конвертировать в UTF с помощью Fb2Fix.
М-мм... не уверен, что всё пройдёт без ошибок.

Если заметите в работе Fb2Fix ошибки - сообщите, пожалуйста. А то я им довольно широко пользуюсь.

pkn написал:
Судья Ди написал:
Если заметите в работе Fb2Fix ошибки
Э... не юзал, не в курсе. Если напарываюсь на глюкавый .fb2 - обычно FBI'ем выясняю, в чём проблема, потом руками правлю в любом обще-тэкскэать-гражданском редакторе (notepad, например). Занимает пару минут. А что ещё умеет fb2fix?

Psychedelic написал:
Длинное тире, основная потеря.
В 1251 есть оба тире - и короткое (en dash, код U+2013), и длинное (em dash, код U+2014). Т.е. "потеря" оно не из-за смены кодировки, а просто кому-то нравится так, вот он и пробежался по документу контекстной заменой (или просто ткнул мышом в галочку "дигитальное ремастирование" :) в железобетонной уверенности, что скрипт всё сделает как надо :( ).
Psychedelic написал:
Все остальное используется редко, если совсем не используется.
Я это использую, поэтому "совсем не" отпадает. Кроме того, когда я уже использую букву "дельта" или там значок "умножение" (U+00D7), то мне именно эта буква именно в этом месте нужна, и заменять её на русское "х" не позволю.
Psychedelic написал:
я не против юникода, но только там где он действительно необходим.
Так он (вернее, UTF-8), получается, везде "обходим", :) ведь через "&#код" можно изобразить любую не-1251-ную буковку.
Psychedelic написал:
на порт. девайсах почувствуется более длительной загрузкой (файл в два раза больше).
"Эт-то несерьёзно!" (с) :) Слабо представляю себе портативный девайс, который читает со свего flash'а медленнее пары сотен кил в секунду, тем более, что рендерить FB2 - занятие куда более медленное, чем подчитывать с носителя очередные байтики для рендерера.
Psychedelic написал:
в предолжении с запретом на замену юникод на анси. Лежит файл в UTF - качество плохое. Чел. качает с литреса, в ANSI - и не может заменить. Он возмет да вставит его в Bookdesigner для конвертации в юникод, и получим вообще прекрасное качество. Но зато в юникоде.

Во-во. А каждый лишний конвертёж - лишний шанс что-ньдь угробить: в BD легко потерять Id документа и разметку, в FBI - "нестандартные" символы и форматирование в custom-info, FBE автоматом "выкорчёвывает" тэги "style" и "stylesheet"... Лишний конвертёж - всегда зло! :(

Цитата:
Psychedelic написал:
на порт. девайсах почувствуется более длительной загрузкой (файл в два раза больше).
"Эт-то несерьёзно!" (с) :) Слабо представляю себе портативный девайс, который читает со свего flash'а медленнее пары сотен кил в секунду, тем более, что рендерить FB2 - занятие куда более медленное, чем подчитывать с носителя очередные байтики для рендерера.

Маленькое замечание - я например, вычитываю все книги только на КПК, так вот при записи, заверяю, очень почувствуешь разницу в файле на 700К или 1.5М... :-(
После исправления каждой запятой ждать 2-3 секунды - достает. Файлы больше 700-800К приходится разбивать на части, потом склеивать - геморрой, однако, лишний.
Для просто чтения, конечно, разницы нет.

А вообще по-поводу кодировки - я думаю так: если человек знает что делает, так он сам сделает правильно. А криворукий - не в кодировке, так еще где-нибудь накозлит.
Я например, если начинаю вычитывать файл - сначала смотрю, можно ли его без потерь преобразовать в 1251 и если да, то (по вышеизложенной причине) то конвертирую, ну а если нет - тогда оставляю utf.
Так что я против любых принудительных запретов\конвертаций.

Psychedelic написал:
Какой файл, ссылку дайте, я вам подробно объясню почему это так, а не иначе. И что было до. Давайте.

Версию, что была до - смотрел, а как же.
А на объяснениях я не настаиваю. Мне объяснения вовсе не нужны. К чему?
Когда "некошерные" символы заменяются на вопросики - это несколько не то, что я бы назвал правильной правкой.

Psychedelic написал:
Ведь не один ларин же пишет сайт.

Один. Но Вы можете присоединиться, если хотите.

Файлы - "Занимательная физика", "Занимательная механика". Нурбей Гулиа. Но их уже, кажись, заменили.
А предложение, подумав, снимаю: такая защита от дурака поможет, но только от неизобретательного.
Иные не постесняются перед заливкой перекодировать обратно в utf.

+1. Так и делают, без изобретательности, а просто из-за усердия.

Я недавно зарегистрировался на сайте, собираюсь делать вычитку книг, которые в данный момент читаю. Так вот, обратил внимание, что многие fb2 книги в кодировке UTF-8. Я не против этой кодировки, но я решил проверить для чего она используется в каждом конкретном случае, то есть какие дополнительные символы используются. Первые же три скачанные книги оказались в UTF-8. Я сконвертировал их в ANSI, затем из полученных ANSI обратно в UTF-8. В итоге получились совершенно одинаковые файлы, сравнивал побайтно. Спрашивается, нужно ли мне в этом случае сохранять UTF-8, когда ясно, что абсолютно без потерь можно сохранить их в ANSI?
А насчёт всяких там длинных тире, неразрывных пробелов, кавычек — все они есть и в ансишной кодировке. Для простых художественных произведений вполне достаточно, даже если там встречаются латинские буквы или слова.

Уважаемый Yunix, Вы недавно в нашей библиотеке и потому не застали бурное обсуждение выбора кодировки.
Просто примите как данность - предпочтительна кодировка utf8. Если Вы случайно зальёте книгу в другой кодировке, не страшно. Но менять уже имеющуюся точно не стоит.

Yunix написал:
Спрашивается, нужно ли мне в этом случае сохранять UTF-8, когда ясно, что абсолютно без потерь можно сохранить их в ANSI?

Этот вопрос обсуждался, Ларин сказал - UTF. Для единообразия и вообще.

Спасибо за ответ, вы меня избавили от мучительных сомнений :)
Будем работать с UTF-8.

X