Как создавать книги в fb2, из pdf, djvu, rtf, doc, txt ..

Цитата:
Если нужно, я могу детально составить пошаговый шаблон, как конвертировать pdf и djvu с распознаванием в fb2. Как конверитировать картинки оттуда, сжатыми по максимуму в png без визуальной потери качества, причем конвертировать в пакетной обработке. точнее как это сделать относительно быстро и качественно.
Если кому интересно, скажите, опишу в отдельном топике.

Описал. Довольно много получилось.
Залил в doc (все равно читать придется за комьпютером).

http://lib.rus.ec/b/132325/

Жду комментариев.

Комментарии

Большая работа. Респект!

Для работы с картинками из уже готового fb2-файла не обязательно переносить его в BD.
В FBE есть опция "Экспорт в HTML". Результат тот же: собственно файл и папка с картинками.

Очень полезной оказалась для меня информация по массовой обработке картинок в IrfanView.
Немного смутила "галочка" в пункте "Convert to greyscale". Если картинки цветные, то получается, что они становятся черно-белыми, или я что-то не так поняла?

Да, я ж там написал что если картинки чернобелые. Для цветных нужно убрать эту галку, и поставить не 8 цветов, а 256 и более. Там это тоже написано.
С greyScale картинки получаются более качественные, и меньше размером чем если сохранить чб в цветном.

Цитата:
Для работы с картинками из уже готового fb2-файла не обязательно переносить его в BD.
В FBE есть опция "Экспорт в HTML". Результат тот же: собственно файл и папка с картинками.

Хех. А ведь потом все равно придется в BD вставлять (а там он наверняка опять переформатирует). А так сразу, меняем и сохраняем в fb2, с сохранением исходного форматирования.

спасибо

Аватар пользователя s_Sergius

Прочитал рекомендации.
Всё, в общем-то, правильно, но мне не нравится упор на использование Book Designer'a. Эта программа хороша своей всеядностью и годится для преобразования почти из всех форматов в почти все, но вот FB2 она делает довольно своеобразные, которые требуют слишком большой доводки. К тоже BD не поддерживает стиль 'cite', который бывает очень нужен.

Мой опыт показывает, что более удобно делать всю послеOCRную работу в Word'е, также сделать стилевую разметку, а затем конвертировать в FB2 посредством преобразования 'wml2fb.xsl', который входит в комплект doc2fb (В Word делаем 'Сохранить как XML…', 'Применить преобразование…', выбираем wml2fb.xsl и всё. Остается только переименовать .XML в .FB2).
Картинки сохраняются в том виде как были, сноски (Word'овские!) делаются сносками FB2, заголовки до 4-го уровня расставляются корректно. Стили типа 'cite' остаются на местах. (Стиль 'epigraph' почему-то заменяется на 'stanza'). А вот раздел 'Description' пуст. Нужно полностью заполнить ручками. Ну и другая обработка тоже не помешает.

Если же нужно оптимизировать картинки, BookDesigner тоже не очень нужен, так как в FictionBook Editor v2.0 (как и в FB Writer) есть скрипты для работы с иллюстрациями, например просто сохранить все картинки из FB2 в текущую папочку. Потом можно делать с ними, всё что нужно, и вернуть на родину.

Цитата:
но вот FB2 она делает довольно своеобразные, которые требуют слишком большой доводки.

Вы акцентировали внимание на слишком да еще и большой доводки
Какие например? У меня особых проблем с ним не было. Иногда файл получается невалидный, но это редко, да и fb2 подправить не сложно.
А как же с этим скриптом сделать главы, подглавы и вложенные секции? Как скрипт разберет что куда вложено и что есть title, а что есть subtitle?
В fbe их делать не реально.

Аватар пользователя Captain Scarlett

Цитата:
А как же с этим скриптом сделать главы, подглавы и вложенные секции? Как скрипт разберет что куда вложено и что есть title, а что есть subtitle?
В fbe их делать не реально.

В FBE это делается элементарно и без всяких скриптов :)
Аватар пользователя s_Sergius

Я уже писал, что заголовки до 4-го уровня wml2fb.xsl расставляет корректно. Он все будут title с правильным уровнем вложенности. А subtitle можно и в FBE расставить. Кроме того в FBE (версии 2.0) есть чудный инструмент, расположенный под структурой документа. C помощью этих стрелочек легко корректируется вложенность секций.
Но я не и настаиваю. Различных инструментов много, так что каждый может использовать то, что ему нравится больше. Лишь бы был хороший результат!

s_Sergius написал:
Различных инструментов много, так что каждый может использовать то, что ему нравится больше. Лишь бы был хороший результат!

+101
Пару раз встречал идеальные документы сделанные в Any2fb2!
Цитата:
Кроме того в FBE (версии 2.0) есть чудный инструмент, расположенный под структурой документа.

Действительно - есть... а я его и не заметил (черт знает, кем помрешь)

s_Sergius написал:
Прочитал рекомендации.
К тоже BD не поддерживает стиль 'cite', который бывает очень нужен.

Поддерживает. Выделить нужное, + правый клик--->cite.
А в верхнем меню cite нет, факт...

Аватар пользователя s_Sergius

TaKir написал:
s_Sergius написал:
Прочитал рекомендации.
К тоже BD не поддерживает стиль 'cite', который бывает очень нужен.

Поддерживает. Выделить нужное, + правый клик--->cite.
А в верхнем меню cite нет, факт...

Да, но дело в том, что в исходном файле этот стиль УЖЕ есть, а при переносе в BD исчезает, а еще раз проделывать разметку не хочется.
Когда таких фрагментов мало - не страшно, а если их пол книги?

Вопрос по BD & FBD
Задавал в параллельной ветке, но тут уместней.
Перейдя на Висту, обнаружил, что ни та ни другая программа не хочет работать в этой ОС. Ошибка какого-то файла .ocx
Если эта задача решаема, то что нужно сделать.
Попытки установки ее в корень и в другой раздел диска ни к чему не привели. Файл нашел в сети, скачал, пихал в разные папки (и в виндовз и в папку с программой) - безрезультатно.

Файл поместить в system32, затем его зарегистрировать - Пуск - Выполнить - regsvr32 имя_файла.ocx. Во всяком случае так в ХР. В Висте, кажется, тоже самое.

Попробовал. Бесполезно. система при попытке регистрации не может найти файл ни в виндовз ни в систем32 папке.
Ошибка же выглядит так: этот компонент DHTMLED.OCX (и еще один .осх файл) больше не входит в состав виндовз.

yurbox написал:
Попробовал. Бесполезно. система при попытке регистрации не может найти файл ни в виндовз ни в систем32 папке.
Ошибка же выглядит так: этот компонент DHTMLED.OCX (и еще один .осх файл) больше не входит в состав виндовз.

Да выкиньте нафиг эту висту. Это тормоз всей системы. В начале следущего года (да 2009) выйдет Windows 7, говорят она будет в разы быстрее этого тормоза.
Поставьте лучше XP x64 Pro - в данное время это наилучший вариант.

Я не спрашивал, что мне делать с вистой. Мне интересно - есть ли у существующего конкретного софта возможность работать в этой среде.
Если есть - то как этого добиться.
Если нет - не нужно сваливать с больной головы ФБД и БД на относительно здоровую голову висты.

yurbox написал:
Я не спрашивал, что мне делать с вистой. Мне интересно - есть ли у существующего конкретного софта возможность работать в этой среде.
Если есть - то как этого добиться.
Если нет - не нужно сваливать с больной головы ФБД и БД на относительно здоровую голову висты.

Относительно здоровую - это сильно натянуто. Сами Microsoft признала что данная версия неудачная по производительности и оптимизации компонент. А также масса пользователей. Мало кто хотел брать Висту, пока ее не стали навязывать принудительно с ноутбуками например и не сделали агрессивную рекламу. Я просто советую. Игры на ней идут также с микрорывками, по сравнению с XP на одной и той же конфигурации.

Спасибо за советы, я поначалу тоже хотел ее снести, ибо раздражала, как, видимо, все новое и непривычное раздражает. а потом то ли я к ней привык, то ли она под меня приспособилась, и как бы желание уйти на ХР у меня пропало.
В игры я не играю, бук мой от нее не тормозит несмотря на аэро фейс и все анимации (поотключал кучу ненужных сервисов). Удобно в ней все сделано. Одни только Избранные папки слева в окне чего стоят.
Проги по фб2 запустились шаманскими способами. Видео показывает. Все прекрасно.
Но это офф. в этой теме. Я его сегодня уже в других местах начитался.

Цитата:
Да выкиньте нафиг эту висту. Это тормоз всей системы. В начале следущего года (да 2009) выйдет Windows 7, говорят она будет в разы быстрее этого тормоза.

Если развивать офтоп, то на Longhorn тоже возлагалось много надежд - гораздо больше, чем оправдала Vista (если вообще что-то оправдала)... Хотя по поводу XP согласен.

Нифига! :(

Вспомнил я, наконец, где видел тему: http://the-ebook.org/forum/viewtopic.php?t=6177

Ура! программа наконец-то открылась! Не спрашивайте - как, ибо я сам не знаю, делал все по последней ссылке от agrey (спасибо ему)
Пока не проверял как будет работать и сохранять. но и это уже что-то.

-- у меня Window SP
-- я в system32 поместила свой файл 1.pdf
-- пуск
-- выполнить
-- regsvr32 набираю
-- нахожу свой файл 1.pdf и даю ему уже другое расширение (правильно ???) 1.ocx
-- ok
-- и этот файл не находится
Подскажите, пожалуйста, что я делаю не правильно ...
я плохо разбираюсь в этих тонкостях, но хочется научиться правильно заливать книги
спасибо
с уважением ...

А что вы, собственно, делаете?
пдф можно грузить без ухищрений. Если такой книги нет на сайте, конечно.

Цитата:
Цитата:
А как же с этим скриптом сделать главы, подглавы и вложенные секции? Как скрипт разберет что куда вложено и что есть title, а что есть subtitle?
В fbe их делать не реально.

В FBE это делается элементарно и без всяких скриптов :)

А как? Т.е. можно выделить слово, и сделать его title? Как? Я бы очень хотел чтобы такая возможность была. Подскажите пожалуйста где она. Я искал не нашел.

Цитата:

Я уже писал, что заголовки до 4-го уровня wml2fb.xsl расставляет корректно. Он все будут title с правильным уровнем вложенности

Вы не поняли. Как он определит что это title а здесь subtitle? Разве в ворде это можно указать?
Т.е. есть книга, в которой идет Глава 1. Далее в ней идут подзаголовки, через абзац, два. Вот их нужно вручную выделять как Subtitle. Как скрипт поймет это?
Или он просто сделает их как title? Но делать их именно заголовками нельзя, т.к. замучаешся читать на устройстве ebook, там заголовок начинается с новой страницы - т.е. в данной ситуации ,каждый абзац будет с новой страницы..

Аватар пользователя s_Sergius

А как? Т.е. можно выделить слово, и сделать его title? Как? Я бы очень хотел чтобы такая возможность была. Подскажите пожалуйста где она. Я искал не нашел.

Очень просто!
Выделяете абзац, нажимаете Shift+Enter и всё!!! titlе готов.
Выделяете абзац, нажимаете Alt+S и всё!!! subtitle готов.

Спасибо. Я не знал этого про title. Почему то об этом нигде не написано в программе.
Тогда BD остается только для конвертирования из html.

Это главная фича FBE - отсутствие справки. "Попробуй угодай" - бесплатная игра от Грибова юзерам.

Аватар пользователя s_Sergius

Psychedelic написал:
Спасибо. Я не знал этого про title. Почему то об этом нигде не написано в программе.
Тогда BD остается только для конвертирования из html.

Из HTML я конвертирую обычно через Word. Попался как-то документ с множеством перекрестных ссылок. BD такой FB2 наворотил, что просто офигеть, а через Word получилось нормально.
А из Word'a еще можно с помощью ExportXML.dot конвертировать.

Что же касается title, то это я методом тыка нашел. А потом уже увидел в книге Михаила Кондратовича "Создание электронных книг в формате FictionBook 2.1: практическое руководство" http://lib.rus.ec/b/123638. Там много чего полезного есть. Жаль, она мне поздно попалась.

s_Sergius написал:
Из HTML я конвертирую обычно через Word. Попался как-то документ с множеством перекрестных ссылок. BD такой FB2 наворотил, что просто офигеть, а через Word получилось нормально.

О нет, только не Word. Может быть наворотил с ссылками, но это еденичный случай. Word перегоняет все картинки в jpg, тем самым ухудшая (размазывание) качество их увеличивая их размер.

Аватар пользователя s_Sergius

Psychedelic написал:
Word перегоняет все картинки в jpg, тем самым ухудшая (размазывание) качество их увеличивая их размер.

Не заметил. На днях делал книгу, как раз из PDF. Картинки, как были смесью PNG и JPG, так и остались. Использовал только Acrobat, Word и FBE.

Цитата:

Вы не поняли. Как он определит что это title а здесь subtitle? Разве в ворде это можно указать?
Т.е. есть книга, в которой идет Глава 1. Далее в ней идут подзаголовки, через абзац, два. Вот их нужно вручную выделять как Subtitle. Как скрипт поймет это?

Очень просто. Нужно выровнять нужный абзац в Ворде по центру :) После преобразования doc2fb эти выровненные по центру абзацы станут субтитлами.

МихалЫч написал:
Цитата:

Вы не поняли. Как он определит что это title а здесь subtitle? Разве в ворде это можно указать?
Т.е. есть книга, в которой идет Глава 1. Далее в ней идут подзаголовки, через абзац, два. Вот их нужно вручную выделять как Subtitle. Как скрипт поймет это?

Очень просто. Нужно выровнять нужный абзац в Ворде по центру :) После преобразования doc2fb эти выровненные по центру абзацы станут субтитлами.

Все таки мой вариант лучше. 20 сек на перегонку в fb2 в BD, а после уже редактировать в fbe, - сразу видишь что делаешь. тем более после скрипта все равно нужно будет забрасывать его в fbe для шифовки.

Цитата:
Все таки мой вариант лучше. 20 сек на перегонку в fb2 в BD, а после уже редактировать в fbe

Дык никто ж не спорит, вопрос был, "разве возможно это в ворде?" - я ответил как это сделать.
Цитата:
тем более после скрипта все равно нужно будет забрасывать его в fbe для шифовки.

??? какой шифровки?

МихалЫч написал:
Цитата:
Все таки мой вариант лучше. 20 сек на перегонку в fb2 в BD, а после уже редактировать в fbe

Дык никто ж не спорит, вопрос был, "разве возможно это в ворде?" - я ответил как это сделать.
Цитата:
тем более после скрипта все равно нужно будет забрасывать его в fbe для шифовки.

??? какой шифровки?

там л пропущена.

Аватар пользователя s_Sergius

Возвращаясь к началу.
Многие PDF содержат текст в виде собственно текста, так что их можно и не распознавать. Достаточно самим Adobe Acrobat'ом сделать 'Save as HTML | RTF | DOC'. Если же так просто не получится, можно использовать ABBYY PDF Transformer. Он конвертирует PDF в разные форматы более корректно.
Читал где-то, что есть и DJVU с текстовым слоем, но мне такие не встречались.

Есть. Дневники Чехова из ППС на publ.lib.ru, например. Но этот слой в формате txt, где каждая строчка – абзац, т.е. с этим файлом еще работать и работать. Естественно, ни болд, ни италик в нем не отображаются.

Цитата:
Если же так просто не получится, можно использовать ABBYY PDF Transformer

Нашел в сетке у себя. Кому надо могу залить на рапиду. 220 мб.

Нестоит. Кому надо, тот найдет, например тут.
Или к примеру в теме fb2-софт, ссылка на которую есть в заглавном посте soshial.
ИМХО конечно, но FineReader все таки лучше...

В отделе Сноски утверждение:

Цитата:
..пишем две фигурные (это важно) скобки...

излишне жесткое.
Я, например, использую квадратные скобки. Все получается без осечек.

Еще вопрос. Я чего-то не смог в FR9 избавиться от знаков абзаца в конце строки. Никак. "Помню" в каких-то ранних версиях с этим проблем не было - отметил галочку и все насильственные переносы строки исчезли. Здесь же все галочки "Сохранять деление на строки" убраны, а оно все равно их сохраняет. Это все обычный OCR, конечно, не из pdf, ну да все равно. Не подскажете, что за хрень?

oldvagrant написал:
В отделе Сноски утверждение:
Цитата:
..пишем две фигурные (это важно) скобки...

излишне жесткое.
Я, например, использую квадратные скобки. Все получается без осечек.

Еще вопрос. Я чего-то не смог в FR9 избавиться от знаков абзаца в конце строки. Никак. "Помню" в каких-то ранних версиях с этим проблем не было - отметил галочку и все насильственные переносы строки исчезли. Здесь же все галочки "Сохранять деление на строки" убраны, а оно все равно их сохраняет. Это все обычный OCR, конечно, не из pdf, ну да все равно. Не подскажете, что за хрень?

В квадратных скобках могут содержаться ссылки на статьи, главы итп. к примеру [1] или [2]. Я уже так попал, потом пришлось нудно искать где же они лежат.

При сохраниении в html я ничего подобного не заметил, в FR9 (OCR был с djvu).

Аватар пользователя s_Sergius

Psychedelic написал:

..пишем две фигурные (это важно) скобки...

Если судить по набору скриптов FBE, то можно использовать для обозначения сносок различные виды скобок: фигурные {...}, квадратные [...], [!...!], [~...~] и свои собственные, лишь бы не смешивались с теми, которые сносками не являются.

Цитата:
Многие PDF содержат текст в виде собственно текста, так что их можно и не распознавать. Достаточно самим Adobe Acrobat'ом сделать 'Save as HTML | RTF | DOC'. Если же так просто не получится, можно использовать ABBYY PDF Transformer. Он конвертирует PDF в разные форматы более корректно.

Так рассказываю минуса.
Да текст переводиться качественно НО, одно большое но:

Включаються колонтитулы и номера страниц. Это очень сильно усложняет обработку конечного файла.

Так что даже в этом случае я выбираю Fine Reader - ведь весь текст разпознается без ошибок (если pdf текстовый), но можно выбрать области сразу и применить на все страницы.
Но если текст без колонтитолов и номеров страниц (что редко бывает), тогда конечно Transformer.

Psychedelic написал:

Да текст переводиться качественно НО, одно большое но:

Не такое оно и большое... Можно тем же Acrobat'ом сделать Crop страниц, с целью обрезки колон(титулов)цифр.

u235 написал:
Psychedelic написал:

Да текст переводиться качественно НО, одно большое но:

Не такое оно и большое... Можно тем же Acrobat'ом сделать Crop страниц, с целью обрезки колон(титулов)цифр.

Дык в том то и дело, что то же самое можно сделать и в Fine Reader, без мудрежа. Я к примеру не знаю как это делается, + надо устанавливать Adobe Acrobat а не Reader. В итоге юзать две программы, и тратить больше времени. - вот поэтому оно и большое "НО", по сравнению с FR - где все конверирование занимает минуты. Повторюсь - текст который не отсканирован, FR разпознает с без ошибок. А юзать подобный способ только для того, чтобы использовать програму pdf transformer имхо неправильно, ведь нужно смотреть на тот как быстро можно получить качественный результат.

Psychedelic написал:

Цитата:
Если нужно, я могу детально составить пошаговый шаблон, как конвертировать pdf и djvu с распознаванием в fb2.
.....
Описал. Довольно много получилось.
....
Жду комментариев.

Спасибо! Почитал с интересом.
Есть мелкие добавления:

По картинкам:
1) Галочку "dont enlarge smaller images" лучше все же включить. Во избежание )
2) При конверте в png таблиц, схем, штриховых ч.б. рисунков можно включать прозрачность (вверху галочка Save transparent color). Получается красиво. Актуально для цветных экранов.
3) Картинки в png лучше не ресемплить, теряется качество.
Идеально - с картинки снять скриншот нужного размера, потом сохранить его в png.

По тексту в ФР:
ФР грешит слиянием строк (абзацев) там, где не надо.

1) После распознавания встаем на самый первый текстовый блок, жмем поиск, галочку "искать по всему документу" ставим.
2) Делаем поиском дефис + разрыв строки - автоматом меняем на мягкий перенос + разрыв строки
3) восклицательный знак + разрыв строки - тыкаем в текст и ставим энтер где надо.
4) вопросительный знак + разрыв строки - тыкаем в текст и ставим энтер где надо.
5) двоеточие + разрыв строки - тыкаем в текст и ставим энтер где надо.
6) точка + разрыв строки - тыкаем в текст и ставим энтер где надо.

По замене-переделке картинок для готовых книг:
Совершенно простейший вариант такой:

1) Делаем унификацию иллюстраций в ФБЕ. (получаем имена картинок типа cover.jpg, i_001.png, i_002.png, i_003.png и т.д.)
2) Скриптом "Сохранить объекты" сохраняем в текущую папку с нашим файлом все картинки.
3) Идем в дескрипшен и там грохаем крестиками все картинки. (при этом в сорцах все ссылки на картинки (типа image l:href="#i_001.png) остаются!!)
4) Обрабатываем картинки, уменьшаем, не меняя их названия.
5) Открываем ФБЕ, жмем скрепку, выбираем все наши обработанные картинки скопом, жмем Open.
6) Потом жмем скрипт "проверка иллюстраций", на всякий случай.
7) Save...

При этом избегается лишняя операция по забросу в БД (ФБД), что иногда корежит готовый файл.

Цитата:
По картинкам:
2) При конверте в png таблиц, схем, штриховых ч.б. рисунков можно включать прозрачность (вверху галочка Save transparent color). Получается красиво. Актуально для цветных экранов.

Это если картинки не с OCR. С OCR такого не сделаешь. Плюс прозрачность увеличивает размер. + она в большистве и не нужна. Ведь все равно на белом фоне что на ebook что на компе.

Цитата:
3) Картинки в png лучше не ресемплить, теряется качество.

Здрастье приехали. Наоборот. Попробуйте сначала уменьшить без ресепла - удивитесь. это раз.
во вторых в скобках написано возле ресепла написано - (better quality)

Psychedelic написал:
Цитата:
По картинкам:
2) При конверте в png таблиц, схем, штриховых ч.б. рисунков можно включать прозрачность (вверху галочка Save transparent color). Получается красиво. Актуально для цветных экранов.

Psychedelic написал:

Это если картинки не с OCR. С OCR такого не сделаешь.

Здрасьте приехали )) И с OCR и с таблиц нарисованных в ворде, и с pdf одинаково хорошо все получается.
Белый цвет в картинке от источника картинки не зависит ))
Тем же самым ирфаном замечательно делается на раз.

Psychedelic написал:

Плюс прозрачность увеличивает размер. + она в большистве и не нужна. Ведь все равно на белом фоне что на ebook что на компе.

Здрасьте номер 2. Если там что и увеличивается - то непринципиально совершенно. Типа на 1-2 кб. Но в моей практике увеличения размера при прозрачности не замечал.
На еинках - прозрачность не важна. На компах и вообще цветных лсд - многим актуально, поскольку фон в читалках ставят не белый часто.

Прилагаю файлы для сравнения:
1) с уменьшением (способом resize) 650--->400 пикселей (tab_png_650-400_white_resize.png), 4 кб
2) с уменьшением (resample, better quality) 650--->400 пикселей (tab_png_650-400_white_resample.png), 34 кб
3) без уменьшения, скриншот сразу в нужный размер 400 пикселей, без прозрачности (tab_png_400_white.png), 4 кб
4) без уменьшения, скриншот сразу в нужный размер 400 пикселей, с прозрачностью (tab_png_400_transparent.png), 4 кб

Как говорится, почувствуйте разницу ))



За советы также всем спасибо. На выходных обновлю мануал (сейчас в поездке), с обозначением автора, который предложил вариант.
Думаю многим пригодиться.


Иногда png имеет даже ме́ньший размер, чем jpg
http://i4.imageban.ru/out/2010/12/05/581abfa36a0cbb56b297358a200a4c81.jpg
http://i1.imageban.ru/out/2010/12/05/3c15deacb34dfc99e136e91a1501afd0.png
Можете скачать и убедиться

dir написал:
05.12.2010 11:30 1 912 903 581abfa36a0cbb56b297358a200a4c81.jpg
05.12.2010 11:29 1 323 240 3c15deacb34dfc99e136e91a1501afd0.png

Фотки сделаны из дежавюшки из программы WinDjVu экспортом страницы.
Если кто не знает, как сохранить рисунок, вот подсказка:
ПКМ на рисунке и
X