Как сделать из PDF или DJVU FB2 ?

Вообще не представляю.
Если кто делал - помогите.

Комментарии

FineReader. Из него получаете текстовый документ.

Если в djvu чистый текст, то можно попробовать его распознать (FineReader или любой другой OCR). Если книга с большим количеством формул, графики или других нестандартных включений - то никак. Для таких книг djvu будет оптимальным форматом. То же самое относится и к pdf, если страницы в нем сохранены в виде картинок.

Аватар пользователя Captain Scarlett

Если pdf с ocr-слоем - "файл" -> "сохранить как текст". В противном случае - распознать при помощи finereader.

Воспользовавшись вот этой http://djvuocr.ucoz.ru/ программкой, из Djvu можно сделать tif, а затем распознать в Файнридере. Про PDF Вам уже написали - с ним проще.
А дальше из текстового файла делать FB2.

а 9-ая версия файн ридера распознаёт сразу Djvu, без перевода в tif.

Это верно, но не всякий файл, не всегда корректно. А с указанной програмкой можно исползовать и предыдущие версии. И даже демоверсии с исчерпанным сроком. Тут, наверное, надо пробовать на личном опыте, пару раз стукнувшись лбом:)

Для файлов *.pdf пользуюсь программой ABBYY PDF Transformer 2.0. На выходе имеем редактируемый WORD-овский файл.
А дальше, как обычно.

Очень интересно, что он скажет на сформированные [например] pdflatex файлы :)

а для PDF есть ещё программа PDF2WORD. Это так же для перевода в текстовый файл. А дальше уже программы для перевода в fb2

slp написал:
Вообще не представляю.
Если кто делал - помогите.

Из DJVU - единственное, что приходит в голову - экспортировать текстовый слой в TXT, чем-нибудь откорректировать "классические" ошибки (CR/LF в конце строки о т.д.) и ручками расставить теги.
Если тестового слоя нет - распознать FineReader, и свести задачу к предыдущей :)

Из PDF - экспортировать текст без разметки не проблема, проблема сохранить разметку и иерархию, часто имеющуюся в PDF- документах. PDFTransformer в этом отношении коварен, втихую пытается OCRить, допуская при этом типичные OCRовские ошибки (например, текст Q_OBJECT он интерпретирует то как O_OBJECT, то как 0_OBJECT). И это, прошу заметить, не на картинках, а на вполне текстовых участках.

Adobe Acrobat (не Reader) умеет экспортировать PDF в какой-то XML формат, но в свое время разобраться с его схемой у меня не вышло. Кстати, надо будет попробовать повторить, вдруг я поумнел с тех пор..... :)

Да, есть еще случай, когда PDF используется как контейнер для графических образов страниц. С этим - так же, как и с нераспознанным DJVU

Сейчас буду экпериментировать с OpenOffice 3.0, по слухам - умеет импортировать PDF напрямую
Наэкспериментировался. Хренушки, по крайней мере 2я бета :(

Ulenspiegel написал:

Adobe Acrobat (не Reader) умеет экспортировать PDF в какой-то XML формат

Он также умеет в rtf, txt через save as )) Если pdf-ка текстовая, конечно.
А дальше ручками в фб2.

Цитата:
А дальше ручками в фб2.

Ручками - это не системный подход! Лучше полдня потерять, но потом за полчаса долететь.... :Р

Для последней версии WordPerfect Office PDF - основной формат, AFAIK

Цитата:
Сейчас буду экпериментировать с OpenOffice 3.0, по слухам - умеет импортировать PDF напрямую

Умеет, только с офф. сайта нужно плагин дополнительно скачивать и устанавливать.

есть программа STDU Converter

Поклонникам электронных документов, книг и журналов , -конвертор DjVu в PDF всего в два клика. Вы можете конвертировать только часть книги или ее целиком, а так же выстроить свое дерево документа на выходе.
Пользоваться чрезвычайно просто, - находите документ в DjVu или TIFF формате и нажимате кнопку "Convert", и Все! Не забудьте только, указать папку куда вы будите складывать готовые PDF файлы.
http://rapidshare.com/files/112894074/STDUConverterP.rar

Замечательная программа! Остается добавить прогу для конвертации pdf в ворд: http://rapidshare.com/files/140618032/A.PDF.T.v2.0.0.1147_FULL.rar
И прогу для конвертации ворд в fb2: http://home.arcor.de/fb.tools/files.html
Ну и прогу для правки полученного fb2: http://rapidshare.com/files/127249582/FictionBook_Editor_2.0_beta_build_02_Jul.exe
После этого, полученную книгу надо долго долго вычитывать, вычитывать и вычитывать, убирая мусор.

Скопировать бы эти ссылки в fb2-cофт

Сделано.

Bullfear написал:
Замечательная программа! Остается добавить прогу для конвертации pdf в ворд: http://rapidshare.com/files/140618032/A.PDF.T.v2.0.0.1147_FULL.rar
После этого, полученную книгу надо долго долго вычитывать, вычитывать и вычитывать, убирая мусор.

Похоже архив битый... Никак не получается распаковать :-( Перезалейте пожалуйста файл. Очень нужный конвертер!

Архив нормальный. Перекачайте.

есть небольшой опыт использования STDU Converter. и должен сказать, пока печальный. моя конечная цель: получить из djvu формат epub, чтобы, используя программу Stanza, я мог бы читать книгу в айфоне.

печальный потому, что STDU Converter, преобразовывая в pdf, выдаёт файл, содержащий, как я понимаю, только лишь графический слой. и последующая конвертация в epub бесполезна, поскольку конвертор пытается, опять же - как я понимаю, вытянуть из pdf только слой, содержащий текст, которого там нет.

пробовал промежуточным действием преобразовать в формат doc, а из него уже в epub... но в ворде я получаю файл, содержащий ни единой буквы текста, а только лишь вставленные изображения. и опять же в epube после конвертации doc'a - пусто.

поискав какую-либо информацию, понимаю, что мне нужно разбить файл djvu на отдельные графические файлы, чтобы после осуществить распознавание текста...

вопросы:
1. Вы, говоря

Цитата:
находите документ в DjVu или TIFF формате и нажимате кнопку "Convert", и Все!
, хотите сказать, что полученный pdf содержит слой текста, а не графики? или же формат fb2 позволяет включать в себя как текст, так и графику, и те сложности с epub (только текст) fb2 не присущи?

2. кто-нибудь знает/слышал о возможности пакетной обработки djvu, с тем чтобы получить пакет отдельных графических файлов?

igor1504 написал:
2. кто-нибудь знает/слышал о возможности пакетной обработки djvu, с тем чтобы получить пакет отдельных графических файлов?
Ее зовут DjvuOCR. Актуальная версия вроде 2.4. Готовит входные файлы для FineReader, т.е. набор tiff-файлов.

upd. Кстати о читалках. ShortBook - для iPhone и формата fb2 - очень удобная вещь. Как я понимаю сейчас в AppStore есть не только платная (5$), но и бесплатная версия. Бесплатная не дает брать книжки с других сайтов, кроме сайта проекта. С платной можно залезть на Либрусек и взять любую книжку.
Кроме этого книжки можно забросить прямо в директорию читалки. Думаю и для бесплатной версии это не проблема. Со Stanza можно жить только если iPhone не разлоченный.

спасибо! только что нашел о ней упоминание и хотел поделиться информацией :)
например, по этой ссылке: http://djvu-reader.ru/programms/djvu-ocr.html

igor1504 написал:
спасибо! только что нашел о ней упоминание и хотел поделиться информацией :)
например, по этой ссылке: http://djvu-reader.ru/programms/djvu-ocr.html

Касперский по этой ссылке не пропускает. Фишинговая ссылка.

izekbis написал:
igor1504 написал:
спасибо! только что нашел о ней упоминание и хотел поделиться информацией :)
например, по этой ссылке: http://djvu-reader.ru/programms/djvu-ocr.html

Касперский по этой ссылке не пропускает. Фишинговая ссылка.
Ну так, фишинг и есть главная цель бота. Поэтому он и "поделился" информацией в надежде на хороший клёв.

и спасибо за инфу про iphone! ..как раз неразлоченный. a shortbook, если Вы упоминаете про appstore, может работать на неразлоченных, верно?
ну и fb2... он допускает графику? или только текст?

igor1504 написал:
и спасибо за инфу про iphone! ..как раз неразлоченный. a shortbook, если Вы упоминаете про appstore, может работать на неразлоченных, верно?
ну и fb2... он допускает графику? или только текст?
fb2 безусловно допускает графику. Только я имел ввиду основные фонды Либрусека и других библиотек. Сделать же файл fb2 из djvu ничуть не легче, чем epub. И занимает это не один день, обычно. Большая работа...
Если есть возможность купить программу в AppStore - можно работать и с неразлоченным. Но только не получится класть файлы в директорию iPhone с помощью обычного компа. Файловая система у неразлоченных телефонов закрыта, если мне не изменяет склероз. А вот с сайта закачивать - пожалуйста. (Хм. А как Вы Stanza файл подкидываете?)

Цитата:
(Хм. А как Вы Stanza файл подкидываете?)

в случае закачки с компа общий принцип такой:
1) нужна домашняя сеть wi-fi
2) нужна прога stanza для компа (или как на сайте её обзывают stanza desktop )
3) в stanza desktop для книги нужно выбрать пункт меню Enable Sharing (меню tools)
4) в stanza iphone в главном меню заходим в пункт [книги в общем доступе]
5) появляется менюшка, где мы увидим название своего компа, проваливаемся - видим список книг. выбираем нужную и пошел процесс.

единственное, что хочу отметить - это теория, поскольку я застрял на подготовке книги!!! так что пока еще ни одной закачки не произвел...

есть и другой способ, при котором не нужна домашняя сеть wi-fi (опять же могу рассказать теорию)

для этого используется онлайн каталоги. но! Вы можете создать свой онлайн каталог, залить туда книгу, а в stanza iphone добавить Вами созданный каталог в список каталогов. точно знаю.что сервис яндекса способен в этом помочь (использовать как площадку для собственного онлайн каталога)

Цитата:
Сделать же файл fb2 из djvu ничуть не легче, чем epub

немного разобрался..
1) могу достаточно быстро получить epub, но потеряю всю графику: схемы, таблицы, диаграммы, да и форматирование текста займет немало времени
2) Ваш комментарий по поводу fb2 навевает те же мысли о куче времени...

3) есть еще для iphone прога Files Lite. это не читалка, но позволяет просматривать вордовские документы в частности. поэтому проверю вариант, как поведет себя эта программа, если просматривать doc - документ, состоящий из вставленных изображений (то, что я получу конвертацией djvu в doc). если будет удобоваримо, на том и остановлюсь.

процесс заливки в телефон такой же примерно как и для stanza: или доступ через url из сети, или с помощью bonjour в домашней сети

ABC Amber PDF Converter 3.14

Пользуюсь вот этим http://ebook.online-convert.com/convert-to-fb2

Wolfsangel_88 написал:
Пользуюсь вот этим http://ebook.online-convert.com/convert-to-fb2

Два подряд сообщения об ошибке конвертации на 2 произвольных doc/rtf файлах - фтопку такую дрянь...
Если уж оно doc нормально не умеет, то что уж про pdf/djvu говорить?

Wolfsangel_88 написал:
Пользуюсь вот этим http://ebook.online-convert.com/convert-to-fb2

Вроде из PDF берет нормально только на выходе белеберда=абракадабра (проблемы с кодировками) подскажи что подкрутить?

воко написал:
Wolfsangel_88 написал:
Пользуюсь вот этим http://ebook.online-convert.com/convert-to-fb2

Вроде из PDF берет нормально только на выходе белеберда=абракадабра (проблемы с кодировками) подскажи что подкрутить?

Здесь вряд ли кто прямо сразу так ответит, ты пример нехорошей pdf-ки приведи, да?

И вообще самое универсальное (хотя часто избыточное и неоптимальное) решение с преобразованием pdf в текст -- это распознать pdf и вычитать.

Вот тут в doc можно переделать, а потом в fb2 уже проще.
http://clck.ru/CYb3

Аватар пользователя s_Sergius

Посмотрите что-то из Конвертация PDF в другие форматы. А из этих форматов в fb2 — отдельная тема.

Ряд djvu - читалок позволяет сохранить файл как текст.

sibkron написал:
Ряд djvu - читалок позволяет сохранить файл как текст.
Это если там есть текст. А в дежавюшках чаще текста нет, чем есть. Да и потом - текст в них весьма специфический: каждая строка записывается отдельно и каждый знак переноса в конце строки сохраняется. Короче, как экспорт в FB2 такой вариант надо сразу забраковать, чтиоб не плодить книг-инвалидов-уродцев.

Да, действительно бывает такое. Попробовал "Коринну" де Сталь сделать, решил, что не вариант при таком форматировании. Надо воспользоваться советом распознания дежавюшек ФайнРидером.

Есть отличная программа: Calibre 0.8.5 RuS + Portable — универсальный конвертер.Calibre — простая и удобная программа для управление библиотекой и универсальный конвертер электронных книг с большим количеством возможностей. Программа поможет упорядочить вашу библиотеку книг без особых трудностей. Также в её состав входят: утилита для преобразования одного формата в другой, интегратор новостей, программа для синхронизации данных с электронным устройством для чтения и хороший просмотрщик. Она просто необходима поклонникам чтения книг на переносных мобильных устройствах.
Calibre поддерживает конвертирование множество форматов.
Input Formats: CBZ, CBR, CBC, EPUB, FB2, HTML, LIT, LRF, MOBI, ODT, PDF, PRC**, PDB, PML, RB, RTF, TCR, TXT
Output Formats: EPUB, FB2, OEB, LIT, LRF, MOBI, PDB, PML, RB, PDF, TCR, TX
Вот ссылка для скачивания:http://portable4pro.ru/ofis/calibre-0-8-5-rus-portable-universalnyj-konverter.html

ПОЛЬЗУЙТЕСЬ пожалуйста!

Вот только не надо калиброванных файлов тут еще, и без того мусора полно. И не по теме: с PDF и DJVU эта суперпуперсофтина не справится...

Elena8696 написал:
Есть отличная программа: Calibre 0.8.5 RuS + Portable — универсальный конвертер.
......................
ПОЛЬЗУЙТЕСЬ пожалуйста!

Но помните при этом, что полученные файлы - это заготовка, даже если валидатор молчит.
По-жа-луй-ста!!!

Аватар пользователя Isais

Elena8696 написал:
Есть отличная программа: Calibre 0.8.5 RuS + Portable — универсальный конвертер... Вот ссылка для скачивания:http://portable4pro.ru/ofis/calibre-0-8-5-rus-portable-universalnyj-konverter.html
ПОЛЬЗУЙТЕСЬ пожалуйста!
...Но, пожалуйста, не заливайте на Либрусек результаты своего пользования: их тут и так больше, чем хотелось бы, вроде o b6706bf03d470c6d, o 99ca4aee0ba71440, o a8bed1b1b1e7ca02 и т.д.

Elena8696 написал:
Есть отличная программа: Calibre 0.8.5 RuS + Portable — универсальный конвертер.
Уй, @ля. Ещё один однокнопочник одноизвилинный. :-((((((
НА#@$ КАЛЯБРУ!!!

Эге ш, чудес не бывает..

Лучче б они, эти программы, всё-таки научились нормально распознавать дорев.книги, ато прям тоска...

Ser9ey написал:
Лучче б они, эти программы, всё-таки научились нормально распознавать дорев.книги, ато прям тоска...
Очень мало осталось людей, родившихся до революции, поэтому и нет спецов по дореформенной арфо-афро-графии.

Для конвертации из pdf в fb2 использую сервис go4convert
Есть вопросы небольшие, но в целом нормально.
Пишут, что работают над djvu конвертацией.

austalen написал:
Для конвертации из pdf в fb2 использую сервис go4convert
Есть вопросы небольшие, но в целом нормально.
Пишут, что работают над djvu конвертацией.

Все равно полученный результат можно рассматривать не более, чем заготовку для...

А можно и прямо сказать:

Рыжий Тигра написал:
Elena8696 написал:
Есть отличная программа: Calibre 0.8.5 RuS + Portable — универсальный конвертер.
Уй, @ля. Ещё один однокнопочник одноизвилинный. :-((((((
НА#@$ КАЛЯБРУ!!!
X