Мои алгоритмы работы с FR11

Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме.
Сейчас решила собрать все советы в своём блоге.

Никого не собираюсь переубеждать, не буду тратить время на доказывание, что мой метод лучше какого бы то ни было другого; просто делюсь своими наработками - вдруг кому-нибудь пригодится? На вопросы по содержанию с удовольствием отвечу.

Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2.
При таком экспорте решается сразу несколько важных проблем:
- диалоги сохраняют начальное тире, хотя в ФР после них стоят знаки табулятора (список/перечисление)
- сохраняется форматирование курсивом/полужирным
- никаких "мягких" переносов
- возможен экспорт картинок. Это, правда, половинное преимущество, поскольку картинку всё-таки хорошо бы обработать. Но, во-первых, обрабатывают картинки не все верстальщики, а во-вторых, сразу видно место, где они должны находиться.

Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты".

После распознавания сохраните документ ФР.


Продолжение: Файл fb2, полученный из FR11

Комментарии

J_Blood написал:
Антонина82 написал:
Удручает очень плохая работа ФР со сносками.

Я последнее время даже не пытаюсь ФР сноски доверять. По мне лучше потратить время и рассовать их в скобки, чем потом разгребать. Потом скриптом в ФБЕ. Все равно просматриваю, чё он там нараспознавал, пустые строки расставляю, стихи, в одну строку которые, разбиваю... ну и заодно.

Плюспиццот.

А кто-нибудь делал книгу с over4000 сносок? У меня целый день провисел вчера (часов 9, пока свет не отрубили) и fb2 обрывается на 1035-й сноске... Может FR!! больше не может?
Через FBTool извращаться не хочется (да и виснет тоже не слабо)... Может сноски объединить со стилем "основной текст"? А потом руками расставлять(((

Цитата:
Плюспиццот.

Ага-ага!!!
Цитата:
А кто-нибудь делал книгу...

Хм... Максимум, что попадалось - девятьсот с копейками, и никаких проблем не было.
Цитата:
Может сноски объединить со стилем "основной текст"? А потом руками расставлять(((

Я правильно поняла, вы сноски отдельно от основного текста распознавали?

U-la написал:

Цитата:
Может сноски объединить со стилем "основной текст"? А потом руками расставлять(((

Я правильно поняла, вы сноски отдельно от основного текста распознавали?

Нет. Просто есть стиль "сноска", есть "основной текст" - думал их слить в один стиль "основной текст"...
Но я только что проблему решил, ура!
Дело в том, что было около 20 стилей "сноска" - я их все слил в один и все выгрузилось в fb2 за 15 мин!

Vadi написал:
U-la написал:

Цитата:
Может сноски объединить со стилем "основной текст"? А потом руками расставлять(((

Я правильно поняла, вы сноски отдельно от основного текста распознавали?

Нет. Просто есть стиль "сноска", есть "основной текст" - думал их слить в один стиль "основной текст"...
Но я только что проблему решил, ура!
Дело в том, что было около 20 стилей "сноска" - я их все слил в один и все выгрузилось в fb2 за 15 мин!

Ура! :)

Только проверьте теперь, не потерялась ли курсивность там, где надо.

golma1 написал:

Ура! :)

Только проверьте теперь, не потерялась ли курсивность там, где надо.


Потерялась, конечно. Но я её всё равно корректирую вручную, типа: (англ.). -> (англ.). Кроме того, сохранилась только половина сносок... По всей видимости те области, где стиль сноска был проставлен руками не сохранились...
Я тут поэкспериментировал и получил такой алгоритм:
- на странице исправляем все сноски на правильные (вместо ' / и тп, ставим 1 2 3)
- распознаём заново область сносок (пометив назначение как "основной текст")
Если текст сам распознался, как сноска, то всё ОК, иначе - менять руками стиль на "сноску" бесполезно, они не ассоциированы останутся с 1 2 3 ... в основном тексте, и не выгрузятся в fb2.
Аватар пользователя Антонина82

Vadi написал:
golma1 написал:

Ура! :)

Только проверьте теперь, не потерялась ли курсивность там, где надо.


Потерялась, конечно. Но я её всё равно корректирую вручную, типа: (англ.). -> (англ.). Кроме того, сохранилась только половина сносок... По всей видимости те области, где стиль сноска был проставлен руками не сохранились...
Я тут поэкспериментировал и получил такой алгоритм:
- на странице исправляем все сноски на правильные (вместо ' / и тп, ставим 1 2 3)
- распознаём заново область сносок (пометив назначение как "основной текст")
Если текст сам распознался, как сноска, то всё ОК, иначе - менять руками стиль на "сноску" бесполезно, они не ассоциированы останутся с 1 2 3 ... в основном тексте, и не выгрузятся в fb2.

Мне этот способ не помогает. Простой заменой ' на 1 - проблему не решишь.

Vadi написал:

Если текст сам распознался, как сноска, то всё ОК, иначе - менять руками стиль на "сноску" бесполезно, они не ассоциированы останутся с 1 2 3 ... в основном тексте, и не выгрузятся в fb2.

Я давно об этом писала. Поэтому и не доверяю ФР расставлять сноски. :(

Vadi написал:
Дело в том, что было около 20 стилей "сноска" - я их все слил в один и все выгрузилось в fb2 за 15 мин!

надо же! Как всё просто оказалось)))) С чем вас и поздравляю ;-)

Привет всем! А как быть с картинками при прямой передачи из FR-11 в формат fb2?
Дело в том, что FR-11 оформляет изображения так

<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>
<p>Пример картинки после экспорта в fb2</p></td></tr>
</table>

Но стоит в FBE -2.6 перейти в просмотр кода FBE 2.6 по неведомым законам "корректирует" приведенный выше фрагмент и превращет его в

<table>
    <tr>
     <td/>
     <image l:href="#image1.jpg"/>
     <empty-line/>
    </tr>
    <tr>
     <td/>
     <p>Пример картинки после экспорта в fb2в</p>
     <empty-line/>
    </tr>
   </table>

и далее наш любимы FBE сообщает об ошибке - ожидается th или td!!!
Как с этим борется народ:?????

Belomor.canal написал:
Привет всем! А как быть с картинками при прямой передачи из FR-11 в формат fb2?
Дело в том, что FR-11 оформляет изображения так
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>
<p>Пример картинки после экспорта в fb2</p></td></tr>
</table>

Но стоит в FBE -2.6 перейти в просмотр кода FBE 2.6 по неведомым законам "корректирует" приведенный выше фрагмент и превращет его в

<table>
    <tr>
     <td/>
     <image l:href="#image1.jpg"/>
     <empty-line/>
    </tr>
    <tr>
     <td/>
     <p>Пример картинки после экспорта в fb2в</p>
     <empty-line/>
    </tr>
   </table>

и далее наш любимы FBE сообщает об ошибке - ожидается th или td!!!
Как с этим борется народ:?????

Таблицей обрамляет только в ситуации, когда стиль текста "Подпись к картинке" (проверил на тексте с 50 изображ, с произвольно распределенным стилем)
К сожалению, простой заменой стиля на "Основной текст" в FR11, проблема не лечится. Видимо создаётся какая-то доп. связь между картинкой и текстом стиля "Подпись к картинке"
Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...

Vadi написал:

Таблицей обрамляет только в ситуации, когда стиль текста "Подпись к картинке" (проверил на тексте с 50 изображ, с произвольно распределенным стилем)
К сожалению, простой заменой стиля на "Основной текст" в FR11, проблема не лечится. Видимо создаётся какая-то доп. связь между картинкой и текстом стиля "Подпись к картинке"

Я такой закономерности не проследила, но очень может быть. Обязательно в следующий раз проверю. Спасибо. :)

Можно попробовать не заменять стиль "Подпись картинки", а объединить со стилем "Основной текст" в пользу последнего.

golma1 написал:

Можно попробовать не заменять стиль "Подпись картинки", а объединить со стилем "Основной текст" в пользу последнего.

Я делал и так, и так - не помогает...
более того, если "схитрить": распознать сначала только текст на странице, атолько потом выделить области картинок, то текст так и остается "основным текстом", но при сохранении картинки "цепляются" к тексту((( Выгружается таблицей...

Кстати, если текст под картинкой пометить, как таблицу, то таблицей выгрузится только текст, картинки в таблицу не включаются))) Тоже вариант - меньше удалять тэгов...

Vadi написал:
golma1 написал:

Можно попробовать не заменять стиль "Подпись картинки", а объединить со стилем "Основной текст" в пользу последнего.

Я делал и так, и так - не помогает...
более того, если "схитрить": распознать сначала только текст на странице, атолько потом выделить области картинок, то текст так и остается "основным текстом", но при сохранении картинки "цепляются" к тексту((( Выгружается таблицей...

Я в следующий раз при наличии стиля "подпись к картинке" попробую поэкспериментировать. Может, что-то получится. Во всяком случае, Ваше наблюдение, что это коррелируется с этим стилем, очень интересно.

Vadi написал:
Кстати, если текст под картинкой пометить, как таблицу, то таблицей выгрузится только текст, картинки в таблицу не включаются))) Тоже вариант - меньше удалять тэгов...

Ну, я там выше дала регэксп массовой замены. Ему-то всё равно, сколько тэгов. ;)

golma1 написал:

Vadi написал:
Кстати, если текст под картинкой пометить, как таблицу, то таблицей выгрузится только текст, картинки в таблицу не включаются))) Тоже вариант - меньше удалять тэгов...

Ну, я там выше дала регэксп массовой замены. Ему-то всё равно, сколько тэгов. ;)

Это на случай, если в книге есть и настоящие таблицы (причем не собранные в одном месте, а вперемешку с картинками)

Belomor.canal написал:

и далее наш любимы FBE сообщает об ошибке - ожидается th или td!!!
Как с этим борется народ:?????

Wotti написал регэксп для удаления всех элементов таблицы:

(</table>)|(<table>|<td/>|<td/>|</tr>|<tr>|<th/>)
заменить на "ничего".

Делается в режиме Source. Не забудьте отметить "регулярное выражение".

Belomor.canal написал:
Привет всем! А как быть с картинками при прямой передачи из FR-11 в формат fb2?
Дело в том, что FR-11 оформляет изображения так
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>
<p>Пример картинки после экспорта в fb2</p></td></tr>
</table>
Приведенный пример сам по себе не валиден. Валидный вариант выглядит так:
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>Пример картинки после экспорта в fb2</td></tr>
</table>
т.е. слова «Пример картинки после экспорта в fb2» не должны обрамляться в теги <p>.
Но, конечно, всё равно маразм. Надо написать на форуме FR, а то вдруг они не знают?
Можно сделать макрос для AkelPad и запускать AkelPad с макросом до запуска FBE.

Zadd написал:
Приведенный пример сам по себе не валиден. Валидный вариант выглядит так:
Однако, только если проверять по ПКМ+Validate, а в самом FBE невозможно: FBE начинает пакостить, переправляет строку на черт-те-что, а потом сам же это черт-те-что объявляет невалидным.

[quote Vadi ]Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!

Belomor.canal написал:
[quote Vadi ]Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...

Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!

Попробуйте всё же поэкспериментировать со стилями. Если дело действительно в стиле "подпись к картинке" (что звучит очень правдоподобно), то задача решаема.

Подскажте. Вопрос по пользовательским словарям в FR. Задача следующая - нет определенного языка для распознавания - но это не проблема, все настраивается элементарно. Но нет и словаря для данного языка. Что очень и очень сказывается на распознавании, особенно в плане переносов слов... Значит создаем пользовательский словарь... Для старта 85 тыс. слов, но в пользовательском словаре, судя по всему, существует ограничение по размеру!?. Пришлось сделать 14 пользовательских словариков - дабы впихнуть в них, по частям, весь этот словарь... Иметь 14 пользовательских словарей очень неудобно - FR начинает конкретно подтормаживать... Кто сталкивался? Как эту массу слов слить в один пользовательский словарь? (FR9.0 Pro)

К сожалению, у меня нет ответа на Ваш вопрос. Словари для языков, которыми я пользуюсь, встроены по умолчанию.

Но наверняка найдётся кто-то, кто владеет этим вопросом. :)

А вот я столкнулся с такой проблемой - не открывается документ ридера. До этого корректно сохранил документ и закрыл программу.

tvnic написал:
А вот я столкнулся с такой проблемой - не открывается документ ридера. До этого корректно сохранил документ и закрыл программу.

А что пишет, почему не открывает?

tvnic написал:
А вот я столкнулся с такой проблемой - не открывается документ ридера. До этого корректно сохранил документ и закрыл программу.

А у Вас не портабл?

Нет, вроде.

Открылся, но странно, почему до этого не получалось.
Было

tvnic написал:
Было

Тоже была разок такая же бяка. И тоже само рассосалось, так и не понял, чё оно вылезало.

Интересно, что после первой неудачной попытки открытия файла он пропадал из списка последних открытых.

Ну тут оно фиг с ним, попугало маленько и всё. Я два раза сталкивался с настоящей неприятностью. Дома стоит полный (ломаный правда) файнридер, на работе портабельным пользуюсь. Иногда недоделанную книжку таскаю туда-сюда на флешке в виде проекта. И столкнулся, что домашнему иногда не нравится проект, редактированный на работе (FR-11, сборки разные только и разрядность систем). Открывается и редактируется нормально, но при попытке сохранения или передачи текста ругается на некоторые страницы (не помню уже, как именно) и они остаются вроде как нераспознанные, хотя до этого были. Первый раз таких всего десятка два было, поэтому просто удалил их из проекта, заново вставил и распознал. А вот второй раз... Сотни полторы разворотов, разбросанные по 1000-страничной книге, уже вычищенные, блин, похерились. Ладно додумался на след. день опять на работу отнести и там уже закончить. Во радости-то было, что спасти удалось. :))

Это я к тому всё, что лучше без нужды не таскать проект с компа на комп, ну или хотя бы чтоб сборки FR на них были одинаковые.

J_Blood написал:
Открывается и редактируется нормально, но при попытке сохранения или передачи текста ругается на некоторые страницы (не помню уже, как именно) и они остаются вроде как нераспознанные, хотя до этого были.

У меня такое изредка бывает в одной и той же программе. Распознайте их просто ещё раз.
Если появляется сообщение о "внутренней ошибке", сдвиньте слегка границу любой области. Если область не приходится изменять, внесённые изменения при повторном распознавании уже будут учтены.

golma1 написал:
У меня такое изредка бывает в одной и той же программе. Распознайте их просто ещё раз.
Если появляется сообщение о "внутренней ошибке", сдвиньте слегка границу любой области. Если область не приходится изменять, внесённые изменения при повторном распознавании уже будут учтены.

Во, именно про "внутреннюю ошибку" и было. Повторно-то оно распознавалось, но при сохранении опять ломалось. Вот области подвигать не дотумкал. Зарубочку сделал, спасибо. :))

Помогите вот с такой проблемой. Распознаю книгу в FR11, и он ругается на каждое длинное тире - uncertain character.
Как от этого избавиться?

medved написал:
Помогите вот с такой проблемой. Распознаю книгу в FR11, и он ругается на каждое длинное тире - uncertain character.
Как от этого избавиться?

В смысле - выделяет как неуверенно распознанный элемент? Если да, то игнорировать.
Если Вы имеете в виду что-то другое, уточните.

Да, как неуверенно распознанный. Я конечно игнорирую, но их там по 20 на странице.
Неужели нельзя его как-то добавить в список нормальных символов?
Я редко FR использую, таких тонкостей не знаю.

medved написал:
Да, как неуверенно распознанный. Я конечно игнорирую, но их там по 20 на странице.
Неужели нельзя его как-то добавить в список нормальных символов?
Я редко FR использую, таких тонкостей не знаю.

Теоретически можно, но нужно потратить время на "обучение" ФР и создание пользовательского эталона, а потом распознать ещё раз - уже с этим эталоном.
Овчинка выделки не стоит, на мой взгляд.

А если в словарь такие тире добавить?
Тогда просто перераспознать и все.

TaKir написал:
А если в словарь такие тире добавить?
Тогда просто перераспознать и все.

Вряд ли. Так выделяются и известные ФР слова. Просто конкретно в этом проекте тире "путается" с каким-то другим знаком. А может, оно просто слишком тонкое. Значит, нужно "научить" ФР, что это - тире.

Но для интереса можно попробовать. Если сделаешь, напиши, пожалуйста, чтó получилось.

Это надо, чтобы medved кусок скана выложил. А иначе как проверить?
У меня с тире проблем ни разу не было. В словарь оно добавляется без проблем, но надо проверять результат на конкретном скане.

TaKir написал:
Это надо, чтобы medved кусок скана выложил. А иначе как проверить?
У меня с тире проблем ни разу не было. В словарь оно добавляется без проблем, но надо проверять результат на конкретном скане.

Ну, при случае. ;)
Бывают такие сканы, где все длинные тире "бирюзовые". Я тоже при случае проверю твою идею.

update:
Случай нашёлся на следующей странице. ;)

Добавила вручную <— > (с табулятором) и <—>. Перераспознала страницу:

Что забавно, распознал твой скриншот без проблем с тире )

TaKir написал:
Что забавно, распознал твой скриншот без проблем с тире )

Зато с кучей других "неуверенно распознанных символов" и с ошибкой OCR. :-Р

Кстати, на следующей странице слово "ГЛАВА" было полностью бирюзовым. Хоть в словаре, как ты понимаешь, оно есть. Так что дело не в этом.

Дык, я не вычитывал же, просто проверить хотел что с тире )
Ты бы пару страничек выложила в нормальном размере, с тире и "главой" интересно уже посмотреть, как у меня распознается )

Цитата:
Дык, я не вычитывал же

Нет, я не про сами ошибки, а про распознавание. ;)

Держи: http://yadi.sk/d/VrGdUVZ04J3s7

Здесь 2 страницы. Ошибок OCR не было.
Выглядит так:

Сделал в 8 Файнридере и в 11.
Ошибок нет нигде, но восьмерка нормально воспринимает тире.
В 11 добавил скопировал тире в словарь - не помогло.
"Глава" в обеих версиях неуверенно распознанным выделена.

Вот пара страниц для примера:

http://rghost.net/45520322

medved написал:
Вот пара страниц для примера:

http://rghost.net/45520322

Никаких проблем с распознаванием, в том числе, с тире (Файнридер 8 версии)

Если вспомнить что тире бывают en dash и em dash, от длины N и M, а эти длинные тире в тексте даже превышают em dash, то у FR11 едет крыша. FR8 более устойчив к косякам. Либо плюнуть, либо обучать по эталону, что длиииинное тире в тексте на самом деле будет em dash.

Да, FR8 как-то лучше справляется с тире, чем 11 версия.

Аватар пользователя alexej36

Давно уже вычитываю с включенными непечатными символами. Привыкаешь к ним быстро. Разрывы в словах, неверная разбивка по абзацам после точки... это все легко отслеживается...

Страницы

X