Внимание! При экспорте из FineReader 11 в fb2 возможно потеря текста!!!!

Аватар пользователя Belomor.canal
Forums: 

Привет всем!
Описание проблемы
Делал книгу http://lib.rus.ec/b/373843 - форма дневника. Так как текст простой скнинул из ФР -11 в fb2. Обнаружилось, что ФР-11 дневниковые записи у которых самый нижний абзац начинается с даты (небольшой???) типа

3 апреля. Суббота
Молитва. Зарядка!!
...От «Живого» к «Живаго»... — две крайние роли моего репертуара. Между которыми уложилась вся моя жизнь на подмостках Театра на Таганке... куда вместились и не сыгранный Гамлет, и сыгранный благодаря В., Эфросу «Альцест», и Гришка Отрепьев, и Глебов в «Доме на набережной», Моцарт и «Хозяин тайги» в кино, Бумбараш... Павел 1 в Театре Российской армии и т.д. Более полярные образы — как

ФР -11 интерпретировал как СНОСКУ! При экспорте в fb2, все сноски, которые ФР-11 не знает куда отнести в итоговый текст не попадают! В данном случае текст этой записи пропал! Смена стиля ничего не дала!
Как бороться
Конечно можно этим не пользоваться, а как обычно экспортировать в MS Word
Если в fb2 кажется проще, то я предлагаю такой алгоритм.
1 Скидываем в fb2
2 Скидываем в MS Word в режиме , где делаются сноски ( Редактируемая копия, форматированный текст). Все сноски, которые ФР-11 не прилепил никуда складываются в конце файла! Глядим на них и переносим в нужные места fb2
Какие есть идеи на сей баг?

Belomor.canal написал:
Привет всем!
Описание проблемы
Делал книгу http://lib.rus.ec/b/373843 - форма дневника. Так как текст простой скнинул из ФР -11 в fb2. Обнаружилось, что ФР-11 дневниковые записи у которых самый нижний абзац начинается с даты (небольшой???) типа

3 апреля. Суббота
Молитва. Зарядка!!
...От «Живого» к «Живаго»... — две крайние роли моего репертуара. Между которыми уложилась вся моя жизнь на подмостках Театра на Таганке... куда вместились и не сыгранный Гамлет, и сыгранный благодаря В., Эфросу «Альцест», и Гришка Отрепьев, и Глебов в «Доме на набережной», Моцарт и «Хозяин тайги» в кино, Бумбараш... Павел 1 в Театре Российской армии и т.д. Более полярные образы — как

ФР -11 интерпретировал как СНОСКУ! При экспорте в fb2, все сноски, которые ФР-11 не знает куда отнести в итоговый текст не попадают! В данном случае текст этой записи пропал! Смена стиля ничего не дала!
Как бороться
Конечно можно этим не пользоваться, а как обычно экспортировать в MS Word
Если в fb2 кажется проще, то я предлагаю такой алгоритм.
1 Скидываем в fb2
2 Скидываем в MS Word в режиме , где делаются сноски ( Редактируемая копия, форматированный текст). Все сноски, которые ФР-11 не прилепил никуда складываются в конце файла! Глядим на них и переносим в нужные места fb2
Какие есть идеи на сей баг?


Изменить размер шрифта стиля "Сноска" и "Оглавление" на ЗНАЧИТЕЛЬНО отличающийся от основного текста и проглядывать при распознании в FineReader. Найденный кусок вырезать, копировать в блокнот и возвращать копированием из блокнота.

Тема обсуждалась Голмой около двух месяцев назад, ссылку найти не могу.

Аватар пользователя Belomor.canal

[quote Desenchantee]Тема обсуждалась Голмой около двух месяцев назад, ссылку найти не могу.
Спасибо! Значит тема закрыта

Аватар пользователя Belomor.canal

Сноска http://lib.rus.ec/node/367351
Но там о том что часть нормальный текст вдруг может быть распознан как сноска нет!
Так что какой то смысл в моём сообщение есть :-)

Аватар пользователя Belomor.canal

Сноска http://lib.rus.ec/node/367351
Но там о том что часть нормальный текст вдруг может быть распознан как сноска нет!
Так что какой то смысл в моём сообщение есть :-)

Аватар пользователя Isais

Там нет. Есть ниже. Я говорил, что FR11 может счесть сноской текст до половины страницы - всё, лежащее ниже пустой строки или отбивки * * *.

Аватар пользователя Belomor.canal

[quote Isais]Там нет. Есть ниже. Я говорил, что FR11 может счесть сноской текст до половины страницы
Спасибо! Именно так! Ну что ж, известно кто учится на своих, а не на чужих ошибках! В общем я пока буду в ворд- там просто смотришь в конец файла и все сразу понятно!! Скачал последний билд, но вряд это это поправио!

Аватар пользователя golma1

Desenchantee написал:

Изменить размер шрифта стиля "Сноска" и "Оглавление" на ЗНАЧИТЕЛЬНО отличающийся от основного текста и проглядывать при распознании в FineReader. Найденный кусок вырезать, копировать в блокнот и возвращать копированием из блокнота.
Тема обсуждалась Голмой около двух месяцев назад, ссылку найти не могу.

Совершенно верно. :)

Сейчас, перед тем, как работать с текстом в ФР, я проделываю следующие операции:
- объединяю все стили сносок в один (если их всего два, то смысле объединять нет - как правило, один из них с курсивом, который при объединении может потеряться) и придаю им размер шрифта 6-7.
- каждому стилю "основной текст" придаю размер шрифта 10 (их не объединяю, поскольку при этом теряется форматирование курсивом и полужирным)
- все стили колонтитула объединяю и придаю им размер шрифта 6-7
- все стили заголовка объединяю и придаю им размер шрифта 20-26
- все стили оглавления объединяю и придаю им размер шрифта 30, курсивность и жирность.

Нажимаю "ОК" и жду, пока ФР объединит все шрифты.
Такой способ позволяет на 100% выявить неверный стиль при распознавании. В том числе, ту его часть, которая внизу страницы была распознана как сноска, - по размеру шрифта.

Метод борьбы с этими ошибками был уже описан Desenchantee. :)


Что касается самостоятельной расстановки сносок силами самого ФР, то качество этой версии хоть и намного лучше, но всё равно 100%-ной гарантии правильной расстановки нет.
Поэтому я предпочитаю пользоваться старинным методом: переношу текст сноски к слову, к которому она относится, заключая его в фигурные скобки. В ФБЕ потом эти сноски расставляются одним кликом.

В документальной литературе, где сносок очень много, сноски так не расставляю. Но после экспорта в фб2 методично - страница за страницей - проверяю сноски на наличие в боди "Примечание". Недостающие добавляю. Да, часто их текст оказывается после всего текста, но не менее часто он просто отсутствует.
При количестве сносок более 200 - этот способ всё равно более рациональный, на мой взгляд.

Аватар пользователя Belomor.canal

[quote golma1]Сейчас, перед тем, как работать с текстом в ФР, я проделываю следующие операции:
- объединяю все стили сносок в один (если их всего два, то смысле объединять нет - как правило, один из них с курсивом, который при объединении может потеряться) и придаю им размер шрифта 6-7.
- каждому стилю "основной текст" придаю размер шрифта 10 (их не объединяю, поскольку при этом теряется форматирование курсивом и полужирным)
- все стили колонтитула объединяю и придаю им размер шрифта 6-7
- все стили заголовка объединяю и придаю им размер шрифта 20-26
- все стили оглавления объединяю и придаю им размер шрифта 30, курсивность и жирность.

Нажимаю "ОК" и жду, пока ФР объединит все шрифты.
Такой способ позволяет на 100% выявить неверный стиль при распознавании. В том числе, ту его часть, которая внизу страницы была распознана как сноска, - по размеру шрифта.
Отличный способ с гарантией!!!!

Аватар пользователя Belomor.canal

Цитата:
объединяю все стили сносок в один (если их всего два, то смысле объединять нет - как правило, один из них с курсивом, который при объединении может потеряться) и придаю им размер шрифта 6-7.

Небольшое техническое дополнение - мне так удобнее. После объединения, находите первую сноску, нажимете кнопку стили, далее OK и сноска окрасится зелёным цветом. Далее листа страниы (Alt+стрелка) вы видите зелёные куски текста - это и есть область СНОСКИ!!! Так очень быстро можно посмотреть весь проект! Ярко зелёная область просто бросается в глаза!
Аватар пользователя Belomor.canal

Кстати говорят есть новый билд. Кто ни будь на нём пробовал? У меня 11.102.481 прошлогодний

11.0.102.583 - те же ошибки. Обещали исправить в 12, но когда он будет...

Аватар пользователя Belomor.canal

[quote Desenchantee]11.0.102.583 - те же ошибки. Обещали исправить в 12, но когда он будет...
Спасибо что предупредили! Скачал из торрентов собирался ставить. Мой совет ребятам из Фр - сделайте опцию "различать" и "не различать"! После таких шуток, когда полстраницы обычного текста превращается в сноску, лучше без! И конечно хорошо бы, что бы экспорт из ФР был управляемый - если я сделал стиль сноска то это и есть сноска!

X