Вы здесьМои алгоритмы работы с FR11
Опубликовано сб, 04/08/2012 - 03:35 пользователем golma1
Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме. Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2. Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты". После распознавания сохраните документ ФР. Продолжение: Файл fb2, полученный из FR11
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Estel22 RE:Подайте бедному копеечку на книжку с литреса... 7 часов
larin RE:Оплатил, но абонемент не отображается 1 день sd RE:Fishing 1 день Алексей111111111111 RE:Оплатила,но абонемент не отображается 2 дня sd RE:Доступ 27 3 дня kopak RE:Беженцы с Флибусты 5 дней Isais RE:Вадим Иванович Туманов - Всё потерять - и вновь начать с... 6 дней Isais RE:Семейственность в литературе 1 неделя Isais RE:Древний Рим. Подборка книг 1 неделя Саша из Киева RE:"Экс" и "нео": разноликие правые 1 неделя medved RE:Предупреждение: "зеркала" флибусты 3 недели Isais RE:Соседи 3 недели babajga RE:Как сова отправилась в отпуск 4 недели Саша из Киева RE:Горящие паруса 1 месяц Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 1 месяц commodore RE:Письма 1 месяц Саша из Киева RE:Три минуты истории 1 месяц nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 2 месяца Впечатления о книгах
Aleks_Sim про Грушевский: Історія української літератури т.4 (Литературоведение)
22 07 Не вычитанный совсем после плохого OCR текст Оценка: нечитаемо
francuzik про Никл: Рожденный, чтобы жечь! (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
21 07 На удивление книга понравилась. Политики совсем нет зато есть юмор. Буду ждать продолжения. Оценка: хорошо
дядя_Андрей про Деметер: Хроники Космического Патруля [СИ] (Боевая фантастика, Самиздат, сетевая литература)
21 07 Предупреждаю сразу, что я ни разу не «заклёпочник», поэтому не стану умножать единицу массы на единицу скорости и делить всё это на единицу гравитации. Это не моё. Просто поделюсь тем, за что зацепился глаз, когда читал. 1. Очень ……… Оценка: хорошо
StrelaVV про Ляпина: Срочно требуется ведьма [СИ] (Городское фэнтези, Любовная фантастика, Самиздат, сетевая литература)
20 07 Очень симпатичная история, легко читается, ГГ чудесная, адекватная ведьмочка
ne_fanat про Княжич Юра
20 07 Сначала было более-менее интересно. Потом автор ударился в веганство, читерство, ГГ покрутел настолько, что в 5 книге его убивали аж пятеро наикрутейших магов, но так и не убили. А больше всего раздражают выплеснутые автором ………
polyn про Ефимова: Отель «Китовый райк» [СИ] (Классический детектив, Иронический детектив, Детективы: прочее, Самиздат, сетевая литература)
20 07 С нетерпением жду продолжения. Оценка: отлично!
Chernovol про Карпов: Княгиня Ольга (История, Биографии и Мемуары)
20 07 Интересно. России тогда же не существовало, было Московское царство. Оценка: плохо
дядя_Андрей про Дивов: Ночной смотрящий (Фэнтези)
20 07 Почему постоянно стирают мой отзыв? Кто это делает и зачем? Девочкам пензячке (пензючке?) aljasonja и ОмОмар (неизвестно откуда) не понравилось что, что кровососы не гламурные томно-бледные красавчеги, а вполне себе кровососы. ……… Оценка: отлично!
dolle про Иванов: Вегетация (Киберпанк, Постапокалипсис)
20 07 Отличная социальная фантастика в антураже роуд-муви с детективным налётом. Оценка: отлично!
mysevra про Престон: Золотой город [Thunderhead ru] (Приключения: прочее)
19 07 Очень интересно, совсем как в детстве – история о приключениях! Но, матерь котья, слишком неторопливо и размерено. Оценка: хорошо
mysevra про Бородин: Молниеносный Баязет (Историческая проза)
19 07 Редко когда получаешь такое удовольствие от чтения исторического романа - браво! всей трилогии. Оценка: отлично!
mysevra про Миронов: Двенадцатая дочь (Юмористическая фантастика, Фэнтези, Попаданцы)
19 07 На мой вкус, с сюжетом и фольклором всё штатно, а вот с юмором немного (много! много!) перебор. Оценка: неплохо |
Комментарии
Отв: Мои алгоритмы работы с FR11
Плюспиццот.
Отв: Мои алгоритмы работы с FR11
А кто-нибудь делал книгу с over4000 сносок? У меня целый день провисел вчера (часов 9, пока свет не отрубили) и fb2 обрывается на 1035-й сноске... Может FR!! больше не может?
Через FBTool извращаться не хочется (да и виснет тоже не слабо)... Может сноски объединить со стилем "основной текст"? А потом руками расставлять(((
Отв: Мои алгоритмы работы с FR11
Ага-ага!!!
Хм... Максимум, что попадалось - девятьсот с копейками, и никаких проблем не было.
Я правильно поняла, вы сноски отдельно от основного текста распознавали?
Отв: Мои алгоритмы работы с FR11
Нет. Просто есть стиль "сноска", есть "основной текст" - думал их слить в один стиль "основной текст"...
Но я только что проблему решил, ура!
Дело в том, что было около 20 стилей "сноска" - я их все слил в один и все выгрузилось в fb2 за 15 мин!
Отв: Мои алгоритмы работы с FR11
Ура! :)
Только проверьте теперь, не потерялась ли курсивность там, где надо.
Отв: Мои алгоритмы работы с FR11
Потерялась, конечно. Но я её всё равно корректирую вручную, типа: (англ.). -> (англ.). Кроме того, сохранилась только половина сносок... По всей видимости те области, где стиль сноска был проставлен руками не сохранились...
Я тут поэкспериментировал и получил такой алгоритм:
- на странице исправляем все сноски на правильные (вместо ' / и тп, ставим 1 2 3)
- распознаём заново область сносок (пометив назначение как "основной текст")
Если текст сам распознался, как сноска, то всё ОК, иначе - менять руками стиль на "сноску" бесполезно, они не ассоциированы останутся с 1 2 3 ... в основном тексте, и не выгрузятся в fb2.
Отв: Мои алгоритмы работы с FR11
Мне этот способ не помогает. Простой заменой ' на 1 - проблему не решишь.
Отв: Мои алгоритмы работы с FR11
Я давно об этом писала. Поэтому и не доверяю ФР расставлять сноски. :(
Отв: Мои алгоритмы работы с FR11
надо же! Как всё просто оказалось)))) С чем вас и поздравляю ;-)
Отв: Мои алгоритмы работы с FR11
Привет всем! А как быть с картинками при прямой передачи из FR-11 в формат fb2?
Дело в том, что FR-11 оформляет изображения так
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>
<p>Пример картинки после экспорта в fb2</p></td></tr>
</table>
Но стоит в FBE -2.6 перейти в просмотр кода FBE 2.6 по неведомым законам "корректирует" приведенный выше фрагмент и превращет его в
<table>
<tr>
<td/>
<image l:href="#image1.jpg"/>
<empty-line/>
</tr>
<tr>
<td/>
<p>Пример картинки после экспорта в fb2в</p>
<empty-line/>
</tr>
</table>
и далее наш любимы FBE сообщает об ошибке - ожидается th или td!!!
Как с этим борется народ:?????
Отв: Мои алгоритмы работы с FR11
Таблицей обрамляет только в ситуации, когда стиль текста "Подпись к картинке" (проверил на тексте с 50 изображ, с произвольно распределенным стилем)
К сожалению, простой заменой стиля на "Основной текст" в FR11, проблема не лечится. Видимо создаётся какая-то доп. связь между картинкой и текстом стиля "Подпись к картинке"
Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Отв: Мои алгоритмы работы с FR11
Я такой закономерности не проследила, но очень может быть. Обязательно в следующий раз проверю. Спасибо. :)
Можно попробовать не заменять стиль "Подпись картинки", а объединить со стилем "Основной текст" в пользу последнего.
Отв: Мои алгоритмы работы с FR11
Я делал и так, и так - не помогает...
более того, если "схитрить": распознать сначала только текст на странице, атолько потом выделить области картинок, то текст так и остается "основным текстом", но при сохранении картинки "цепляются" к тексту((( Выгружается таблицей...
Кстати, если текст под картинкой пометить, как таблицу, то таблицей выгрузится только текст, картинки в таблицу не включаются))) Тоже вариант - меньше удалять тэгов...
Отв: Мои алгоритмы работы с FR11
Я в следующий раз при наличии стиля "подпись к картинке" попробую поэкспериментировать. Может, что-то получится. Во всяком случае, Ваше наблюдение, что это коррелируется с этим стилем, очень интересно.
Ну, я там выше дала регэксп массовой замены. Ему-то всё равно, сколько тэгов. ;)
Отв: Мои алгоритмы работы с FR11
Это на случай, если в книге есть и настоящие таблицы (причем не собранные в одном месте, а вперемешку с картинками)
Отв: Мои алгоритмы работы с FR11
Wotti написал регэксп для удаления всех элементов таблицы:
(</table>)|(<table>|<td/>|<td/>|</tr>|<tr>|<th/>)
заменить на "ничего".
Делается в режиме Source. Не забудьте отметить "регулярное выражение".
Отв: Мои алгоритмы работы с FR11
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>Пример картинки после экспорта в fb2</td></tr>
</table>
Но, конечно, всё равно маразм. Надо написать на форуме FR, а то вдруг они не знают?
Можно сделать макрос для AkelPad и запускать AkelPad с макросом до запуска FBE.
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
[quote Vadi ]Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Отв: Мои алгоритмы работы с FR11
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Попробуйте всё же поэкспериментировать со стилями. Если дело действительно в стиле "подпись к картинке" (что звучит очень правдоподобно), то задача решаема.
Отв: Мои алгоритмы работы с FR11
Подскажте. Вопрос по пользовательским словарям в FR. Задача следующая - нет определенного языка для распознавания - но это не проблема, все настраивается элементарно. Но нет и словаря для данного языка. Что очень и очень сказывается на распознавании, особенно в плане переносов слов... Значит создаем пользовательский словарь... Для старта 85 тыс. слов, но в пользовательском словаре, судя по всему, существует ограничение по размеру!?. Пришлось сделать 14 пользовательских словариков - дабы впихнуть в них, по частям, весь этот словарь... Иметь 14 пользовательских словарей очень неудобно - FR начинает конкретно подтормаживать... Кто сталкивался? Как эту массу слов слить в один пользовательский словарь? (FR9.0 Pro)
Отв: Мои алгоритмы работы с FR11
К сожалению, у меня нет ответа на Ваш вопрос. Словари для языков, которыми я пользуюсь, встроены по умолчанию.
Но наверняка найдётся кто-то, кто владеет этим вопросом. :)
Отв: Мои алгоритмы работы с FR11
А вот я столкнулся с такой проблемой - не открывается документ ридера. До этого корректно сохранил документ и закрыл программу.
Отв: Мои алгоритмы работы с FR11
А что пишет, почему не открывает?
Отв: Мои алгоритмы работы с FR11
А у Вас не портабл?
Отв: Мои алгоритмы работы с FR11
Нет, вроде.
Отв: Мои алгоритмы работы с FR11
Открылся, но странно, почему до этого не получалось.
Было
Отв: Мои алгоритмы работы с FR11
Тоже была разок такая же бяка. И тоже само рассосалось, так и не понял, чё оно вылезало.
Отв: Мои алгоритмы работы с FR11
Интересно, что после первой неудачной попытки открытия файла он пропадал из списка последних открытых.
Отв: Мои алгоритмы работы с FR11
Ну тут оно фиг с ним, попугало маленько и всё. Я два раза сталкивался с настоящей неприятностью. Дома стоит полный (ломаный правда) файнридер, на работе портабельным пользуюсь. Иногда недоделанную книжку таскаю туда-сюда на флешке в виде проекта. И столкнулся, что домашнему иногда не нравится проект, редактированный на работе (FR-11, сборки разные только и разрядность систем). Открывается и редактируется нормально, но при попытке сохранения или передачи текста ругается на некоторые страницы (не помню уже, как именно) и они остаются вроде как нераспознанные, хотя до этого были. Первый раз таких всего десятка два было, поэтому просто удалил их из проекта, заново вставил и распознал. А вот второй раз... Сотни полторы разворотов, разбросанные по 1000-страничной книге, уже вычищенные, блин, похерились. Ладно додумался на след. день опять на работу отнести и там уже закончить. Во радости-то было, что спасти удалось. :))
Это я к тому всё, что лучше без нужды не таскать проект с компа на комп, ну или хотя бы чтоб сборки FR на них были одинаковые.
Отв: Мои алгоритмы работы с FR11
У меня такое изредка бывает в одной и той же программе. Распознайте их просто ещё раз.
Если появляется сообщение о "внутренней ошибке", сдвиньте слегка границу любой области. Если область не приходится изменять, внесённые изменения при повторном распознавании уже будут учтены.
Отв: Мои алгоритмы работы с FR11
Во, именно про "внутреннюю ошибку" и было. Повторно-то оно распознавалось, но при сохранении опять ломалось. Вот области подвигать не дотумкал. Зарубочку сделал, спасибо. :))
Отв: Мои алгоритмы работы с FR11
Помогите вот с такой проблемой. Распознаю книгу в FR11, и он ругается на каждое длинное тире - uncertain character.
Как от этого избавиться?
Отв: Мои алгоритмы работы с FR11
В смысле - выделяет как неуверенно распознанный элемент? Если да, то игнорировать.
Если Вы имеете в виду что-то другое, уточните.
Отв: Мои алгоритмы работы с FR11
Да, как неуверенно распознанный. Я конечно игнорирую, но их там по 20 на странице.
Неужели нельзя его как-то добавить в список нормальных символов?
Я редко FR использую, таких тонкостей не знаю.
Отв: Мои алгоритмы работы с FR11
Теоретически можно, но нужно потратить время на "обучение" ФР и создание пользовательского эталона, а потом распознать ещё раз - уже с этим эталоном.
Овчинка выделки не стоит, на мой взгляд.
Отв: Мои алгоритмы работы с FR11
А если в словарь такие тире добавить?
Тогда просто перераспознать и все.
Отв: Мои алгоритмы работы с FR11
Вряд ли. Так выделяются и известные ФР слова. Просто конкретно в этом проекте тире "путается" с каким-то другим знаком. А может, оно просто слишком тонкое. Значит, нужно "научить" ФР, что это - тире.
Но для интереса можно попробовать. Если сделаешь, напиши, пожалуйста, чтó получилось.
Отв: Мои алгоритмы работы с FR11
Это надо, чтобы medved кусок скана выложил. А иначе как проверить?
У меня с тире проблем ни разу не было. В словарь оно добавляется без проблем, но надо проверять результат на конкретном скане.
Отв: Мои алгоритмы работы с FR11
Ну, при случае. ;)
Бывают такие сканы, где все длинные тире "бирюзовые". Я тоже при случае проверю твою идею.
update:
Случай нашёлся на следующей странице. ;)
Добавила вручную
<— >
(с табулятором) и<—>
. Перераспознала страницу:Отв: Мои алгоритмы работы с FR11
Что забавно, распознал твой скриншот без проблем с тире )
Отв: Мои алгоритмы работы с FR11
Зато с кучей других "неуверенно распознанных символов" и с ошибкой OCR. :-Р
Кстати, на следующей странице слово "ГЛАВА" было полностью бирюзовым. Хоть в словаре, как ты понимаешь, оно есть. Так что дело не в этом.
Отв: Мои алгоритмы работы с FR11
Дык, я не вычитывал же, просто проверить хотел что с тире )
Ты бы пару страничек выложила в нормальном размере, с тире и "главой" интересно уже посмотреть, как у меня распознается )
Отв: Мои алгоритмы работы с FR11
Нет, я не про сами ошибки, а про распознавание. ;)
Держи: http://yadi.sk/d/VrGdUVZ04J3s7
Здесь 2 страницы. Ошибок OCR не было.
Выглядит так:
Отв: Мои алгоритмы работы с FR11
Сделал в 8 Файнридере и в 11.
Ошибок нет нигде, но восьмерка нормально воспринимает тире.
В 11 добавил скопировал тире в словарь - не помогло.
"Глава" в обеих версиях неуверенно распознанным выделена.
Отв: Мои алгоритмы работы с FR11
Вот пара страниц для примера:
http://rghost.net/45520322
Отв: Мои алгоритмы работы с FR11
Никаких проблем с распознаванием, в том числе, с тире (Файнридер 8 версии)
Отв: Мои алгоритмы работы с FR11
Если вспомнить что тире бывают en dash и em dash, от длины N и M, а эти длинные тире в тексте даже превышают em dash, то у FR11 едет крыша. FR8 более устойчив к косякам. Либо плюнуть, либо обучать по эталону, что длиииинное тире в тексте на самом деле будет em dash.
Отв: Мои алгоритмы работы с FR11
Да, FR8 как-то лучше справляется с тире, чем 11 версия.
Отв: Мои алгоритмы работы с FR11
Давно уже вычитываю с включенными непечатными символами. Привыкаешь к ним быстро. Разрывы в словах, неверная разбивка по абзацам после точки... это все легко отслеживается...
Страницы