Вы здесьМои алгоритмы работы с FR11
Опубликовано сб, 04/08/2012 - 03:35 пользователем golma1
Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме. Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2. Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты". После распознавания сохраните документ ФР. Продолжение: Файл fb2, полученный из FR11
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 1 день
kopak RE:О группе Дятлова. О той самой, того самого... 1 день Trinki RE:Не присылает пароль на почту 3 дня babajga RE:Плюмаж 6 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя babajga RE:Блошкинс и Фрю. Опасное путешествие 1 неделя alexk RE:Багрепорт - 2 2 недели babajga RE:Удивленная сова 3 недели Larisa_F RE:Серия «Квадрат» издательства «Текст» 4 недели Aleks_Sim RE:Беженцы с Флибусты 4 недели edvud RE:Прошу переформатировать, распознать, etc... 4 недели monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц sem14 RE:«Уроки русского» 1 месяц Isais RE:Древний Рим. Подборка книг 1 месяц babajga RE:Отчаянная осень 1 месяц Впечатления о книгах
Oleg68 про Бушков: Времена звездочетов. Наш грустный массаракш (Фэнтези, Самиздат, сетевая литература)
07 04 Не шедевр, но мне понравилось. Опять на самом интересном пауза. Оценка: отлично!
Олег Макаров. про Усманов: Конец или начало? [СИ] (Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
07 04 Белиберда картонная с самого начала. Трёх страниц достаточно, чтобы понять Оценка: нечитаемо
Stager про Старуха
07 04 УГ. Литературы тут нет совсем. Это чисто заклёпочническое построение, а вот с заклёпочничеством у автора большие проблемы. Он не знает того, что знает любой любознательный школьник и что даже сносно описано в Википедии. Поэтому ………
mysevra про Терехов: Каменный мост (Современная проза)
07 04 Я бы читала, мне было интересно, но автор постоянно сбивается на тошнотворное описание каких-то эпизодов взаимоотношений главного героя с его женщинами - зачем мне это знать? Оценка: плохо
mysevra про Свечин: Адский прииск (Исторический детектив)
07 04 Добротно и обстоятельно. Очень интересно описан край. Прочитала с большим удовольствием, теперь хочу прочитать всю серию. Оценка: отлично!
mysevra про Горд: LOVE-леди. Искусство отличаться от других женщин (Психология)
07 04 Наверное, кое-что можно взять на вооружение, хотя риторика американских подростковых сериалов сильно удешевляет идею. Интересно было бы воочию сравнить байгужинку, последовательницу Валяевой и барышню, проработавшую эту книгу. Оценка: неплохо
Gilean про За чужой мечтой
06 04 Читать интересно, но вот мало логики. Ну и как всегда сериал не закончен. Что не понравилось - переходы между книг, читаешь следующую и как будто не врубаешься что происходит? Через главу или две понимаешь о чем речь ………
Олег Макаров. про Панов: Кто-то просит прощения [litres] (Триллер, Детективы: прочее, Мистика)
06 04 Какая-то муть. Не дочитал. После предыдущей даже обидно Оценка: нечитаемо
lukyanelena про Вудворт: Парный танец (Любовная фантастика)
06 04 Какая-то ода абьюзу. И безобразно написаны эротические сцены. Убожество. Полно пафоса и штампов. Такое впечатление, что отдали на аутсорс какой-то малолетке. Оценка: плохо
Г.Гуслия про Скотина
05 04 Очень хорошо, можно даже сказать отлично. Вроде бы как обычный попаданец, но много свежих нюансов. Язык хороший, читается легко. Жалко, что пока только две книги. Надеюсь, продолжение будет не хуже и достаточно скоро.
magmel про Грайдер: Стажер Ли Су Джин (Попаданцы, Самиздат, сетевая литература)
05 04 Понравилось, перекликается с произведениями Кощиенко
dolle про Шаргородский: Слишком смышленый дурачок (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
05 04 Как бы попаданец в почти боярку.Оригинально, свежо и необычно. Понравилось.Отлично. Оценка: отлично! |
Комментарии
Отв: Мои алгоритмы работы с FR11
Плюспиццот.
Отв: Мои алгоритмы работы с FR11
А кто-нибудь делал книгу с over4000 сносок? У меня целый день провисел вчера (часов 9, пока свет не отрубили) и fb2 обрывается на 1035-й сноске... Может FR!! больше не может?
Через FBTool извращаться не хочется (да и виснет тоже не слабо)... Может сноски объединить со стилем "основной текст"? А потом руками расставлять(((
Отв: Мои алгоритмы работы с FR11
Ага-ага!!!
Хм... Максимум, что попадалось - девятьсот с копейками, и никаких проблем не было.
Я правильно поняла, вы сноски отдельно от основного текста распознавали?
Отв: Мои алгоритмы работы с FR11
Нет. Просто есть стиль "сноска", есть "основной текст" - думал их слить в один стиль "основной текст"...
Но я только что проблему решил, ура!
Дело в том, что было около 20 стилей "сноска" - я их все слил в один и все выгрузилось в fb2 за 15 мин!
Отв: Мои алгоритмы работы с FR11
Ура! :)
Только проверьте теперь, не потерялась ли курсивность там, где надо.
Отв: Мои алгоритмы работы с FR11
Потерялась, конечно. Но я её всё равно корректирую вручную, типа: (англ.). -> (англ.). Кроме того, сохранилась только половина сносок... По всей видимости те области, где стиль сноска был проставлен руками не сохранились...
Я тут поэкспериментировал и получил такой алгоритм:
- на странице исправляем все сноски на правильные (вместо ' / и тп, ставим 1 2 3)
- распознаём заново область сносок (пометив назначение как "основной текст")
Если текст сам распознался, как сноска, то всё ОК, иначе - менять руками стиль на "сноску" бесполезно, они не ассоциированы останутся с 1 2 3 ... в основном тексте, и не выгрузятся в fb2.
Отв: Мои алгоритмы работы с FR11
Мне этот способ не помогает. Простой заменой ' на 1 - проблему не решишь.
Отв: Мои алгоритмы работы с FR11
Я давно об этом писала. Поэтому и не доверяю ФР расставлять сноски. :(
Отв: Мои алгоритмы работы с FR11
надо же! Как всё просто оказалось)))) С чем вас и поздравляю ;-)
Отв: Мои алгоритмы работы с FR11
Привет всем! А как быть с картинками при прямой передачи из FR-11 в формат fb2?
Дело в том, что FR-11 оформляет изображения так
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>
<p>Пример картинки после экспорта в fb2</p></td></tr>
</table>
Но стоит в FBE -2.6 перейти в просмотр кода FBE 2.6 по неведомым законам "корректирует" приведенный выше фрагмент и превращет его в
<table>
<tr>
<td/>
<image l:href="#image1.jpg"/>
<empty-line/>
</tr>
<tr>
<td/>
<p>Пример картинки после экспорта в fb2в</p>
<empty-line/>
</tr>
</table>
и далее наш любимы FBE сообщает об ошибке - ожидается th или td!!!
Как с этим борется народ:?????
Отв: Мои алгоритмы работы с FR11
Таблицей обрамляет только в ситуации, когда стиль текста "Подпись к картинке" (проверил на тексте с 50 изображ, с произвольно распределенным стилем)
К сожалению, простой заменой стиля на "Основной текст" в FR11, проблема не лечится. Видимо создаётся какая-то доп. связь между картинкой и текстом стиля "Подпись к картинке"
Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Отв: Мои алгоритмы работы с FR11
Я такой закономерности не проследила, но очень может быть. Обязательно в следующий раз проверю. Спасибо. :)
Можно попробовать не заменять стиль "Подпись картинки", а объединить со стилем "Основной текст" в пользу последнего.
Отв: Мои алгоритмы работы с FR11
Я делал и так, и так - не помогает...
более того, если "схитрить": распознать сначала только текст на странице, атолько потом выделить области картинок, то текст так и остается "основным текстом", но при сохранении картинки "цепляются" к тексту((( Выгружается таблицей...
Кстати, если текст под картинкой пометить, как таблицу, то таблицей выгрузится только текст, картинки в таблицу не включаются))) Тоже вариант - меньше удалять тэгов...
Отв: Мои алгоритмы работы с FR11
Я в следующий раз при наличии стиля "подпись к картинке" попробую поэкспериментировать. Может, что-то получится. Во всяком случае, Ваше наблюдение, что это коррелируется с этим стилем, очень интересно.
Ну, я там выше дала регэксп массовой замены. Ему-то всё равно, сколько тэгов. ;)
Отв: Мои алгоритмы работы с FR11
Это на случай, если в книге есть и настоящие таблицы (причем не собранные в одном месте, а вперемешку с картинками)
Отв: Мои алгоритмы работы с FR11
Wotti написал регэксп для удаления всех элементов таблицы:
(</table>)|(<table>|<td/>|<td/>|</tr>|<tr>|<th/>)
заменить на "ничего".
Делается в режиме Source. Не забудьте отметить "регулярное выражение".
Отв: Мои алгоритмы работы с FR11
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>Пример картинки после экспорта в fb2</td></tr>
</table>
Но, конечно, всё равно маразм. Надо написать на форуме FR, а то вдруг они не знают?
Можно сделать макрос для AkelPad и запускать AkelPad с макросом до запуска FBE.
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
[quote Vadi ]Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Отв: Мои алгоритмы работы с FR11
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Попробуйте всё же поэкспериментировать со стилями. Если дело действительно в стиле "подпись к картинке" (что звучит очень правдоподобно), то задача решаема.
Отв: Мои алгоритмы работы с FR11
Подскажте. Вопрос по пользовательским словарям в FR. Задача следующая - нет определенного языка для распознавания - но это не проблема, все настраивается элементарно. Но нет и словаря для данного языка. Что очень и очень сказывается на распознавании, особенно в плане переносов слов... Значит создаем пользовательский словарь... Для старта 85 тыс. слов, но в пользовательском словаре, судя по всему, существует ограничение по размеру!?. Пришлось сделать 14 пользовательских словариков - дабы впихнуть в них, по частям, весь этот словарь... Иметь 14 пользовательских словарей очень неудобно - FR начинает конкретно подтормаживать... Кто сталкивался? Как эту массу слов слить в один пользовательский словарь? (FR9.0 Pro)
Отв: Мои алгоритмы работы с FR11
К сожалению, у меня нет ответа на Ваш вопрос. Словари для языков, которыми я пользуюсь, встроены по умолчанию.
Но наверняка найдётся кто-то, кто владеет этим вопросом. :)
Отв: Мои алгоритмы работы с FR11
А вот я столкнулся с такой проблемой - не открывается документ ридера. До этого корректно сохранил документ и закрыл программу.
Отв: Мои алгоритмы работы с FR11
А что пишет, почему не открывает?
Отв: Мои алгоритмы работы с FR11
А у Вас не портабл?
Отв: Мои алгоритмы работы с FR11
Нет, вроде.
Отв: Мои алгоритмы работы с FR11
Открылся, но странно, почему до этого не получалось.
Было
Отв: Мои алгоритмы работы с FR11
Тоже была разок такая же бяка. И тоже само рассосалось, так и не понял, чё оно вылезало.
Отв: Мои алгоритмы работы с FR11
Интересно, что после первой неудачной попытки открытия файла он пропадал из списка последних открытых.
Отв: Мои алгоритмы работы с FR11
Ну тут оно фиг с ним, попугало маленько и всё. Я два раза сталкивался с настоящей неприятностью. Дома стоит полный (ломаный правда) файнридер, на работе портабельным пользуюсь. Иногда недоделанную книжку таскаю туда-сюда на флешке в виде проекта. И столкнулся, что домашнему иногда не нравится проект, редактированный на работе (FR-11, сборки разные только и разрядность систем). Открывается и редактируется нормально, но при попытке сохранения или передачи текста ругается на некоторые страницы (не помню уже, как именно) и они остаются вроде как нераспознанные, хотя до этого были. Первый раз таких всего десятка два было, поэтому просто удалил их из проекта, заново вставил и распознал. А вот второй раз... Сотни полторы разворотов, разбросанные по 1000-страничной книге, уже вычищенные, блин, похерились. Ладно додумался на след. день опять на работу отнести и там уже закончить. Во радости-то было, что спасти удалось. :))
Это я к тому всё, что лучше без нужды не таскать проект с компа на комп, ну или хотя бы чтоб сборки FR на них были одинаковые.
Отв: Мои алгоритмы работы с FR11
У меня такое изредка бывает в одной и той же программе. Распознайте их просто ещё раз.
Если появляется сообщение о "внутренней ошибке", сдвиньте слегка границу любой области. Если область не приходится изменять, внесённые изменения при повторном распознавании уже будут учтены.
Отв: Мои алгоритмы работы с FR11
Во, именно про "внутреннюю ошибку" и было. Повторно-то оно распознавалось, но при сохранении опять ломалось. Вот области подвигать не дотумкал. Зарубочку сделал, спасибо. :))
Отв: Мои алгоритмы работы с FR11
Помогите вот с такой проблемой. Распознаю книгу в FR11, и он ругается на каждое длинное тире - uncertain character.
Как от этого избавиться?
Отв: Мои алгоритмы работы с FR11
В смысле - выделяет как неуверенно распознанный элемент? Если да, то игнорировать.
Если Вы имеете в виду что-то другое, уточните.
Отв: Мои алгоритмы работы с FR11
Да, как неуверенно распознанный. Я конечно игнорирую, но их там по 20 на странице.
Неужели нельзя его как-то добавить в список нормальных символов?
Я редко FR использую, таких тонкостей не знаю.
Отв: Мои алгоритмы работы с FR11
Теоретически можно, но нужно потратить время на "обучение" ФР и создание пользовательского эталона, а потом распознать ещё раз - уже с этим эталоном.
Овчинка выделки не стоит, на мой взгляд.
Отв: Мои алгоритмы работы с FR11
А если в словарь такие тире добавить?
Тогда просто перераспознать и все.
Отв: Мои алгоритмы работы с FR11
Вряд ли. Так выделяются и известные ФР слова. Просто конкретно в этом проекте тире "путается" с каким-то другим знаком. А может, оно просто слишком тонкое. Значит, нужно "научить" ФР, что это - тире.
Но для интереса можно попробовать. Если сделаешь, напиши, пожалуйста, чтó получилось.
Отв: Мои алгоритмы работы с FR11
Это надо, чтобы medved кусок скана выложил. А иначе как проверить?
У меня с тире проблем ни разу не было. В словарь оно добавляется без проблем, но надо проверять результат на конкретном скане.
Отв: Мои алгоритмы работы с FR11
Ну, при случае. ;)
Бывают такие сканы, где все длинные тире "бирюзовые". Я тоже при случае проверю твою идею.
update:
Случай нашёлся на следующей странице. ;)
Добавила вручную
<— >
(с табулятором) и<—>
. Перераспознала страницу:Отв: Мои алгоритмы работы с FR11
Что забавно, распознал твой скриншот без проблем с тире )
Отв: Мои алгоритмы работы с FR11
Зато с кучей других "неуверенно распознанных символов" и с ошибкой OCR. :-Р
Кстати, на следующей странице слово "ГЛАВА" было полностью бирюзовым. Хоть в словаре, как ты понимаешь, оно есть. Так что дело не в этом.
Отв: Мои алгоритмы работы с FR11
Дык, я не вычитывал же, просто проверить хотел что с тире )
Ты бы пару страничек выложила в нормальном размере, с тире и "главой" интересно уже посмотреть, как у меня распознается )
Отв: Мои алгоритмы работы с FR11
Нет, я не про сами ошибки, а про распознавание. ;)
Держи: http://yadi.sk/d/VrGdUVZ04J3s7
Здесь 2 страницы. Ошибок OCR не было.
Выглядит так:
Отв: Мои алгоритмы работы с FR11
Сделал в 8 Файнридере и в 11.
Ошибок нет нигде, но восьмерка нормально воспринимает тире.
В 11 добавил скопировал тире в словарь - не помогло.
"Глава" в обеих версиях неуверенно распознанным выделена.
Отв: Мои алгоритмы работы с FR11
Вот пара страниц для примера:
http://rghost.net/45520322
Отв: Мои алгоритмы работы с FR11
Никаких проблем с распознаванием, в том числе, с тире (Файнридер 8 версии)
Отв: Мои алгоритмы работы с FR11
Если вспомнить что тире бывают en dash и em dash, от длины N и M, а эти длинные тире в тексте даже превышают em dash, то у FR11 едет крыша. FR8 более устойчив к косякам. Либо плюнуть, либо обучать по эталону, что длиииинное тире в тексте на самом деле будет em dash.
Отв: Мои алгоритмы работы с FR11
Да, FR8 как-то лучше справляется с тире, чем 11 версия.
Отв: Мои алгоритмы работы с FR11
Давно уже вычитываю с включенными непечатными символами. Привыкаешь к ним быстро. Разрывы в словах, неверная разбивка по абзацам после точки... это все легко отслеживается...
Страницы