Вы здесьМои алгоритмы работы с FR11
Опубликовано сб, 04/08/2012 - 03:35 пользователем golma1
Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме. Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2. Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты". После распознавания сохраните документ ФР. Продолжение: Файл fb2, полученный из FR11
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
edvud RE:Не работает регистрация и восстановление пароля 1 день
нэнси RE:Подайте бедному копеечку на книжку с литреса... 1 день Larisa_F RE:Грушевое дерево 2 дня koifish RE:Оплатил абонемент, деньги списались, абонемента нет 3 дня Саша из Киева RE:Неудавшийся священник 5 дней sem14 RE:«Уроки русского» 5 дней babajga RE:Повесть о чудесном одуванчике 1 неделя Саша из Киева RE:Ночной пассажир 1 неделя larin RE:Оплатила,но абонемент не отображается 2 недели tvnic RE:Maxima-library - новый адрес 2 недели Саша из Киева RE:Хождение во власть. После путча 2 недели weis RE:Прошу переформатировать, распознать, etc... 2 недели babajga RE:Алиса в стране чудес 2 недели babajga RE:Ёжик, который хотел обнять Луну 2 недели babajga RE:Самый храбрый совёнок 3 недели babajga RE:Похититель домофонов 3 недели Саша из Киева RE:Хочу быть лётчиком 3 недели Саша из Киева RE:Бессмертен подвиг ваш 3 недели Впечатления о книгах
miri.ness_ про Еще не поздно (СИ)
09 05 Автор эрудирован (как специалист по МЭ говорю, из Зеленограда), но патологически глуп. Он так быстро накропал пять романов, что понятно, что уничижительные слова для всего всего, что было в жизни его родителей, он не подбирал ………
Sello про Труайя: Алеша (Историческая проза, Биографии и Мемуары)
09 05 О самой повестушке особо нечего сказать. Добротный язык, без выкрутасов, ясное содержание - пишет Труайя хорошо, что тут наворачивать словеса ради слов. Не первое его произведение, прочитанное мной. Другое приходит на ум: ……… Оценка: хорошо
decim про Карнеро: Пазолини. Умереть за идеи [litres] (Биографии и Мемуары, Изобразительное искусство, фотография)
09 05 Возбуждающая начальство тематика вымарана цензурой до такой степени, что от книги остались обрывки. Нечитаемо. Оценка: нечитаемо
miri.ness_ про Шестаков: Монгольское нашествие на Русь и Европу [litres] (История)
07 05 Что интересно. Вчера посетил итальянскую педию (перешёл с русской), по слову Тамерлан (Тимур). Там употребляется выражение "тюрко-монгольская орда", татар и в помине нет. Оценка: неплохо
Олег Макаров. про Попытка возврата
07 05 Написано интересно, качественно. Всё смазывается тем, что автор либо ненавидит, либо презирает всех, кроме Сталина и русских. * Ещё забавляют некоторые моменты неграмотности автора, типа французкий луковый суп это ………
Sello про Замятин: Мы (Социальная фантастика, Антисоветская литература)
07 05 Вчера состоялся давно с нетерпением ожидавшийся всеми День Единогласия. В 48-й раз единогласно избран все тот же, многократно доказавший свою непоколебимую мудрость Благодетель. Торжество омрачено было некоторым замешательством, ……… Оценка: хорошо
natanbi4 про Евгений Г. Солышко
06 05 Написано хорошо. Роялей в кустах минимум. Вторая часть очень медленно пишется. Творческий процесс-тяжёлое дело.
скунс про Дроздов: Ледащий [СИ] (Боевая фантастика, Технофэнтези, Самиздат, сетевая литература)
06 05 Читать можно,местами даже интересно Оценка: хорошо
udrees про Круз: Холод, пиво, дробовик (Боевая фантастика)
05 05 Отличная книга. Добротное описание обстановки, обстоятельные размышления героев, тщательное вырисовывание арсенала оружия, которым славится Круз. Хорошая обстановка – в меру фэнтези, мир где водятся всякие чудища, недружелюбная ……… Оценка: отлично!
udrees про Золотусский: Гоголь (Историческая проза)
05 05 Типовая биография, приводятся основные моменты жизни писателя. По некоторым произведениям дается довольно большой разбор – описание персонажей, символизм, скрытые намеки, критика. Это касается в основном Мертвых душ, но еще ……… Оценка: плохо
187 про Петров: Тайна Концептуальной Власти (Политика)
04 05 Я таки догадывюсь , что за чегт тянет свою когтистую пятегню на обложке))) Оценка: отлично!
Belomor.canal про Яковлева: Случай в Москве [Литрес] (Исторический детектив)
03 05 Самая короткая из 3-х повесть - на один вечер чтения! Это как бы начало расследований нашего гусара, то есть №3 идет перед №1, где ротмистр уже ранен и возвращается подлечится. Опять, надо не заморачиваться историческими не ……… Оценка: хорошо |
Комментарии
Отв: Мои алгоритмы работы с FR11
Плюспиццот.
Отв: Мои алгоритмы работы с FR11
А кто-нибудь делал книгу с over4000 сносок? У меня целый день провисел вчера (часов 9, пока свет не отрубили) и fb2 обрывается на 1035-й сноске... Может FR!! больше не может?
Через FBTool извращаться не хочется (да и виснет тоже не слабо)... Может сноски объединить со стилем "основной текст"? А потом руками расставлять(((
Отв: Мои алгоритмы работы с FR11
Ага-ага!!!
Хм... Максимум, что попадалось - девятьсот с копейками, и никаких проблем не было.
Я правильно поняла, вы сноски отдельно от основного текста распознавали?
Отв: Мои алгоритмы работы с FR11
Нет. Просто есть стиль "сноска", есть "основной текст" - думал их слить в один стиль "основной текст"...
Но я только что проблему решил, ура!
Дело в том, что было около 20 стилей "сноска" - я их все слил в один и все выгрузилось в fb2 за 15 мин!
Отв: Мои алгоритмы работы с FR11
Ура! :)
Только проверьте теперь, не потерялась ли курсивность там, где надо.
Отв: Мои алгоритмы работы с FR11
Потерялась, конечно. Но я её всё равно корректирую вручную, типа: (англ.). -> (англ.). Кроме того, сохранилась только половина сносок... По всей видимости те области, где стиль сноска был проставлен руками не сохранились...
Я тут поэкспериментировал и получил такой алгоритм:
- на странице исправляем все сноски на правильные (вместо ' / и тп, ставим 1 2 3)
- распознаём заново область сносок (пометив назначение как "основной текст")
Если текст сам распознался, как сноска, то всё ОК, иначе - менять руками стиль на "сноску" бесполезно, они не ассоциированы останутся с 1 2 3 ... в основном тексте, и не выгрузятся в fb2.
Отв: Мои алгоритмы работы с FR11
Мне этот способ не помогает. Простой заменой ' на 1 - проблему не решишь.
Отв: Мои алгоритмы работы с FR11
Я давно об этом писала. Поэтому и не доверяю ФР расставлять сноски. :(
Отв: Мои алгоритмы работы с FR11
надо же! Как всё просто оказалось)))) С чем вас и поздравляю ;-)
Отв: Мои алгоритмы работы с FR11
Привет всем! А как быть с картинками при прямой передачи из FR-11 в формат fb2?
Дело в том, что FR-11 оформляет изображения так
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>
<p>Пример картинки после экспорта в fb2</p></td></tr>
</table>
Но стоит в FBE -2.6 перейти в просмотр кода FBE 2.6 по неведомым законам "корректирует" приведенный выше фрагмент и превращет его в
<table>
<tr>
<td/>
<image l:href="#image1.jpg"/>
<empty-line/>
</tr>
<tr>
<td/>
<p>Пример картинки после экспорта в fb2в</p>
<empty-line/>
</tr>
</table>
и далее наш любимы FBE сообщает об ошибке - ожидается th или td!!!
Как с этим борется народ:?????
Отв: Мои алгоритмы работы с FR11
Таблицей обрамляет только в ситуации, когда стиль текста "Подпись к картинке" (проверил на тексте с 50 изображ, с произвольно распределенным стилем)
К сожалению, простой заменой стиля на "Основной текст" в FR11, проблема не лечится. Видимо создаётся какая-то доп. связь между картинкой и текстом стиля "Подпись к картинке"
Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Отв: Мои алгоритмы работы с FR11
Я такой закономерности не проследила, но очень может быть. Обязательно в следующий раз проверю. Спасибо. :)
Можно попробовать не заменять стиль "Подпись картинки", а объединить со стилем "Основной текст" в пользу последнего.
Отв: Мои алгоритмы работы с FR11
Я делал и так, и так - не помогает...
более того, если "схитрить": распознать сначала только текст на странице, атолько потом выделить области картинок, то текст так и остается "основным текстом", но при сохранении картинки "цепляются" к тексту((( Выгружается таблицей...
Кстати, если текст под картинкой пометить, как таблицу, то таблицей выгрузится только текст, картинки в таблицу не включаются))) Тоже вариант - меньше удалять тэгов...
Отв: Мои алгоритмы работы с FR11
Я в следующий раз при наличии стиля "подпись к картинке" попробую поэкспериментировать. Может, что-то получится. Во всяком случае, Ваше наблюдение, что это коррелируется с этим стилем, очень интересно.
Ну, я там выше дала регэксп массовой замены. Ему-то всё равно, сколько тэгов. ;)
Отв: Мои алгоритмы работы с FR11
Это на случай, если в книге есть и настоящие таблицы (причем не собранные в одном месте, а вперемешку с картинками)
Отв: Мои алгоритмы работы с FR11
Wotti написал регэксп для удаления всех элементов таблицы:
(</table>)|(<table>|<td/>|<td/>|</tr>|<tr>|<th/>)
заменить на "ничего".
Делается в режиме Source. Не забудьте отметить "регулярное выражение".
Отв: Мои алгоритмы работы с FR11
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>Пример картинки после экспорта в fb2</td></tr>
</table>
Но, конечно, всё равно маразм. Надо написать на форуме FR, а то вдруг они не знают?
Можно сделать макрос для AkelPad и запускать AkelPad с макросом до запуска FBE.
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
[quote Vadi ]Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Отв: Мои алгоритмы работы с FR11
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Попробуйте всё же поэкспериментировать со стилями. Если дело действительно в стиле "подпись к картинке" (что звучит очень правдоподобно), то задача решаема.
Отв: Мои алгоритмы работы с FR11
Подскажте. Вопрос по пользовательским словарям в FR. Задача следующая - нет определенного языка для распознавания - но это не проблема, все настраивается элементарно. Но нет и словаря для данного языка. Что очень и очень сказывается на распознавании, особенно в плане переносов слов... Значит создаем пользовательский словарь... Для старта 85 тыс. слов, но в пользовательском словаре, судя по всему, существует ограничение по размеру!?. Пришлось сделать 14 пользовательских словариков - дабы впихнуть в них, по частям, весь этот словарь... Иметь 14 пользовательских словарей очень неудобно - FR начинает конкретно подтормаживать... Кто сталкивался? Как эту массу слов слить в один пользовательский словарь? (FR9.0 Pro)
Отв: Мои алгоритмы работы с FR11
К сожалению, у меня нет ответа на Ваш вопрос. Словари для языков, которыми я пользуюсь, встроены по умолчанию.
Но наверняка найдётся кто-то, кто владеет этим вопросом. :)
Отв: Мои алгоритмы работы с FR11
А вот я столкнулся с такой проблемой - не открывается документ ридера. До этого корректно сохранил документ и закрыл программу.
Отв: Мои алгоритмы работы с FR11
А что пишет, почему не открывает?
Отв: Мои алгоритмы работы с FR11
А у Вас не портабл?
Отв: Мои алгоритмы работы с FR11
Нет, вроде.
Отв: Мои алгоритмы работы с FR11
Открылся, но странно, почему до этого не получалось.
Было
Отв: Мои алгоритмы работы с FR11
Тоже была разок такая же бяка. И тоже само рассосалось, так и не понял, чё оно вылезало.
Отв: Мои алгоритмы работы с FR11
Интересно, что после первой неудачной попытки открытия файла он пропадал из списка последних открытых.
Отв: Мои алгоритмы работы с FR11
Ну тут оно фиг с ним, попугало маленько и всё. Я два раза сталкивался с настоящей неприятностью. Дома стоит полный (ломаный правда) файнридер, на работе портабельным пользуюсь. Иногда недоделанную книжку таскаю туда-сюда на флешке в виде проекта. И столкнулся, что домашнему иногда не нравится проект, редактированный на работе (FR-11, сборки разные только и разрядность систем). Открывается и редактируется нормально, но при попытке сохранения или передачи текста ругается на некоторые страницы (не помню уже, как именно) и они остаются вроде как нераспознанные, хотя до этого были. Первый раз таких всего десятка два было, поэтому просто удалил их из проекта, заново вставил и распознал. А вот второй раз... Сотни полторы разворотов, разбросанные по 1000-страничной книге, уже вычищенные, блин, похерились. Ладно додумался на след. день опять на работу отнести и там уже закончить. Во радости-то было, что спасти удалось. :))
Это я к тому всё, что лучше без нужды не таскать проект с компа на комп, ну или хотя бы чтоб сборки FR на них были одинаковые.
Отв: Мои алгоритмы работы с FR11
У меня такое изредка бывает в одной и той же программе. Распознайте их просто ещё раз.
Если появляется сообщение о "внутренней ошибке", сдвиньте слегка границу любой области. Если область не приходится изменять, внесённые изменения при повторном распознавании уже будут учтены.
Отв: Мои алгоритмы работы с FR11
Во, именно про "внутреннюю ошибку" и было. Повторно-то оно распознавалось, но при сохранении опять ломалось. Вот области подвигать не дотумкал. Зарубочку сделал, спасибо. :))
Отв: Мои алгоритмы работы с FR11
Помогите вот с такой проблемой. Распознаю книгу в FR11, и он ругается на каждое длинное тире - uncertain character.
Как от этого избавиться?
Отв: Мои алгоритмы работы с FR11
В смысле - выделяет как неуверенно распознанный элемент? Если да, то игнорировать.
Если Вы имеете в виду что-то другое, уточните.
Отв: Мои алгоритмы работы с FR11
Да, как неуверенно распознанный. Я конечно игнорирую, но их там по 20 на странице.
Неужели нельзя его как-то добавить в список нормальных символов?
Я редко FR использую, таких тонкостей не знаю.
Отв: Мои алгоритмы работы с FR11
Теоретически можно, но нужно потратить время на "обучение" ФР и создание пользовательского эталона, а потом распознать ещё раз - уже с этим эталоном.
Овчинка выделки не стоит, на мой взгляд.
Отв: Мои алгоритмы работы с FR11
А если в словарь такие тире добавить?
Тогда просто перераспознать и все.
Отв: Мои алгоритмы работы с FR11
Вряд ли. Так выделяются и известные ФР слова. Просто конкретно в этом проекте тире "путается" с каким-то другим знаком. А может, оно просто слишком тонкое. Значит, нужно "научить" ФР, что это - тире.
Но для интереса можно попробовать. Если сделаешь, напиши, пожалуйста, чтó получилось.
Отв: Мои алгоритмы работы с FR11
Это надо, чтобы medved кусок скана выложил. А иначе как проверить?
У меня с тире проблем ни разу не было. В словарь оно добавляется без проблем, но надо проверять результат на конкретном скане.
Отв: Мои алгоритмы работы с FR11
Ну, при случае. ;)
Бывают такие сканы, где все длинные тире "бирюзовые". Я тоже при случае проверю твою идею.
update:
Случай нашёлся на следующей странице. ;)
Добавила вручную
<— >
(с табулятором) и<—>
. Перераспознала страницу:Отв: Мои алгоритмы работы с FR11
Что забавно, распознал твой скриншот без проблем с тире )
Отв: Мои алгоритмы работы с FR11
Зато с кучей других "неуверенно распознанных символов" и с ошибкой OCR. :-Р
Кстати, на следующей странице слово "ГЛАВА" было полностью бирюзовым. Хоть в словаре, как ты понимаешь, оно есть. Так что дело не в этом.
Отв: Мои алгоритмы работы с FR11
Дык, я не вычитывал же, просто проверить хотел что с тире )
Ты бы пару страничек выложила в нормальном размере, с тире и "главой" интересно уже посмотреть, как у меня распознается )
Отв: Мои алгоритмы работы с FR11
Нет, я не про сами ошибки, а про распознавание. ;)
Держи: http://yadi.sk/d/VrGdUVZ04J3s7
Здесь 2 страницы. Ошибок OCR не было.
Выглядит так:
Отв: Мои алгоритмы работы с FR11
Сделал в 8 Файнридере и в 11.
Ошибок нет нигде, но восьмерка нормально воспринимает тире.
В 11 добавил скопировал тире в словарь - не помогло.
"Глава" в обеих версиях неуверенно распознанным выделена.
Отв: Мои алгоритмы работы с FR11
Вот пара страниц для примера:
http://rghost.net/45520322
Отв: Мои алгоритмы работы с FR11
Никаких проблем с распознаванием, в том числе, с тире (Файнридер 8 версии)
Отв: Мои алгоритмы работы с FR11
Если вспомнить что тире бывают en dash и em dash, от длины N и M, а эти длинные тире в тексте даже превышают em dash, то у FR11 едет крыша. FR8 более устойчив к косякам. Либо плюнуть, либо обучать по эталону, что длиииинное тире в тексте на самом деле будет em dash.
Отв: Мои алгоритмы работы с FR11
Да, FR8 как-то лучше справляется с тире, чем 11 версия.
Отв: Мои алгоритмы работы с FR11
Давно уже вычитываю с включенными непечатными символами. Привыкаешь к ним быстро. Разрывы в словах, неверная разбивка по абзацам после точки... это все легко отслеживается...
Страницы