Вы здесьМои алгоритмы работы с FR11
Опубликовано сб, 04/08/2012 - 03:35 пользователем golma1
Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме. Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2. Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты". После распознавания сохраните документ ФР. Продолжение: Файл fb2, полученный из FR11
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 1 день
kopak RE:О группе Дятлова. О той самой, того самого... 1 день Trinki RE:Не присылает пароль на почту 3 дня babajga RE:Плюмаж 6 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя babajga RE:Блошкинс и Фрю. Опасное путешествие 1 неделя alexk RE:Багрепорт - 2 2 недели babajga RE:Удивленная сова 3 недели Larisa_F RE:Серия «Квадрат» издательства «Текст» 4 недели Aleks_Sim RE:Беженцы с Флибусты 4 недели edvud RE:Прошу переформатировать, распознать, etc... 4 недели monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц sem14 RE:«Уроки русского» 1 месяц Isais RE:Древний Рим. Подборка книг 1 месяц babajga RE:Отчаянная осень 1 месяц Впечатления о книгах
Oleg68 про Бушков: Времена звездочетов. Наш грустный массаракш (Фэнтези, Самиздат, сетевая литература)
07 04 Не шедевр, но мне понравилось. Опять на самом интересном пауза. Оценка: отлично!
Олег Макаров. про Усманов: Конец или начало? [СИ] (Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
07 04 Белиберда картонная с самого начала. Трёх страниц достаточно, чтобы понять Оценка: нечитаемо
Stager про Старуха
07 04 УГ. Литературы тут нет совсем. Это чисто заклёпочническое построение, а вот с заклёпочничеством у автора большие проблемы. Он не знает того, что знает любой любознательный школьник и что даже сносно описано в Википедии. Поэтому ………
mysevra про Терехов: Каменный мост (Современная проза)
07 04 Я бы читала, мне было интересно, но автор постоянно сбивается на тошнотворное описание каких-то эпизодов взаимоотношений главного героя с его женщинами - зачем мне это знать? Оценка: плохо
mysevra про Свечин: Адский прииск (Исторический детектив)
07 04 Добротно и обстоятельно. Очень интересно описан край. Прочитала с большим удовольствием, теперь хочу прочитать всю серию. Оценка: отлично!
mysevra про Горд: LOVE-леди. Искусство отличаться от других женщин (Психология)
07 04 Наверное, кое-что можно взять на вооружение, хотя риторика американских подростковых сериалов сильно удешевляет идею. Интересно было бы воочию сравнить байгужинку, последовательницу Валяевой и барышню, проработавшую эту книгу. Оценка: неплохо
Gilean про За чужой мечтой
06 04 Читать интересно, но вот мало логики. Ну и как всегда сериал не закончен. Что не понравилось - переходы между книг, читаешь следующую и как будто не врубаешься что происходит? Через главу или две понимаешь о чем речь ………
Олег Макаров. про Панов: Кто-то просит прощения [litres] (Триллер, Детективы: прочее, Мистика)
06 04 Какая-то муть. Не дочитал. После предыдущей даже обидно Оценка: нечитаемо
lukyanelena про Вудворт: Парный танец (Любовная фантастика)
06 04 Какая-то ода абьюзу. И безобразно написаны эротические сцены. Убожество. Полно пафоса и штампов. Такое впечатление, что отдали на аутсорс какой-то малолетке. Оценка: плохо
Г.Гуслия про Скотина
05 04 Очень хорошо, можно даже сказать отлично. Вроде бы как обычный попаданец, но много свежих нюансов. Язык хороший, читается легко. Жалко, что пока только две книги. Надеюсь, продолжение будет не хуже и достаточно скоро.
magmel про Грайдер: Стажер Ли Су Джин (Попаданцы, Самиздат, сетевая литература)
05 04 Понравилось, перекликается с произведениями Кощиенко
dolle про Шаргородский: Слишком смышленый дурачок (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
05 04 Как бы попаданец в почти боярку.Оригинально, свежо и необычно. Понравилось.Отлично. Оценка: отлично! |
Комментарии
Отв: Мои алгоритмы работы с FR11
Напряженка с поиском возникает и от стандартного ударения и от выделения ударных букв жирным курсивом (как любят делать на HL). Поэтому еще один элемент, мешающий поиску, погоды не делает.
Отв: Мои алгоритмы работы с FR11
Так-то оно так.
Кстати, в FBE и HaaliReader поиск слов с выделением болдом и/или курсивом таки вполне нормально работает.
А вот в FBReader, AlReader и обоих CooReader — увы.
Отв: Мои алгоритмы работы с FR11
Новая версия скрипта, ищущего ошибки OCR: http://rusfolder.com/32482905
###
В нём разрывы абзацев, обрабатываемые скриптами FBE выделены в отдельную группы и помещены под спойлер: вы можете решить, хотите ли исправить их на этапе распознавания в ФР или уже в самом FBE.
Кроме того, улучшено детектирование скриптов.
###
Этот скрипт, кроме поиска разрывов абзацев внутри страницы, находит разрывы абзацев страницей, что частенько может ускользнуть от внимания OCR-щика.
Только что запустила его на файл новой книги - более 40 проблемных мест. И если глаза могут что-то пропустить, то скрипт - ни за что. ;)
В общем, перфекционистам всячески рекомендую. :)
Отв: Мои алгоритмы работы с FR11
У меня этот скрипт стабильно валится с такой ошибкой:
Сценарий: c:\_FBEditor\Script\spotter.vbs
Строка: 236
Символ: 5
Ошибка: Индекс выходит за пределы допустимого диапазона: 'nStrLen'
Код: 800A0009
Источник: Ошибка выполнения Microsoft VBScript
Отв: Мои алгоритмы работы с FR11
Хммм...
А где Вы его запускаете? Это скрипт - НЕ для ФБЕ.
Не надо его в директорию ФБЕ копировать. Просто распакуйте архив куда-нибудь, где Вам удобно, и там запустите. И примените его на текстовом файле, полученном из ФР (опции см. выше).
Отв: Мои алгоритмы работы с FR11
Применять на .fb2, но не в FBE, просто запустив скрипт в cmd, подставив ему имя файла .fb2 как аргумент в командной строке?
Отв: Мои алгоритмы работы с FR11
Есть новая версия этого скрипта. Она работает с файлами, экспортированными из ФР (сохранить как...). Для нее нужно сохранить проект в txt, html, rtf - с определенными опциями. Занимает даже на 600-страничном проекте меньше минуты.
Потом на эту троицу запускается скрипт (у него нормальный интерфейс, не нужно никакой командной строки, он на Дельфи, если я не ошибаюсь). Он работает порядка минуты, анализируя результаты, и выдаёт протокол. Как подробно смотреть протокол - каждый решает для себя. Я обращаю внимание только на разрыв абзаца страницей (когда в конце предыдущей страницы стоит точка) и на разрыв абзаца на точке в конце строки.
Но скрипт умеет больше: он видит "пропущенные" сноски (которые визуально не выделяются, если предварительно не работать со стилями, как я выше описывала), видит нарушение расположения блоков текста (иногда бывает вокруг картинки не во всю страницу) и ещё кучу мелочей.
Если интересует, могу выложить последнюю версию и опции для сохранения документа ФР.
Отв: Мои алгоритмы работы с FR11
Попробуйте эту версию: http://rusfolder.com/32499403
И сохраните всё же скрипт в другом месте, не внутри ФБЕ.
Для всех пользователей скрипта:
В этой версии разрыв абзаца, обрабатываемый скриптами в ФБЕ, не спрятан в спойлер, а выделен другим цветом (зелёным). То есть, если вы не собираетесь исправлять такие места в ФР, просто игнорируйте. Для тех же, кто хочет исправить разрыв уже на этой стадии, отпадает необходимость раскрывать спойлер.
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
Вот, попробуйте здесь:
https://www.rapidshare.com/files/3103890321/spotter_2.20.zip
Отв: Мои алгоритмы работы с FR11
Вот, попробуйте здесь:
https://www.rapidshare.com/files/3103890321/spotter_2.20.zip
Спасибо! Здесь скачалось.
Отв: Мои алгоритмы работы с FR11
А вот у меня, как и с предыдущими двумя версиями, выскакивает вот это

Хотя лог и hta создаются
--------
Интересно, находил ли кто-нибудь разорванные абзацы после прогонки скриптом?
Отв: Мои алгоритмы работы с FR11
Дружище tvnic!
Уважаемая golma1 внятно писала, что в случае, ежели название вашего файла на КИРИЛЛИЦЕ, да с пробелами внутри скрипт его не сможет вывести на дисплей. Не беда. HTA-файлы запускаються простым "тюк-тюк" мышкой в обозревателе. (Возможно операционка спросит кое о чем. Надо ответить утвердительно.) Либо НЕ ИСПОЛЬЗОВАТЬ кириллицу в названии TXT-файла. Вчитывайтесь в то, что пишет уважаемая golma1 - и будут всё в порядке.
- двоих-то я точно знаю. :)
И поверьте - когда и у вас получится - мало не покажется!
Удачи!
Отв: Мои алгоритмы работы с FR11
Я не имел в виду - сколько ошибок найдет скрипт. В этом я не сомневаюсь - сам убедился.
А ВСЕ ли ошибки он вылавливает?
Отв: Мои алгоритмы работы с FR11
Это уже довольно продвинутые версии, основные ошибки учтены. Но если Вы что-то заметите, пишите.
В последних мною "по старинке" (визуально) проверенных файлов, пропущенных мест не было. Сейчас работа идёт больше над уменьшением "ложных" срабатываний. Но и их уже не так много.
Отв: Мои алгоритмы работы с FR11
Конечно, в этом случае напишу. Но лучше, чтобы не пришлось это делать. Тогда и для глаз работы меньше.
Отв: Мои алгоритмы работы с FR11
Предположительно, да. Даже есть лишние.
На сейчас - "узкое место" - когда абзац разрывается страницей со сносками. Но в этом случае - всё равно глазами смотреть надо.
Работа ведёться, как по сокращению "ложных срабатываний" так и по детектированию сносок.
Отв: Мои алгоритмы работы с FR11
Точно! Я как раз зашла, чтобы написать о сносках.
Только что столкнулась с ситуацией, когда из-за сноски не был увиден "разрыв абзаца страницей".
Отв: Мои алгоритмы работы с FR11
В любом случае скрипт очень полезный и нужный.
А стыки страниц - не такая уж проблема - знаешь где смотреть. На мой взгляд важнее отловить разрывы внутри страницы (100 % :) ), чтобы не искать их глазами.
Отв: Мои алгоритмы работы с FR11
+500! Постоянно твержу об этом нашему уважаемому разработчику. Но он перфекционист, ему всё равно. ;)
Внутри страницы отлавливаются все. Проверено на 15-20 файлах. После этого проверять перестала.
Отв: Мои алгоритмы работы с FR11
Если так, то бальзам на душу. Теперь об этой стороне распознавания/вычитки можно забыть. Естественно, предварительно применив данный скрипт.
Отв: Мои алгоритмы работы с FR11
Предположительно последняя версия скрипта (в этом виде): http://rusfolder.com/32538257
Уменьшено количество ложных срабатываний за счёт учитывания подзаголовков типа "* * *" и заголовков типа "Глава..."
Если значительных ошибок не будет замечено, работа над ним приостановлена.
В планах - модификация скрипта с расширением функциональности (сроки не обозначены).
Отв: Мои алгоритмы работы с FR11
Скрипт очень полезен и в таком виде. С функциональностью можно и потерпеть :)
Вопрос к golma1, как опытнейшему распознавальщику. В среднем как много Вам в одной книге попадается склеенных абзацев?
Отв: Мои алгоритмы работы с FR11
В последней версии значительно меньше, чем в предыдущей. Порой - ни одного.
Но, поскольку время от времени они всё же встречаются, проверяю в каждой книге всё равно.
Отв: Мои алгоритмы работы с FR11
В сегодняшней книге (580 стр.) нашёлся всего один. Причём склеился на точке, проверка которой занимает наибольшее время:
Казалось бы, одним склеенным абзацем на 580 страниц можно было бы пренебречь, но у перфекционистов жизнь тяжёлая... :(
Было ещё одно место, где в диалоге "-Да." приклеилось к предыдущей реплике, но такие места (мне) сразу видны, я их вылавливаю на первом этапе - при просмотре страниц.
Отв: Мои алгоритмы работы с FR11
Ясно.
Ведь качество сканов именно на количество склеенных абзацев не влияет? Это уже ФР грешит.
И где удобнее сравнивать - в ФР (там в окне "Текст" строки бывают перекошены) или ПДФ с ФБ2?
Отв: Мои алгоритмы работы с FR11
Ээээ... что-то я растерялась. Сравнивать?
Искать склеенные абзацы нужно при помощи метода ТаКира (выше описано). В ФР, после основного этапа распознавания (просматривания страниц и расстановки служебных пометок).
Отв: Мои алгоритмы работы с FR11
Честно говоря, думал, что после этого метода не мешало бы глазами проверить. Или это лишнее?
Отв: Мои алгоритмы работы с FR11
Абсолютно лишнее. :)
Не помню, писала ли я выше, но я проверяю ещё на сочетание »^l
Важно для случаев типа
«И как ты решила?»
в конце абзаца.
Встречается крайне редко, но всё-таки... ;)
Отв: Мои алгоритмы работы с FR11
Вчера делала книгу, в которой скрипт нашёл более 40 (sic!) случае разрыва абзаца на строке с точкой.
В среднем "проблематичных" мест находится от 5 до 15.
Сегодняшний "улов":
Тривиальный разрыв абзаца страницей - 159 (спрятан в спойлер, не обрабатывается)
Разрыв абзаца страницей - 14 (отметила служебными знаками, чтобы соединить в ФБЕ)
Подозрительный фрагмент текста - 1 (оказался разрывом абзаца, когда следующая строка начиналась с цифры)
Возможный разрыв абзаца - 15 (в 2-х случаях оказался разрывом, остальные - перед ***, проверила один раз)
Внутриабзацный разрыв - 18 (выделено зелёным, обрабатывается на усмотрение OCR-щика; я разрывы исправила)
Затрата времени (с момента запуска скрипта) - 9 минут.
Кстати, специально для Вас, tvnic, попробовала ещё раз: оставила название файла на кириллице. Получила сообщение, открыла результативный файл вручную. Так что полминуты можно сбросить. ;)
Отв: Мои алгоритмы работы с FR11
Не предполагал, что текстовый файл может быть только и исключительно после FR11. Попробовал, совершенно не впечатлился, останусь на своих текущих инструментах, то бишь, на регэкспах EmEditor.
Отв: Мои алгоритмы работы с FR11
Спасибо, что сообщили нам об этом. В-)
update:
Вообще-то скрипт "заточен" под текстовый файл, полученный из ФР. Именно поэтому так важно сохранить его с теми опциями, которые я описывала выше.
Применять его на любых других текстовых файлах, мягко говоря, неразумно.
Отв: Мои алгоритмы работы с FR11
Уточнение.
Под "именем файла" подразумевается ПОЛНОЕ имя т.е. начиная с буквы диска:_путь_собственно имя. Так вот, в этом полном имени НЕ ДОЛЖНО быть кириллицы с пробелами.
На самом деле это не ошибка скрипта, а невозможность средствави vbs (привет Майкрософту!) запустить на исполнение (по функции run) файл, в ПОЛНОМ имене которого присутствует кириллица с пробелами (без пробелов - прокатит).
Отв: Мои алгоритмы работы с FR11
Вот-вот. Об этом сказано не было.
Отв: Мои алгоритмы работы с FR11
FineReader и DPI: размер имеет значение
Скормил я на днях FR'у присланные мне сканы и ... FR от тех сканов "сошел с ума": разворачивать и делить на страницы отказался почти в 70%, а области с текстом определил как картинки...
Подумав немного - решил замерить DPI "руками" - оказалось 110 (вместо заявленных 600)
Исправил DPI (использовал программу FastStone Photo Resizer) - OCR прошло почти без ошибок.
Отв: Мои алгоритмы работы с FR11
Сам ФР имеет встроенный редактор изображений: "Страница -- Редактировать изображение страницы -- Разрешение изображения (в правой колонке)". Можно воспользоваться им.
Часто при распознавании ФР сам предлагает увеличить разрешение. Нужно только щёлкнуть по линку в окне предупреждений.
Отв: Мои алгоритмы работы с FR11
Я пробовал в редакторе изображений определить DPI - FineReader определил верно, но с заданием применить его ко всем страницам справился на "плохо" на 1 балл т.е. :(
Отв: Мои алгоритмы работы с FR11
Тогда, конечно, имеет смысл обработать сканы в другой программе.
У меня обычно речь идёт о максимум 5-7 страницах - по отдельности. С этим ФР справляется на ура.
Отв: Мои алгоритмы работы с FR11
Как я понимаю - небольше погрешности в определени DPI распознавалка прощает, но если они значительны - будут проблемы... пробовал на тех же сканах поставить 300 - распознались сканы, но... часть строк была утрачена, в оставшихся изрядно ошибок...
Отв: Мои алгоритмы работы с FR11
Прошу прощения за смешной вопрос, но у меня возникла вдруг проблема, с которой я раньше не сталкивалась. Итак, есть сканы книги в виде пдф, сделанного из фотографий, фон картинок темно-серого цвета. Распозналось, кстати, очень неплохо, но в окне Текст - тот же темно-серый цвет фона, читать это невозможно - глаза болят. Поменять цвет фона можно - в настройках внизу окна, но это применимо почему-то только к одной конкретной странице, а их более 300. В Сервис-Опции-Вид - возможности изменить цвет фона я тоже не нашла. Хелп плизз!!
Отв: Мои алгоритмы работы с FR11
В меню "Страница" есть пункт "Редактировать изображение страницы". Это редактор изображения. Попробуйте в нём изменить страницу так, чтобы она читалась. Если получится, выберите в правом нижнем углу "Применить к -- Все страницы".
К сожалению, я не увидела там возможности изменить тон. Но может быть получится, если поиграться яркостью и контрастностью. :(
Отв: Мои алгоритмы работы с FR11
Спасибо, попробую)
Отв: Мои алгоритмы работы с FR11
Ну, вообще-то я описала пошагово. ;) Но лично для тебя ещё раз.
1. С выбранными опциями (предобработка, разрезать разворот и пр.) распознать книгу.
2. Зайти в редактор стилей. Там у тебя есть выбор, что делать. Можешь объединить все стили "сноска" в один. Но тогда можешь потерять курсив и/или болд. Поэтому рекомендую объединять только стили с одинаковыми параметрами (т.е. курсив с курсивом, болд с болдом). В результате получишь максимум 3 варианта. Если важна оптика, выбери всем один и тот же шрифт и один и тот же размер (насчёт размеров для удобства идентификации неверно распознанных стилей я писала подробно, почитай). Та же история с основным текстом. Если ты его объединишь в один - можешь потерять курсивность/полужирность.
3. Подпись к картинкам не передаётся, только если ты при сохранении выбрал "не сохранять картинки". При сохранении картинок передаются и подписи.
4. Я работаю в режиме "редактируемой копии" - так (для меня) нагляднее. Непринципиально, на распознавание не влияет - это только способ вывода текста в данный конкретный момент. При сохранении ты можешь выбрать то, что тебе удобнее: кнопка "Опции..." внизу слева в окне "Сохранить как..." Вот эти опции уже влияют на качество передаваемого текста.
5. Предполагаю, что отсутствие курсива/болда при передаче из pdf в fb2 связано именно с п. 4. В опциях должен стоять "Форматированный текст".
Отв: Мои алгоритмы работы с FR11
Спасибо!
Действительно, был выставлен плэйн текст при передаче в фб2 )
По пошаговость я спрашивал именно потому, что непонятно, когда что делать )
Т.е твой обычный порядок действий?
1) запускаешь ФР.
2) Проверяешь настройки распознавания.
3) Загружаешь сканы в ФР.
вот в таком виде хочется понять про то, в какой момент ты начинаешь править стили?
Особенно стили интересуют - их надо править на каждой странице?
____________________________________________________________________
На примере хорошего издательского pdf экспериментально выяснил, что 11 версия ФР уступает в аккуратности распознавания старой 8 версии ФР.
8 идеально распознала текст (есть режим извлекать тест из pdf), но не понимает сносок, распознает как обычный текст.
11 версия в режиме тщательного распознавания создала сноску, но потеряла курсив в этой сноске.
Т.е явный софтовый регресс при работе с хорошими исходниками в 11 версии ФР (
Отв: Мои алгоритмы работы с FR11
Я загружаю сканы сразу с распознаванием (настройки у меня выставлены раз и навсегда; изменять их приходится крайне редко, чтобы не сказать "никогда").
После этого (автоматического) распознавания правлю стили. А потом начинается основная работа - просмотр каждой страницы с целью выявления неуверенно распознанных символов и расстановки служебных пометок (и всё остальное - см. подробное описание).
Стили нужно править один-единственный раз: объединить, выставить желаемые шрифт и размер.
Всё остальное не комментирую. Я за рекламу ФР11 денег не получаю. ;) Если тебе больше нравится 8-ка, значит, так тому и быть.
Я пользуюсь ещё скриптами от Alex2L. Но они "заточены" под особенности ФР11.
Отв: Мои алгоритмы работы с FR11
Дык я потому тебя и пытаю, что хочу понять, надо ли переходить или нет )
Ощущения странные.
Вроде почти полная автоматизация от скана до фбе, сноски опять же...
Но вот странности с распознаванием и туча стилей, которые пока не могу понять как работают, меня сильно напрягают (
О чем спич? Есть линк?
ПС
А чего с границами текста в этом топике?
Вообще все к краям монитора прилипает )
Отв: Мои алгоритмы работы с FR11
Первая версия скрипта описана в этой же теме (мой постинг от 03.09). Но сейчас есть следующая версия, которую наш перфекционист-скриптописальщик ещё не считает достаточно зрелой, чтобы выдавать в общее пользование, а постоянно улучшает. ;)
Насчёт границ текста - не поняла. У меня всё ОК.
Понимаю. Привычных багов уже не видишь, их "лечение" стало рутиной. А тут надо перестраиваться. Сама поначалу сопротивлялась.
Но сейчас баги 11-й версии стали родными. Лечатся (на мой взгляд) просто, а преимущества (опять-таки на мой взгляд) перевешивают.
Поэтому, мне кажется, если пересилить себя и поработать какое-то время на "нелюбимой" 11-ке, то привыкнешь и будешь видеть только положительные моменты. Как я. В-)
Отв: Мои алгоритмы работы с FR11
Как-то для интереса сравнила количество склееных абзацев в книге, распознав ее в разных версиях. В FR 9 нашла 25 штук, в FR 11 — всего 4. Оно вроде бы и не трудно самой найти/исправить, но больше к девятому не возвращалась.
Отв: Мои алгоритмы работы с FR11
Удручает очень плохая работа ФР со сносками. Сейчас работаю с книгой, где практически на каждой странице есть сноска. Так вот, ФР - 1 в книге видит, по- разному. Но за единицу принимает очень редко. В основном, распознает, как '. 3, может быть и 5 и s. Из-за этого работа со сносками, превращается в мУку. Сноски с одной страницы, переносит на другую, или не переносит вообще. Я обычно радуюсь, когда все комментарии расположены в конце книги. Как ни странно, но работа со сносками происходит значительно быстрее в "ручном режиме", нежели в автоматическом, но в исполнении ФР, т.к. каждую сноску приходится проверять, правильно ли отражена. Может кто знает, как лечить ФР в таких случаях?
Отв: Мои алгоритмы работы с FR11
Я последнее время даже не пытаюсь ФР сноски доверять. По мне лучше потратить время и рассовать их в скобки, чем потом разгребать. Потом скриптом в ФБЕ. Все равно просматриваю, чё он там нараспознавал, пустые строки расставляю, стихи, в одну строку которые, разбиваю... ну и заодно.
Страницы