Типичные ошибки распознавания - собираем статистику для скрипта ФБЕ

Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ:

Варианты:
пе (не), оп (он), пи (ни), ва (за), пее (нее), опа (она)...

Прошу участвовать всех желающих.

Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ.
Собранная статистика еще больше упростит отлов косяков сканирования и, соответственно, позволит более качественно и быстро делать верстку отсканенных книг и быстрее находить косяки в уже сделанных книгах тем, кто занимается их правкой-вычиткой.

Сейчас данный скрипт у меня ищет:
- смесь латиницы с кириллицей во всех вариантах,
- смесь букв с цифрами,
- неправильные дефисы-тире,
- мусор после скана,
- концы строк без знаков препинания
- неполный курсив слова
- указанные выше типичные ошибки распознавания
и другие подозрительные места.

Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.

Комментарии

Слова "оп, пи, опа" вообще-то существуют.Редко-редко, но они встречаются. Используя скрипт - рискуем их потерять.

Хотя... из той же области: па (на), Ас (А с), пет (нет)

Алексей_Н написал:
Слова "оп, пи, опа" вообще-то существуют.Редко-редко, но они встречаются. Используя скрипт - рискуем их потерять.

Скрипт только ищет и выделяет подозрительное место курсором. Автозамена не планируется )

Пробелы перед знаками препинания, в начале и в конце абзаца. Отсутствие пробела вокруг тире. Несколько пробелов подряд.
Но это всё фигня, это поиском с regexp'ом лечится. А вот со слипшимися абзацами разобраться бы... Единственный более-менее хинт: если ни с того ни с сего после скана появляется разорванный в самом начале абзац, значит, одной-двумя строками выше точно два или более абзаца слиплись.

ив - и в (союз с предлогом)
ас - а с (то же)
оказал - сказал
опросил - спросил
Но эти случаи лучше проверять по бумажной книге.

Аватар пользователя golma1

Тайме -- Таймс (и с маленькой буквы тоже)
Нуда -- ну да.

Кстати, концы строк без знаков препинания ищутся скриптом "Интерактивная ликвидация разрывов абзацев". Можно не дублировать.
Смесь букв с цифрами и неполный курсив/болд слова ищутся скриптом "Слипшиеся слова". Можно тоже не дублировать.

А что значит "неправильные дефисы-тире"?

golma1 написал:
концы строк без знаков препинания ищутся скриптом "Интерактивная ликвидация разрывов абзацев". Можно не дублировать.
Не согласен - "интерактивный ликвидатор" зануден и приставуч, по два вопроса на каждый разрыв, и пока до конца не дойдёт - не прекратится. Чистая искалка ИМХО полезнее.
Аватар пользователя golma1

Рыжий Тигра написал:
golma1 написал:
концы строк без знаков препинания ищутся скриптом "Интерактивная ликвидация разрывов абзацев". Можно не дублировать.
Не согласен - "интерактивный ликвидатор" зануден и приставуч, по два вопроса на каждый разрыв, и пока до конца не дойдёт - не прекратится. Чистая искалка ИМХО полезнее.

Ты когда им последний раз пользовался? И какой версией?

golma1 написал:
Рыжий Тигра написал:
"интерактивный ликвидатор" зануден и приставуч,

Ты когда им последний раз пользовался? И какой версией?
Пару недель назад, штатным от FBE 2.4 (2.6 на моей win2k не взлетает). А что?
Аватар пользователя golma1

Рыжий Тигра написал:
Пару недель назад, штатным от FBE 2.4 (2.6 на моей win2k не взлетает). А что?

Он давным-давно прерываем и очень удобно структурирован. Кроме того, можно показать спорное место перед принятием решения.
Обязательно поменяй на новую версию. Думаю, что он и под 2.4 будет работать.

Вы, может быть, путаете "Интерактивную ликвидацию разрывов абзацев" со скриптом jurgennt'а "Разрыв предложения"? "Интерактивная ликвидация" - это которая в одно окно выводит цитаты сомнительных мест и для каждого сомнительного места - радио-кнопки с вариантами обработки (скриншот). И "Ликвидация" с самого начала была прерываемой.

(Ссылку на скачивание последней версии можно найти в этом топике (не в первом сообщении). А вот последняя версия на текущий момент.)

"Неправильные дефисы-тире" - это просто прилипшие дефисы.
типа -так
или- так
Генуборка их не убирает.

Скрипт "Интерактивная ликвидация разрывов абзацев" удобен просто для правки.
А быстрый поиск всех вхождений рваных абзацев очень быстро помогает искать и форматировать стихи, цитаты и проч. )

Так что одно другому не только не помеха, но и очень даже наоборот )

Скриптом "Слипшиеся слова" я пользуюсь, хотя что-то в нем мне не очень нравится... То ли его тормознутость и кажущаяся тяжеловесность, то ли еще что.
Стараюсь вычистить максимум без его участия, а потом уже контрольный в голову с его помощью )

Тайме -- Таймс - часто встречается, но я предпочел в ФР-словарь занести, когда столкнулся пару раз ) но включить можно, если не для книг про спорт )

Аватар пользователя golma1

TaKir написал:

Тайме -- Таймс - часто встречается, но я предпочел в ФР-словарь занести, когда столкнулся пару раз ) но включить можно, если не для книг про спорт )

Да, действительно, в спортивной книге можно проколоться. Но если ты говоришь, что он будет интерактивный, то, наверное, нестрашно. ;)

Насчёт тормознутости и тяжеловесности: надеюсь, ты последней версией пользуешься? Прерываемой и запускаемой с места курсора.

Я говорю, что он будет?
Он уже есть ) Как минимум несколько версий уже тестировалось, зря не пользуешься )
Просто вешается на хоткей (у меня F2) и показывает по очереди все проблемные места.
Окон никаких нет, просто курсор выделяет найденную кривизну, а уж что с ней делать - дело хозяйское )

Скрипт "Слипшиеся слова" последней версии у меня, но еще с первых версий не люблю это вечно убегающее в верхний угол окошко, стараюсь все, что можно, поправить сначала без помощи этого скрипта, ибо так быстрее получается )

Аватар пользователя golma1

TaKir написал:
Я говорю, что он будет?
Он уже есть ) Как минимум несколько версий уже тестировалось, зря не пользуешься )

Эээээ?!
А я? А я? А как же я? (с)
Кинь в меня ссылкой, пжалста.

upd:
Ой-ой-ой... *посыпает пеплом голову* Я поняла, о чём ты. О скрипте по регэкспам. Да, я им не пользуюсь. Что-то не заладилось. :(
А ты свои идеи просто туда добавляешь?

Ну да, собираю всякие явные косяки и пишу в этот скрипт.
И быстро кнопочкой по всей книге тынц-тынц-тынц...
Оченно облегчает жизнь, однако )

Можно создать несколько шаблонов этого скрипта и юзать по необходимости нужный из них, или быстро закомментировать какую-то строку или добавить еще что-то и на ходу продолжать проверку )

TaKir написал:
"Неправильные дефисы-тире" - это просто прилипшие дефисы.
типа -так
или- так
Генуборка их не убирает.
И хвала Перуну: двух-, трёх- и десяти- что-нибудь потом руками восстанавливать... :-(
TaKir написал:
Тайме -- Таймс - [...] предпочел в ФР-словарь занести
Хм? И помогает? Не знал...
Аватар пользователя golma1

Рыжий Тигра написал:

TaKir написал:
Тайме -- Таймс - [...] предпочел в ФР-словарь занести
Хм? И помогает? Не знал...

Я тоже не очень поняла, как занесение в словарь помогает выловить эту ошибку.
Такир, объяснишь подробнее?

Если в словаре ФР нет слова Таймс, то он даже при хорошем качестве скана будет распознавать слово как Тайме. Почему именно тайме - хз.
Если слово занести в словарь и перераспознать текст - это слово по всему документу будет распознано как Таймс.
Точно так же в свое время я матюкался на слово лабрадор - есть полуостров Лабрадор, и есть порода собак - лабрадор (с маленькой буквы).
ФР знал только название полуострова, и тупо везде распознавал Лабрадор вместо лабрадор, хотя в тексте было с маленькой буквы и скан отличный..
Занес в словарь, и все стало как надо )

Аватар пользователя golma1

TaKir написал:
Если в словаре ФР нет слова Таймс, то он даже при хорошем качестве скана будет распознавать слово как Тайме. Почему именно тайме - хз.
Если слово занести в словарь и перераспознать текст - это слово по всему документу будет распознано как Таймс.
Точно так же в свое время я матюкался на слово лабрадор - есть полуостров Лабрадор, и есть порода собак - лабрадор (с маленькой буквы).
ФР знал только название полуострова, и тупо везде распознавал Лабрадор вместо лабрадор, хотя в тексте было с маленькой буквы и скан отличный..
Занес в словарь, и все стало как надо )

Убедительно! И с "лабрадором" я тоже постоянно удивляюсь, чего это оно постоянно с большой буквы.
Так и сделаю. Спасибо. :)

Я тебе в личку написал, но не уверен, что отправилось нормально...

TaKir написал:
Если в словаре ФР нет слова Таймс, то он даже при хорошем качестве скана будет распознавать слово как Тайме. Почему именно тайме - хз.
И на английских именах и фамилиях типа Джеймс, Джонс, Робертс и т.д. - у Файнридера часто идёт замена концевого "с" на "е" - что-то там такое прикручено в алгоритме распознавания.

Джонс, Робертс - понятно почему...
Джон-Джона-Джоне-Джоном
Роберт-Роберте-Робертом

надо добавлять подобные имена в словарь ФР и указывать как склоняется )

TaKir написал:
даже при хорошем качестве скана будет распознавать слово как Тайме. [...] Если слово занести в словарь и перераспознать текст - это слово по всему документу будет распознано как Таймс.
О, блин! Гадский файн-ридер при распознавании таки подключает словарь? Тогда понятно, почему так любит иногда гнать бред и имеет повышенный процент ошибок на несмысловых буквосочетаниях типа транскрипций с других языков... Спасибо, буду знать.
Обидно только, что этап разборки с несловарными словами и неуверенно распознанными у меня наступает в самом конце - после отлова битых переносов, обработки слипшихся/порвавшихся абзацев и выискивания типовых кривораспознанностей. Придётся перепридумывать алгоритм обработки. :-(

Цитата:
"Неправильные дефисы-тире" - это просто прилипшие дефисы.
типа -так
или- так

Их исправляет скрипт - СЛИПШИЕСЯ СЛОВА. Тем более его можно теперь остановить в любой момент. да и работает вроде шустро..

Ну, не то, чтобы исправляет, но хотя бы находит...

upd. и не находит, кстати...

скрипт "Слипшиеся слова" распрекрасно игнорирует подобные конструкции:
он- приобретет
легко переносит -утрату

Аватар пользователя Igorek67

TaKir написал:
Ну, не то, чтобы исправляет, но хотя бы находит...
upd. и не находит, кстати...
скрипт "Слипшиеся слова" распрекрасно игнорирует подобные конструкции:
он- приобретет
легко переносит -утрату

На "он- приобретет", реагирует.
А на "переносит -утрату", нет.
Аватар пользователя Igorek67

Обязательно проглядываю вот эти штуки:
ыо - ью
иа - на
па - на
пе - не
ие - не
ке - не
оп - он

Спасибо всем отозвавшимся!

Прилагаю свой дополненный скрипт, в который всегда можно добавить или убавить что-то еще.
Положить в папку Scripts ФБЕ, назначить на него любой удобный хоткей (сервис-настройки-клавиши-скрипты-«Поиск по набору регэкспов», присвоить нужную клавишу) и пользоваться.

http://narod.ru/disk/2874190001/Poisk_po_naboru_regexpov_TaKir.rar.html

Все добавленные мною регеспы помещены в теле скрипта между
// -------------начало блока TaKir - регэкспы:
// -------------конец блока TaKir - регэкспы:

// - строки закомментарены, т.е. не работают. Удобно для быстрого включения-выключения некоторых строк из скрипта. Правится в обычном блокноте.

Прошу желающих тестировать, отзываться и дополнять.

Еще раз спасибо Sclex, автору скрипта "Поиск по набору регэкспов" за очередную важную полезняшку! ))
Также спасибо Marina_Ch за помощь и тестирование скрипта и регэкспов

Ага. А постоянное место у него будет?

Еще можно искать "ббльш", "чтб", и прочие слова, в которых из "о" с ударением получается "б".

довольно часто, - пробел буква н пробел , на самом деле всегда буква и

и ещё довольно часто і является ! , или находясь в середине слова никакой нагрузки не несет

Цитата:
довольно часто, - пробел буква н пробел , на самом деле всегда буква и

Данная ошибка выискиваются скриптом "слипшиеся слова".

добавлю букву н и остальные буквы, которые практически никогда не встречаются в окружении пробелов (типа ф, м, п, т...)

латинская i среди русских букв скриптом ловится.

В Публичной библиотеке Ершова как-то видел словари замен со словами с ошибками для программы CLTXT.

"совеем" вместо "совсем".

Аватар пользователя Igorek67

izaraya написал:
лее -> же

Буква "Ж" очень зависит от шрифта. Если жирный курсив с ней при распозновании творится что-то жуткое. :) Что угодно, только не "Ж".
Аватар пользователя Captain Scarlett

Igorek67 написал:
izaraya написал:
лее -> же

Буква "Ж" очень зависит от шрифта. Если жирный курсив с ней при распозновании творится что-то жуткое. :) Что угодно, только не "Ж".

Ага. В одной книжке "ж" постоянно распознавалось как "яс". Особенно хорошо слово "хуже" получилось :) Но "лее" чаще попадается.

Oldtimer написал:
ср - ф,
Будет до хренища ложных срабатываний. ИМХО при таких граблях проще потратить полчаса на "обучение" файн-ридера на проблемном тексте...
Аватар пользователя Captain Scarlett

Рыжий Тигра написал:
Oldtimer написал:
ср - ф,
Будет до хренища ложных срабатываний.

В русском языке не так уж много слов с буквой "ф". Можно научить скрипт всем вариантам.

Поиск по морфологическому словарю нашел 30808 словоформ с буквой "ф". Для скрипта это слишком много.

Sclex написал:
Поиск по морфологическому словарю нашел 30808 словоформ с буквой "ф". Для скрипта это слишком много.

Може быть есть возможность сделать выборку на сочетания, которые чаще брешут
-сф-фс-фё-ёф-рф-фр-фю-юф-фф-фы-ыф-фэ-
Как-то так примерно
И ещё, Скрипт показывает в фамилии с инициалами только инициалы. Это правильно? Г.К.Жуков
Аватар пользователя Igorek67

shokons написал:
Sclex написал:
Поиск по морфологическому словарю нашел 30808 словоформ с буквой "ф". Для скрипта это слишком много.

Може быть есть возможность сделать выборку на сочетания, которые чаще брешут
-сф-фс-фё-ёф-рф-фр-фю-юф-фф-фы-ыф-фэ-
Как-то так примерно
И ещё, Скрипт показывает в фамилии с инициалами только инициалы. Это правильно? Г.К.Жуков

Нет. Правильно Г. К. Жуков.

Igorek67 написал:
И ещё, Скрипт показывает в фамилии с инициалами только инициалы. Это правильно? Г.К.Жуков
Нет. Правильно Г. К. Жуков.

Вот и я о том. А скрипт вторую точку ( в Г.К.Жуков игнорирует.

Sclex написал:
Поиск по морфологическому словарю
Делись, тоже хочу! Есть идея - собрать коллекцию двух- и трёхбуквенных сочетаний, отсортировать по частоте использования и нижних процентов 10 запихать в скрипт целиком; хочу глянуть, что из этого получится.

Страницы

X