Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
agent4707 RE:Подайте бедному копеечку на книжку с литреса... 3 часа
Саша из Киева RE:Хождение во власть. После путча 23 часа weis RE:Прошу переформатировать, распознать, etc... 1 день babajga RE:Алиса в стране чудес 4 дня tanyaguscha RE:Грушевое дерево 5 дней babajga RE:Ёжик, который хотел обнять Луну 5 дней babajga RE:Самый храбрый совёнок 5 дней babajga RE:Похититель домофонов 5 дней Саша из Киева RE:Неудавшийся священник 6 дней Саша из Киева RE:Хочу быть лётчиком 1 неделя Саша из Киева RE:Бессмертен подвиг ваш 1 неделя sem14 RE:Искатель жемчуга 1 неделя Larisa_F RE:Жизнь не отменяется 1 неделя Larisa_F RE:Из озера взметнулись молнии 1 неделя babajga RE:На краешке чуда 2 недели sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 2 недели Саша из Киева RE:Ведомственный притон 2 недели kusheyev RE:Заливка 3 недели Впечатления о книгах
Barbud про Поселягин: Прапорщики по адмиралтейству [litres] (Альтернативная история, Боевая фантастика, Попаданцы)
23 04 Вот вроде же зарекался читать Поселянина, так нет - какой-то черт дёрнул открыть это поделие. Убедился, что уровень "творчества" автора если и изменился, то только к худшему. Жуткий нечитаемый картон, не осилил. Оценка: нечитаемо
Я бреду по берегу про Беляев: Ариэль (Научная фантастика)
23 04 В далекие школьные годы взахлеб зачитывался книгами Александра Беляева. Классика советской, российской, и мировой фантастики. Отлично! Оценка: отлично!
kolombok про Доктор [Афанасьев]
23 04 Ну а по мне, так понравилось, если бы я в детстве такие книжки читал... Это я пока о половине первой книги говорю, хорошо зашло хотя мне уже за (вставьте возраст). В целом скажу, за первую половину книги, годная молодая фантастика, ………
Belomor.canal про Анонимус: Выжига, или Золотое руно судьбы [litres] (Исторический детектив)
22 04 В отличии от всех предыдущих книг серии, необыкновенно динамичный триллер, почти без длиннот! Похоже, произошла смена команды Анонимуса и нас ждут захватывающее, профессионально сделанные книги! Оценка: отлично!
zhunter про Группа крови на плече
22 04 С удовольствием читал незатейливый боевичок, но ахинея про радиоактивные вещества просто убила и в землю закопала. Аутор, ты блин в школе то учился?
Isais про Пелевин: Орден желтого флага [OCR] (Социальная фантастика)
21 04 Я честно прочел 48% файла. Я честно высоко оценил блестящую стилизацию под литературу XVIII века. Имею право прийти к заключению: эту книгу следует читать в самом-самом, САМОМ последнем случае. Только когда в доме ………
Isais про Поганец: Дикий 2 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
21 04 Когда ни разу в жизни не видел ни книги, ни печатного текста вообще, но все равно зудит сочинить рОман ("что я, хуже других?"), получается вот такое... Оценка: нечитаемо
nik_ol про Полякова: Таинственная четверка (Крутой детектив, Детективы: прочее)
21 04 А Анна будет продолжать писать за Татьяну или всё? Александру комментарем ниже: мне, например, не всегда что-то грандиозное нужно литературное читать, типа Достоевского или Моэма, Булгакова или Ремарка! Иногда вот такие, ……… Оценка: хорошо
andmalin про Шопперт: Вовка-центровой – 6: Мундиаль [СИ] (Альтернативная история, Самиздат, сетевая литература)
21 04 Хорошая серия , мне понравилось. Оценка: отлично!
gleb99 про Кормильцев: Взлёт и падение СвЕнцового дирижабля (Контркультура, Публицистика)
20 04 Файл не найден". Может кто-то помочь с книгой?
Lan2292 про Воронков: Время еще не пришло [СИ] (Фэнтези, Попаданцы, Самиздат, сетевая литература)
20 04 Очень понравилось, прочитала отрываясь, что бы продлить удовольствие. Жду продолжения, спасибо автор. Оценка: отлично! |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня на памяти только 3 часто встречающихся варианта с "ф":
фоб -гроб
неф - негр
фаната - граната
Отв: Типичные ошибки распознавания - собираем статистику ...
фазу - сразу
Отв: Типичные ошибки распознавания - собираем статистику ...
А если рядом получаются Ь или Ы и любая специфическая буква кириллицы - то тоже крах. : типа -ьф, -шь, -ьш, итд..
Отв: Типичные ошибки распознавания - собираем статистику ...
угу, бьш и бьша у меня просто фавориты из последнего скана.... (был и была)
Отв: Типичные ошибки распознавания - собираем статистику ...
Самая безнадега в распознавании дореформенной орфографии. А Файны всё хвалятся...
Отв: Типичные ошибки распознавания - собираем статистику ...
Как раз сейчас делаю книжку с дореформенной орфографией. Ошибок не больше, чем при обычном скане. Все ошибки типичны и исправляются обычным "Изменить на...".
Отв: Типичные ошибки распознавания - собираем статистику ...
Вам повезло.
Отв: Типичные ошибки распознавания - собираем статистику ...
Не сказал бы, что все так страшно. Дореформенные книги FR9 распознаются вполне на уровне. Яти, фиты, еры и прочее распознаются на ура.
С дореформенными сложность скорее возникает в правке орфографии. Впрочем от скрипта чистящего старую орфографию я бы тоже не отказался бы.)
Отв: Типичные ошибки распознавания - собираем статистику ...
Скрипту совершенно по барабану правила любого языка. Что напишут - то и будет искать
Так что набрасывайте примеров косяков из старой орфографии и пользуйтесь )
Отв: Типичные ошибки распознавания - собираем статистику ...
есть такакая прога ocr pad
статистика там большая вроде
но как её взять не знаю
Отв: Типичные ошибки распознавания - собираем статистику ...
. 1/1 -> . И
Отв: Типичные ошибки распознавания - собираем статистику ...
пропустил своп, (хотя это свои) пропустил па (на) , пропустил слово просплп ( просили)
малень– кой ( маленькой) Поляиовке ( Поляновке ) Дем?нтий (Дементий) M це иске ( Mценске ) поляновски? (поляновские) до– черьми (дочерьми) Лйя (Лия) втот (этот) втот (этот) ваписка (записка) втот (этот) стоа (стон ) Ht (ж) їдейственная (единственная) обрывкн (обрывки) маркиэка (маркизка)
Отв: Типичные ошибки распознавания - собираем статистику ...
В каждой книжке есть свои заморочки.
"Малень- кой", "до- черьми" - не распознан знак переноса.
"Дем?нтий" - скорей всего буква вместо вопросительного знака стояла под ударением.
Надо ли всё это включать в общий скрипт?
Отв: Типичные ошибки распознавания - собираем статистику ...
Стоит включить "- ".
"?" в середине слова ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
"- " вроде тоже ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Часто встречаю: "ведено" вместо "велено", "юнкере" вместо "юнкерс" (второй, вероятно, родственник "Тайме").
Отв: Типичные ошибки распознавания - собираем статистику ...
Внесены добавки в скрипт, согласно многим вашим комментам...
На всякий случай уточняю, что скрипт только ищет подозрительные места, и ничего автоматом не заменяет, во избежание...
Любую строчку можно поправить или отключить, (стерев полностью или закомментировав ее с помощью // )
Не получается запостить корректно все строки скрипта, поэтому просто дам ссылку на обновленную версию:
http://narod.ru/disk/3209760001/Poisk_po_naboru_regexpov_TaKir_2_6.rar.html
Если какие-то еще явные косяки кто вспомнит-придумает - прошу отзываться.
Также прошу комментировать неправильную работу поиска, если такая проявится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сегодня опять "дошлифовала" твоим скриптом новый файл. И это снова повод сказать - огромное спасибо.
Твой скрипт вошёл в число обязательных.
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь. Прицепил этот скрипт на F4. Теперь это одна из «любимых» клавиш.
Отв: Типичные ошибки распознавания - собираем статистику ...
Решил попробовать...
Сразу же несколько вопросов:
Скрипт действует только до первого сомнительного места? Чтобы продолжать, его надо снова включать?
Застрял на слове "хозяин". Сочетание "яи" оказалось слишком частым, и меня это стало раздражать.
Почему-то скрипт останавливается на кавычках - «. Они что, тоже записаны в сомнительные символы?
Частица "б" в текстах используется часто. Надо ли ее включать в скрипт?
А вот что еще можно включить, так это однобуквенные предлоги и частицы с последующей запятой, типа: "в," "б," "о,".
Отв: Типичные ошибки распознавания - собираем статистику ...
Тоже показывает только «, яи и ). Щелкаю минут пять уже и ничего пока другого. :)
Чуть позже:
Находит, кое что, все-таки. Можно пользоваться.:)
Отв: Типичные ошибки распознавания - собираем статистику ...
Я пользуюсь предыдущей версией. Никаких "яи" и прочего упомянутого не заметила.
Может, дело в этом?
Отв: Типичные ошибки распознавания - собираем статистику ...
Согласен, остановки на словах типа «хозяин» несколько раздражают, но никто ведь не мешает убрать из скрипта соответствующую строчку.
А вот если бы он еще и обучался по ходу дела, вообще бы цены не было.
Отв: Типичные ошибки распознавания - собираем статистику ...
В скрипте надо поправить соответствующие строки:
1) чтобы не искало кавычку в начале строки, строку:
addRegExp("^[\]».,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
заменить на:
addRegExp("^[-\\]».,:;!\?·)(]","","Найдено:знаки препинания в начале строки");
2) поправить "хозяина", чтобы не мешал ))
tagRegExp("(яи)[а-м,о-я]","i","Найдено: часть слова \"яи\" (\"ян\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Чтобы не экранировать кавычки (т.е. не ставить рядом с ними слэш), можно снаружи аргумента функции написать одинарные кавычки:
tagRegExp("(?<![а-яё])ке(?![а-яё])","i",'Найдено: слово "ке" ("не" с опечаткой).');
Так исходник скрипта, наверное, будет читаться приятней.
Отв: Типичные ошибки распознавания - собираем статистику ...
Sclex:
Ага, спасибо!
А как все же задать начало или конец слова при поиске в ФБЕ?
стандартные варианты типа >, <, \b что-то не хотят у меня работать...
Отв: Типичные ошибки распознавания - собираем статистику ...
\b работает, но только для английских букв. Ничего лучше, чем (?<![а-яёa-z]), предложить не могу.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Где можно взять Ваш скрипт? И как его использовать? Извините, я с такими вещами не сталкивался и проверял проверкой правописания.
Отв: Типичные ошибки распознавания - собираем статистику ...
Еще ФР часто разрывает аббревиатуры типа "ССС Р"
Отв: Типичные ошибки распознавания - собираем статистику ...
В последнее время книжках в трех с обилием курсива массово встречалось распознавание "рк" вместо "уж"...
Не придумал, как массово контролировать.:(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отличный скрипт! Сам все собирался написать что-то вроде этого, но...
TaKir-у респектище!!! Человек-гигант!
По скрипту: я себе добавил еще вот это:
tagRegExp("(?<![а-яё])мыс(?![а-яё])","i","Найдено: слово \"мыс\" (\"мы с\" с опечаткой).");
tagRegExp("(?<![а-яё])ноты(?![а-яё])","i","Найдено: слово \"ноты\" (\"но ты\" с опечаткой).");
tagRegExp("(?<![а-яё])нотам(?![а-яё])","i","Найдено: слово \"нотам\" (\"но там\" с опечаткой).");
tagRegExp("(?<![а-яё])ода(?![а-яё])","i","Найдено: слово \"ода\" (\"о да\" с опечаткой).");
tagRegExp("(?<![а-яё])яс(?![а-яё])","i","Найдено: слово \"яс\" (\"я с\" с опечаткой).");
tagRegExp("(?<![а-яё])яв(?![а-яё])","i","Найдено: слово \"яв\" (\"я в\" с опечаткой).");
tagRegExp("(?<![а-яё])атак(?![а-яё])","i","Найдено: слово \"атак\" (\"а так\" с опечаткой).");
tagRegExp("(?<![а-яё])итак(?![а-яё])","i","Найдено: слово \"итак\" (\"и так\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
tagRegExp("(?<![а-яё])гак(?![а-яё])","i","Найдено: слово \"гак\" (\"так\" с опечаткой).");
tagRegExp("(?<![а-яё])гут(?![а-яё])","i","Найдено: слово \"гут\" (\"тут\" с опечаткой).");
tagRegExp("(?<![а-яё])тог(?![а-яё])","i","Найдено: слово \"тог\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])гот(?![а-яё])","i","Найдено: слово \"гот\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])еше(?![а-яё])","i","Найдено: слово \"еше\" (\"еще\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Обычно прилипшие тире чистятся скриптом "генуборка", но не все варианты (спасибо shokons за подсказку).
Добавка в скрипт "Поиск по набору регэкспов", автор Sclex для тех случаев, которые генуборка не исправляет:
прилипшие тире:
addRegExp("[A-Za-zА-яЁё][—]","","Найдено: прилипшее тире в конце и середине слова");
addRegExp("[—][A-Za-zА-яЁё]","","Найдено: прилипшее тире в начале и середине слова");
Отв: Типичные ошибки распознавания - собираем статистику ...
Неожиданно.
Грецию -> Грешно
Польши -> Полыни
Отв: Типичные ошибки распознавания - собираем статистику ...
Странно - это только у меня при OCR окончание сти превращется в трейд марк на конце - вместо "сущности" получаем "сущностм
а что есть за tagRegExp? Это в каком редакторе? Я пользуюсь FBE 2.6
Отв: Типичные ошибки распознавания - собираем статистику ...
Я думаю, что это скорее всего, сущности
У меня тоже бывает, когда некоторые буквы распознаются как будто бы они были в верхнем индексе, хотя на самом деле на скане ничего подобного не было. Возможно, тут виноват перекос скана.(Сканировщик сканировал страницу под углом, который FR не смог распознать). Иногда из-за перекоса текст становится курсивным.
Отв: Типичные ошибки распознавания - собираем статистику ...
В принципе можно добавить
tagRegExp("[а-яёa-z]< sup>[а-яёa-z]+?< /sup>|< sup>[а-яёa-z]+?< /sup>[а-яёa-z]","i","Найдено: Найдено: верхний индекс в средней части слова.");
tagRegExp("[а-яё]< sup>[а-яё]+?< /sup>|< sup>[а-яё]+?< /sup>[а-яё]","i","Найдено: Найдено: верхний индекс.");
tagRegExp("< sup>[а-яёa-z]+?< /sup>[а-яёa-z]|[а-яёa-z]< sup>[а-яёa-z]+?< /sup>","","Найдено: верхний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< sub>[а-яёa-z]+?< /sub>|< sub>[а-яёa-z]+?< /sub>[а-яёa-z]","i","Найдено: нижний индекс в средней части слова.");
tagRegExp("[а-яё]< sub>[а-яё]+?< /sub>|< sub>[а-яё]+?< /sub>[а-яё]","i","Найдено: нижний индекс части слова.");
tagRegExp("< sub>[а-яёa-z]+?< /sub>[а-яёa-z]|[а-яёa-z]< sub>[а-яёa-z]+?< /sub>","","Найдено: нижний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< strong>[а-яёa-z]+?< /strong>|< strong>[а-яёa-z]+?< /strong>[а-яёa-z]","i","Найдено: жирность в средней части слова.");
tagRegExp("[а-яё]< strong>[а-яё]+?< /strong>|< strong>[а-яё]+?< /strong>[а-яё]","i","Найдено: жирность части слова.");
tagRegExp("< strong>[а-яёa-z]+?< /strong>[а-яёa-z]|[а-яёa-z]< strong>[а-яёa-z]+?< /strong>","","Найдено: жирность в начале или конце слова.");
tagRegExp("(ыи)","i","Найдено: часть слова \"ыи\" (\"ьш\" с опечаткой).");
--------------------------------
Вот только не знаю - будет ли скрипт тормозить из-за увеличения кол-ва выражений?
Я себе поставил - вроде изменения скорости визуально не заметил, а специально мерить неохота )))
Кстати - по поводу тире.
А где-нибудь нужно, чтобы тире "прилипало" к слову? (текст— текст )
Если нет ( а я так и не вспомнил - где нужно ) то можно регеспом массово: (текст — текст )
([а-яё\d"».,)])([—])(\s)
в замену: $1 — $3
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет это именн превращение в тм!
оставлености получилось оставленное™
захваченности получилось захваченное™
Отв: Типичные ошибки распознавания - собираем статистику ...
Неоднократно тоже встречал такое в ФР.
Отв: Типичные ошибки распознавания - собираем статистику ...
А где теперь дополнение? У меня поход по ссылека приводит к
SearchWithRegexpSet_v21.rar (3.2 КБ)
Файл удален.
Отв: Типичные ошибки распознавания - собираем статистику ...
http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384/e200b7b6f319c4c8
Актуальная на сегодня версия - 2.7.
Скрипт "Поиск по набору регэкспов v2.7":
Скачать:
http://rghost.ru/3955874
или
http://scripts.fictionbook.org/files/SearchWithRegexpSet_v27.rar
Напоминаю, что исходный скрипт не содержит поисковых строк. Их надо скопировать из старой версии, которой вы сейчас пользуетесь и закомментарить следующую строку:
addRegExp("","i","Задайте список регэкспов, отредактировав скрипт в текстовом редакторе (кодировка UTF-8). Инструкция – в скрипте.");
Ускорена работа скрипта.
Теперь у функций addRegExp и tagRegExp появился пятый параметр:
ограничение на длину строки, которую могут находить конструкции просмотра назад, т.е. (?<= ...) и (?
Отв: Типичные ошибки распознавания - собираем статистику ...
Сорри, почему-то не отражаются теги. Поставлю пробел после угловой скобки
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Кто-нибудь, выложите пожалуйста скрипт со всеми поисковыми строками, и закомменченый, где нужно... У меня с этим проблемы.
Отв: Типичные ошибки распознавания - собираем статистику ...
Это мой вариант ( со всеми здешними дополнениями) http://ifolder.ru/upload/?session=e304e600145a5b151f77b967e9ab7b2a
Отв: Типичные ошибки распознавания - собираем статистику ...
спасибо..
Страницы