Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Саша из Киева RE:Неудавшийся священник 6 часов
sem14 RE:«Уроки русского» 9 часов DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 6 дней babajga RE:Повесть о чудесном одуванчике 6 дней Саша из Киева RE:Ночной пассажир 1 неделя larin RE:Оплатила,но абонемент не отображается 1 неделя tvnic RE:Maxima-library - новый адрес 1 неделя Саша из Киева RE:Хождение во власть. После путча 1 неделя weis RE:Прошу переформатировать, распознать, etc... 1 неделя babajga RE:Алиса в стране чудес 2 недели tanyaguscha RE:Грушевое дерево 2 недели babajga RE:Ёжик, который хотел обнять Луну 2 недели babajga RE:Самый храбрый совёнок 2 недели babajga RE:Похититель домофонов 2 недели Саша из Киева RE:Хочу быть лётчиком 2 недели Саша из Киева RE:Бессмертен подвиг ваш 2 недели sem14 RE:Искатель жемчуга 2 недели Larisa_F RE:Жизнь не отменяется 2 недели Впечатления о книгах
udrees про Круз: Холод, пиво, дробовик (Боевая фантастика)
05 05 Отличная книга. Добротное описание обстановки, обстоятельные размышления героев, тщательное вырисовывание арсенала оружия, которым славится Круз. Хорошая обстановка – в меру фэнтези, мир где водятся всякие чудища, недружелюбная ……… Оценка: отлично!
udrees про Золотусский: Гоголь (Историческая проза)
05 05 Типовая биография, приводятся основные моменты жизни писателя. По некоторым произведениям дается довольно большой разбор – описание персонажей, символизм, скрытые намеки, критика. Это касается в основном Мертвых душ, но еще ……… Оценка: плохо
187 про Петров: Тайна Концептуальной Власти (Политика)
04 05 Я таки догадывюсь , что за чегт тянет свою когтистую пятегню на обложке))) Оценка: отлично!
187 про Петров: Тайны управления человечеством, или Тайны глобализации. Книга 1 [Книга в Федеральном списке экстремистских материалов (п. 1463)] (Политика)
04 05 Кто эти феерические чудаки, внёсшие эту замечательную книгу в список экстремистских? Рекомедую автора, респект залившему книги. Оценка: отлично!
Belomor.canal про Яковлева: Случай в Москве [Литрес] (Исторический детектив)
03 05 Самая короткая из 3-х повесть - на один вечер чтения! Это как бы начало расследований нашего гусара, то есть №3 идет перед №1, где ротмистр уже ранен и возвращается подлечится. Опять, надо не заморачиваться историческими не ……… Оценка: хорошо
Isais про Ло Гуаньчжун
01 05 Я скажу: 1) для обсуждения вопросов есть ФОРУМ, а не впечатления около книги; 2) за 17 лет существования Либрусека вопросы "где у авторов имя и куда что писать" были многократно урегулированы; 3) почему вам не ………
alexk про Ло Гуаньчжун
01 05 Не знаю, правильно ли это - записывать и имя и фамилию китайского автора в поле "фамилия" Что скажете, коллеги? 2 Isais. О, Ваш ответ, безусловно помог.
Isais про Эпосы, мифы, легенды и сказания: Серебряная дудочка Маккримонса [шотландские легенды] (Детские стихи, Мифы. Легенды. Эпос, Народные сказки)
01 05 Как человек, который вычитывал одни и те же шотландские легенды в двух разных переводах, имею право утверждать: перевод Мелитины Клягиной-Кондратьевой лучше -- атмосфернее, поэтичнее.
Isais про Горький: Дед Архип и Лёнька (Русская классическая проза, Детская проза)
01 05 Прочитав в соответствующем -- т.е. в младшем школьном возрасте -- этот рассказ, я искренне, от души, навсегда возненавидел Максима Горького.
tvnic про Селезнёв: Беспокоящий огонь (Публицистика, Спецслужбы)
01 05 Очередная пропагандистская хрень. Оценка: нечитаемо
gruin про Беличенко: Помещик. Книга 1 [СИ] (Альтернативная история, Самиздат, сетевая литература)
30 04 Дикая белиберда про стекло и чугун. Ни сюжета ни персонажей. Вонь Оценка: нечитаемо |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Не понимаю, зачем нужно останавливаться на каждом тире. Есть ведь отдельный скрипт "Дефис-тире".
Отв: Типичные ошибки распознавания - собираем статистику ...
TaKir
Не пойму, почему эта строчка находит ёлочки в начале строки? Их вроде нет в перечислении элементов в элементов
addRegExp("^[\].,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
Добавил в поиск "мусора" ®°™εє
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, там забавный глюк... Это из-за дефиса. Если его перенести в начало или убрать вообще, то не ловит елочки в начале строки )
addRegExp("^[-\\].,:;!»\\?·)(]","","Найдено:знаки препинания в начале строки");
Отв: Типичные ошибки распознавания - собираем статистику ...
Понял. Прикольно. )))
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь к данной просьбе. Установил вариант, предложенный shokons и уже опробовал. Чудная вещь.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот мой вариант на сегодня:
http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо! :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Уже опробовал. В файле, проверенном ранее скриптом shokons, выявлено ещё несколько (3) неточностей. Спасибо всем!
Отв: Типичные ошибки распознавания - собираем статистику ...
А какие именно, не могли бы подсказать? ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. А для какой версии FBE этот скрипт подходит? В 2.4 будет корректно работать?
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, должен работать... Только может (имхо) не отображаться статус найденной ошибки
Отв: Типичные ошибки распознавания - собираем статистику ...
Ради интереса попробовал на версии 2.0 BETA от 2008 года. Скрипт и там работает. Точнее, плюхи находит, но сообщение в строке статуса не пишет.
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, возможность скриптам менять текст строки статуса SeNS добавил (специально для сабжевого скрипта) в какой-то из последних версий FBE, то ли 2.5, то ли 2.6.
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо, TaKir!
Отв: Типичные ошибки распознавания - собираем статистику ...
Помню два: вместо союза(?) и было п; отсутствие пробела перед тире. Хочу отметить, что я правил без очков и вполне возможно, что просто проглядел.
Отв: Типичные ошибки распознавания - собираем статистику ...
Проверил.
"П" вместо "и" находится нормально (так же, как и другие "отдельные буквы в пробелах")
Прилипшее тире - если это был примерно такой текст
То таки да - я такое не ищу, а меняю массово регеспом, который писал выше.
Меняет на такое:
То-есть вставляет пробел между последней буквой и тире
Так, что наверное вы просто ошиблись ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Скорее всего.
Сейчас смотрю стихи. Есть одно неудобство: обращает внимание на запятую в конце строки (новая строка с большой буквы). Было бы замечательно это неудобство ликвидировать. А в целом я очень доволен тем, что есть в настоящее время. Спасибо.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я очень прошу прощения за оффтоп, но не скажет ли мне кто из уже установивших версию 2.6 - убивает ли FBE этой версии стили при копипасте из Ворда? 2.5 не убивал, поэтому я его и не ставила. Но вот скрипт TaKir-а явно удобнее юзать в новых версиях. Может, хоть в 2.6-м можно грохнуть стили, прилезающие из FR?
Отв: Типичные ошибки распознавания - собираем статистику ...
Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
А о чем конкретно речь?
Можно пример привести? Сорцы там или скриншот из боди?
Отв: Типичные ошибки распознавания - собираем статистику ...
< p>< style name="a0">Да, она была умна. В первом же стихотворении, с которым она меня познакомила, «Балладе о ночных часах» ван Вейка Лау, идет речь о нескольких часах безумной, пьяной страсти во всех подробностях — и эротичных, и печальных. А в конце наступает рассвет; герой встречает утро со стаканом в руке. Для него наступает «час темной жажды». После очередного соития я лежал на ней, усталый, опустошенный, а она шептала мне на ухо стихи — так тихо, что приходилось напрягать слух. А когда я наконец услышал, для меня открылся другой мир, слова приобрели смысл. Наверное, тогда я в первый раз понял, что такое настоящее искусство.< /style>< /p>
< p>< style name="a0">Бетта объяснила, что в сексе всегда так: посткоитальная депрессия — проклятие мужчин. Она привела в пример французов, которые называют оргазм «маленькой смертью», но пояснила, что секс с любимым человеком — всегда исключение из общего правила. Секс с любимым человеком сродни исцелению от всех недугов. Ее слова произвели на меня неизгладимое впечатление. Они служили мне путеводным огнем в поисках единственной великой любви, предзнаменованием и предвкушением которой были отношения моих родителей, а потом и рассуждения Бетты Вандраг. Мне казалось, что жизнь обязательно должна подарить мне такую любовь.< /style></p>
Это ещё приличный вид. Бывает внутри строки стиль меняется. :(
Бывает только при копипасте.
Отв: Типичные ошибки распознавания - собираем статистику ...
Действительно, штука неудобная и явно лишняя. Я избавляюсь путем замены. Выделяю тег "style" - заменяю на ничего.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились.
Отв: Типичные ошибки распознавания - собираем статистику ...
Чё-то у меня не получилось. Всё равно остались стили. Правда, меньше стало.
Отв: Типичные ошибки распознавания - собираем статистику ...
И у меня остались - меньше, но все равно куча. Даже если все в стиль "обычный текст" перевести с сохранением курсива и болда, все равно эти проклятые разные стили откуда-то вылезают, РАО их побери! ((((
Отв: Типичные ошибки распознавания - собираем статистику ...
Было давно, на тулзах или первой двойке. Не выложите где-нибудь исходники, потестиовать бы?
Кстати, раз были версии ФБЕ не подхватывающие стили, то стоит дать знать Сенсу, может прикрутит опцию Отключить перенос стилей
UPD
Оставил сообщение в Группе.
Отв: Типичные ошибки распознавания - собираем статистику ...
Какие исходники? Дока после ФР?
Отв: Типичные ошибки распознавания - собираем статистику ...
его самого, если сохранились, конечно.
Отв: Типичные ошибки распознавания - собираем статистику ...
Угу. Я как раз пробовала на небольшом файле.
Вот он - сразу после ФР. После замены на единый шрифт и копипаста в ФБЕ осталось 2 или 3 стиля.
http://www.multiupload.com/TPF5MG47VW
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. Скачал и пробовал, и пробовал - ничего хорошего. Отвлекся потроллить на флибусте, вернулся, открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного! Лекарство - WordPad
Отв: Типичные ошибки распознавания - собираем статистику ...
Можно и не пересохранять обратно в Word, а так из WordPad-а и перетаскивать в FBE.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я ничего не менял, какой был размер шрифта, такой и оставил. Ненавистные "стили" не перенеслись.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ничего не скажу. Молчать буду молча. Ожидая вечера и глядя на бутылку коньяка, а там пять звезд - в каком же он звании?
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет, там с абзацами не всё в порядке получается.
А при копировании из Ворда после предварительных танцев с бубном - хорошо. Спасибо, sd!
Отв: Типичные ошибки распознавания - собираем статистику ...
Точно! Помогает.
Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо.
TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня 2.4, на нем отлично скрипт юзается. Зачем мне отдельная табличка с тем, что именно и в каком количестве скрипт нашел? Курсор ставится туда, где подозрение на косяк, можно сразу править, можно идти дальше.
Типа только ради общего отчета табличка? Не понимаю, в чем плюс более поздней версии ФБЕ, если речь именно о данном скрипте Sclex-a (а не моем).
Отв: Типичные ошибки распознавания - собираем статистику ...
Может кому потребуется:
addRegExp("^[a-zа-яё\d]","","Найдено:маленькие буквы, цифры в начале строки","-stanza -poem");
Находит строки, начинающиеся с маленькой буквы или цифры, кроме стихов.
Объясню- зачем добавил эту строку. ФР часто определяет цифры, как список и doc2fb их съедает. Остаётся начало строки в примерно таком виде: июня началось наводнение
Попробую
Посмотел - там вроде стоит ограничение на стихи, но попробую у себя воспроизвести и отпишусь потом
Посмотрел - у меня стихи пропускает, да и в строчке скрипта это отражено
-title -subtitle -stanza -poem");
А стихи у вас уже выделены тегами stanza -poem ? Если ещё не выделены, тогда правильно всё - будет спотыкаться о запятые.
Отв: Типичные ошибки распознавания - собираем статистику ...
Большое спасибо TaKir!
Отловились шесть ошибок OCR, не найденных иными всякими проверками. (FBE 2.4) Только не всегда понятно, что скрипту не нравится - то ли он нашел латиницу в кириллице, то ли просто буквосочетание подозрительное. Но это мелочь, на самом-то деле. Спасибо еще раз.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот для этого-то и служит сообщение в строке статуса: пишет каждый раз, что́ именно найдено. Так гораздо удобнее.
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня кроме TM именно trade mark) ещё постоянное превращение
Исходное 13.1 .1980 распознано как 13ЛЛ980. то есть .1.1 превращается в ЛЛ
Отв: Типичные ошибки распознавания - собираем статистику ...
По ТМ (trade mark) я уже писал:
Откройте скрипт блокнотом, найдите строку с комментом -----Найдено:мусор после скана------
И замените её на эту
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Здесь я добавил элементы ®°™©εβє Можете добавить ещё какие считаете нужным (без пробелов, запятых)
Насчёт цифр - попробуйте на проблемной странице книги в ФР включить режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ.
Имхо легче один раз Фаню натаскать, чем постоянно искать огрехи.
Отв: Типичные ошибки распознавания - собираем статистику ...
Знак препинания и после него тире без пробела (обычного или неразрывного).
Пробел перед знаком препинания.
[\.:\?…][^А-Яа-я]*[а-я] - строчная буква в начале предложения.
Отв: Типичные ошибки распознавания - собираем статистику ...
Тигра, такое впечатление, что ты актуальными скриптами совсем не пользуешься. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Твои варианты лечатся банальной генуборкой и данным скриптом.
Отв: Типичные ошибки распознавания - собираем статистику ...
Кстати, "[,:;][^А-Яа-я]*[А-Я]" - эти тоже не берёт.
Отв: Типичные ошибки распознавания - собираем статистику ...
Юзай массовую замену "дефис+пробел" на "дефис" перед ГУ. Потом пройдись скриптом "Слова".
Отв: Типичные ошибки распознавания - собираем статистику ...
Но скрипты-то можно поставить. Думаю, они все должны работать и под 2.4.
http://scripts.fictionbook.org/
Страницы