Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
нэнси RE:Подайте бедному копеечку на книжку с литреса... 16 часов
edvud RE:Не работает регистрация и восстановление пароля 16 часов Larisa_F RE:Грушевое дерево 1 день koifish RE:Оплатил абонемент, деньги списались, абонемента нет 2 дня Саша из Киева RE:Неудавшийся священник 4 дня sem14 RE:«Уроки русского» 4 дня babajga RE:Повесть о чудесном одуванчике 1 неделя Саша из Киева RE:Ночной пассажир 1 неделя larin RE:Оплатила,но абонемент не отображается 1 неделя tvnic RE:Maxima-library - новый адрес 2 недели Саша из Киева RE:Хождение во власть. После путча 2 недели weis RE:Прошу переформатировать, распознать, etc... 2 недели babajga RE:Алиса в стране чудес 2 недели babajga RE:Ёжик, который хотел обнять Луну 2 недели babajga RE:Самый храбрый совёнок 2 недели babajga RE:Похититель домофонов 2 недели Саша из Киева RE:Хочу быть лётчиком 3 недели Саша из Киева RE:Бессмертен подвиг ваш 3 недели Впечатления о книгах
miri.ness_ про Еще не поздно (СИ)
09 05 Автор эрудирован (как специалист по МЭ говорю, из Зеленограда), но патологически глуп. Он так быстро накропал пять романов, что понятно, что уничижительные слова для всего всего, что было в жизни его родителей, он не подбирал ………
Sello про Труайя: Алеша (Историческая проза, Биографии и Мемуары)
09 05 О самой повестушке особо нечего сказать. Добротный язык, без выкрутасов, ясное содержание - пишет Труайя хорошо, что тут наворачивать словеса ради слов. Не первое его произведение, прочитанное мной. Другое приходит на ум: ……… Оценка: хорошо
decim про Карнеро: Пазолини. Умереть за идеи [litres] (Биографии и Мемуары, Изобразительное искусство, фотография)
09 05 Возбуждающая начальство тематика вымарана цензурой до такой степени, что от книги остались обрывки. Нечитаемо. Оценка: нечитаемо
miri.ness_ про Шестаков: Монгольское нашествие на Русь и Европу [litres] (История)
07 05 Что интересно. Вчера посетил итальянскую педию (перешёл с русской), по слову Тамерлан (Тимур). Там употребляется выражение "тюрко-монгольская орда", татар и в помине нет. Оценка: неплохо
Олег Макаров. про Попытка возврата
07 05 Написано интересно, качественно. Всё смазывается тем, что автор либо ненавидит, либо презирает всех, кроме Сталина и русских. * Ещё забавляют некоторые моменты неграмотности автора, типа французкий луковый суп это ………
Sello про Замятин: Мы (Социальная фантастика, Антисоветская литература)
07 05 Вчера состоялся давно с нетерпением ожидавшийся всеми День Единогласия. В 48-й раз единогласно избран все тот же, многократно доказавший свою непоколебимую мудрость Благодетель. Торжество омрачено было некоторым замешательством, ……… Оценка: хорошо
natanbi4 про Евгений Г. Солышко
06 05 Написано хорошо. Роялей в кустах минимум. Вторая часть очень медленно пишется. Творческий процесс-тяжёлое дело.
скунс про Дроздов: Ледащий [СИ] (Боевая фантастика, Технофэнтези, Самиздат, сетевая литература)
06 05 Читать можно,местами даже интересно Оценка: хорошо
udrees про Круз: Холод, пиво, дробовик (Боевая фантастика)
05 05 Отличная книга. Добротное описание обстановки, обстоятельные размышления героев, тщательное вырисовывание арсенала оружия, которым славится Круз. Хорошая обстановка – в меру фэнтези, мир где водятся всякие чудища, недружелюбная ……… Оценка: отлично!
udrees про Золотусский: Гоголь (Историческая проза)
05 05 Типовая биография, приводятся основные моменты жизни писателя. По некоторым произведениям дается довольно большой разбор – описание персонажей, символизм, скрытые намеки, критика. Это касается в основном Мертвых душ, но еще ……… Оценка: плохо
187 про Петров: Тайна Концептуальной Власти (Политика)
04 05 Я таки догадывюсь , что за чегт тянет свою когтистую пятегню на обложке))) Оценка: отлично!
Belomor.canal про Яковлева: Случай в Москве [Литрес] (Исторический детектив)
03 05 Самая короткая из 3-х повесть - на один вечер чтения! Это как бы начало расследований нашего гусара, то есть №3 идет перед №1, где ротмистр уже ранен и возвращается подлечится. Опять, надо не заморачиваться историческими не ……… Оценка: хорошо |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Не понимаю, зачем нужно останавливаться на каждом тире. Есть ведь отдельный скрипт "Дефис-тире".
Отв: Типичные ошибки распознавания - собираем статистику ...
TaKir
Не пойму, почему эта строчка находит ёлочки в начале строки? Их вроде нет в перечислении элементов в элементов
addRegExp("^[\].,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
Добавил в поиск "мусора" ®°™εє
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, там забавный глюк... Это из-за дефиса. Если его перенести в начало или убрать вообще, то не ловит елочки в начале строки )
addRegExp("^[-\\].,:;!»\\?·)(]","","Найдено:знаки препинания в начале строки");
Отв: Типичные ошибки распознавания - собираем статистику ...
Понял. Прикольно. )))
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь к данной просьбе. Установил вариант, предложенный shokons и уже опробовал. Чудная вещь.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот мой вариант на сегодня:
http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо! :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Уже опробовал. В файле, проверенном ранее скриптом shokons, выявлено ещё несколько (3) неточностей. Спасибо всем!
Отв: Типичные ошибки распознавания - собираем статистику ...
А какие именно, не могли бы подсказать? ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. А для какой версии FBE этот скрипт подходит? В 2.4 будет корректно работать?
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, должен работать... Только может (имхо) не отображаться статус найденной ошибки
Отв: Типичные ошибки распознавания - собираем статистику ...
Ради интереса попробовал на версии 2.0 BETA от 2008 года. Скрипт и там работает. Точнее, плюхи находит, но сообщение в строке статуса не пишет.
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, возможность скриптам менять текст строки статуса SeNS добавил (специально для сабжевого скрипта) в какой-то из последних версий FBE, то ли 2.5, то ли 2.6.
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо, TaKir!
Отв: Типичные ошибки распознавания - собираем статистику ...
Помню два: вместо союза(?) и было п; отсутствие пробела перед тире. Хочу отметить, что я правил без очков и вполне возможно, что просто проглядел.
Отв: Типичные ошибки распознавания - собираем статистику ...
Проверил.
"П" вместо "и" находится нормально (так же, как и другие "отдельные буквы в пробелах")
Прилипшее тире - если это был примерно такой текст
То таки да - я такое не ищу, а меняю массово регеспом, который писал выше.
Меняет на такое:
То-есть вставляет пробел между последней буквой и тире
Так, что наверное вы просто ошиблись ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Скорее всего.
Сейчас смотрю стихи. Есть одно неудобство: обращает внимание на запятую в конце строки (новая строка с большой буквы). Было бы замечательно это неудобство ликвидировать. А в целом я очень доволен тем, что есть в настоящее время. Спасибо.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я очень прошу прощения за оффтоп, но не скажет ли мне кто из уже установивших версию 2.6 - убивает ли FBE этой версии стили при копипасте из Ворда? 2.5 не убивал, поэтому я его и не ставила. Но вот скрипт TaKir-а явно удобнее юзать в новых версиях. Может, хоть в 2.6-м можно грохнуть стили, прилезающие из FR?
Отв: Типичные ошибки распознавания - собираем статистику ...
Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
А о чем конкретно речь?
Можно пример привести? Сорцы там или скриншот из боди?
Отв: Типичные ошибки распознавания - собираем статистику ...
< p>< style name="a0">Да, она была умна. В первом же стихотворении, с которым она меня познакомила, «Балладе о ночных часах» ван Вейка Лау, идет речь о нескольких часах безумной, пьяной страсти во всех подробностях — и эротичных, и печальных. А в конце наступает рассвет; герой встречает утро со стаканом в руке. Для него наступает «час темной жажды». После очередного соития я лежал на ней, усталый, опустошенный, а она шептала мне на ухо стихи — так тихо, что приходилось напрягать слух. А когда я наконец услышал, для меня открылся другой мир, слова приобрели смысл. Наверное, тогда я в первый раз понял, что такое настоящее искусство.< /style>< /p>
< p>< style name="a0">Бетта объяснила, что в сексе всегда так: посткоитальная депрессия — проклятие мужчин. Она привела в пример французов, которые называют оргазм «маленькой смертью», но пояснила, что секс с любимым человеком — всегда исключение из общего правила. Секс с любимым человеком сродни исцелению от всех недугов. Ее слова произвели на меня неизгладимое впечатление. Они служили мне путеводным огнем в поисках единственной великой любви, предзнаменованием и предвкушением которой были отношения моих родителей, а потом и рассуждения Бетты Вандраг. Мне казалось, что жизнь обязательно должна подарить мне такую любовь.< /style></p>
Это ещё приличный вид. Бывает внутри строки стиль меняется. :(
Бывает только при копипасте.
Отв: Типичные ошибки распознавания - собираем статистику ...
Действительно, штука неудобная и явно лишняя. Я избавляюсь путем замены. Выделяю тег "style" - заменяю на ничего.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились.
Отв: Типичные ошибки распознавания - собираем статистику ...
Чё-то у меня не получилось. Всё равно остались стили. Правда, меньше стало.
Отв: Типичные ошибки распознавания - собираем статистику ...
И у меня остались - меньше, но все равно куча. Даже если все в стиль "обычный текст" перевести с сохранением курсива и болда, все равно эти проклятые разные стили откуда-то вылезают, РАО их побери! ((((
Отв: Типичные ошибки распознавания - собираем статистику ...
Было давно, на тулзах или первой двойке. Не выложите где-нибудь исходники, потестиовать бы?
Кстати, раз были версии ФБЕ не подхватывающие стили, то стоит дать знать Сенсу, может прикрутит опцию Отключить перенос стилей
UPD
Оставил сообщение в Группе.
Отв: Типичные ошибки распознавания - собираем статистику ...
Какие исходники? Дока после ФР?
Отв: Типичные ошибки распознавания - собираем статистику ...
его самого, если сохранились, конечно.
Отв: Типичные ошибки распознавания - собираем статистику ...
Угу. Я как раз пробовала на небольшом файле.
Вот он - сразу после ФР. После замены на единый шрифт и копипаста в ФБЕ осталось 2 или 3 стиля.
http://www.multiupload.com/TPF5MG47VW
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. Скачал и пробовал, и пробовал - ничего хорошего. Отвлекся потроллить на флибусте, вернулся, открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного! Лекарство - WordPad
Отв: Типичные ошибки распознавания - собираем статистику ...
Можно и не пересохранять обратно в Word, а так из WordPad-а и перетаскивать в FBE.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я ничего не менял, какой был размер шрифта, такой и оставил. Ненавистные "стили" не перенеслись.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ничего не скажу. Молчать буду молча. Ожидая вечера и глядя на бутылку коньяка, а там пять звезд - в каком же он звании?
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет, там с абзацами не всё в порядке получается.
А при копировании из Ворда после предварительных танцев с бубном - хорошо. Спасибо, sd!
Отв: Типичные ошибки распознавания - собираем статистику ...
Точно! Помогает.
Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо.
TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня 2.4, на нем отлично скрипт юзается. Зачем мне отдельная табличка с тем, что именно и в каком количестве скрипт нашел? Курсор ставится туда, где подозрение на косяк, можно сразу править, можно идти дальше.
Типа только ради общего отчета табличка? Не понимаю, в чем плюс более поздней версии ФБЕ, если речь именно о данном скрипте Sclex-a (а не моем).
Отв: Типичные ошибки распознавания - собираем статистику ...
Может кому потребуется:
addRegExp("^[a-zа-яё\d]","","Найдено:маленькие буквы, цифры в начале строки","-stanza -poem");
Находит строки, начинающиеся с маленькой буквы или цифры, кроме стихов.
Объясню- зачем добавил эту строку. ФР часто определяет цифры, как список и doc2fb их съедает. Остаётся начало строки в примерно таком виде: июня началось наводнение
Попробую
Посмотел - там вроде стоит ограничение на стихи, но попробую у себя воспроизвести и отпишусь потом
Посмотрел - у меня стихи пропускает, да и в строчке скрипта это отражено
-title -subtitle -stanza -poem");
А стихи у вас уже выделены тегами stanza -poem ? Если ещё не выделены, тогда правильно всё - будет спотыкаться о запятые.
Отв: Типичные ошибки распознавания - собираем статистику ...
Большое спасибо TaKir!
Отловились шесть ошибок OCR, не найденных иными всякими проверками. (FBE 2.4) Только не всегда понятно, что скрипту не нравится - то ли он нашел латиницу в кириллице, то ли просто буквосочетание подозрительное. Но это мелочь, на самом-то деле. Спасибо еще раз.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот для этого-то и служит сообщение в строке статуса: пишет каждый раз, что́ именно найдено. Так гораздо удобнее.
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня кроме TM именно trade mark) ещё постоянное превращение
Исходное 13.1 .1980 распознано как 13ЛЛ980. то есть .1.1 превращается в ЛЛ
Отв: Типичные ошибки распознавания - собираем статистику ...
По ТМ (trade mark) я уже писал:
Откройте скрипт блокнотом, найдите строку с комментом -----Найдено:мусор после скана------
И замените её на эту
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Здесь я добавил элементы ®°™©εβє Можете добавить ещё какие считаете нужным (без пробелов, запятых)
Насчёт цифр - попробуйте на проблемной странице книги в ФР включить режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ.
Имхо легче один раз Фаню натаскать, чем постоянно искать огрехи.
Отв: Типичные ошибки распознавания - собираем статистику ...
Знак препинания и после него тире без пробела (обычного или неразрывного).
Пробел перед знаком препинания.
[\.:\?…][^А-Яа-я]*[а-я] - строчная буква в начале предложения.
Отв: Типичные ошибки распознавания - собираем статистику ...
Тигра, такое впечатление, что ты актуальными скриптами совсем не пользуешься. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Твои варианты лечатся банальной генуборкой и данным скриптом.
Отв: Типичные ошибки распознавания - собираем статистику ...
Кстати, "[,:;][^А-Яа-я]*[А-Я]" - эти тоже не берёт.
Отв: Типичные ошибки распознавания - собираем статистику ...
Юзай массовую замену "дефис+пробел" на "дефис" перед ГУ. Потом пройдись скриптом "Слова".
Отв: Типичные ошибки распознавания - собираем статистику ...
Но скрипты-то можно поставить. Думаю, они все должны работать и под 2.4.
http://scripts.fictionbook.org/
Страницы