Типичные ошибки распознавания - собираем статистику для скрипта ФБЕ

Вы здесь Главная » Блоги » Блог пользователя TaKir Типичные ошибки распознавания - собираем статистику для скрипта ФБЕ Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: пе (не), оп (он), пи (ни), ва (за), пее (нее), опа (она)... Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Собранная статистика еще больше упростит отлов косяков сканирования и, соответственно, позволит более качественно и быстро делать верстку отсканенных книг и быстрее находить косяки в уже сделанных книгах тем, кто занимается их правкой-вычиткой. Сейчас данный скрипт у меня ищет: - смесь латиницы с кириллицей во всех вариантах, - смесь букв с цифрами, - неправильные дефисы-тире, - мусор после скана, - концы строк без знаков препинания - неполный курсив слова - указанные выше типичные ошибки распознавания и другие подозрительные места. Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ. Блог пользователя TaKir Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:32 пользователем wotti golma1 написал: Твой скрипт действительно находит в указанном месте, а в следующем уже нет. :( "вид но" Как такое может быть? странно.. у меня ОК УПД: ЕСЛИ У ТЕБЯ ТАМ НЕРАЗРЫВНЫЙ ПРОБЕЛ, то тогда понятно, да Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:38 пользователем golma1 У меня вообще находит один раз из трёх "но", которые я поставила в строку. Не понимаю. :(((( Нет, какой же неразрывный, я от руки написала строку. Ладно, отложим. Не получается. :((( Доделаю книгу, буду дальше пробовать. Спасибо сирамно. :) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:53 пользователем wotti golma1 написал: Ладно, отложим. Не получается. :((( Доделаю книгу, буду дальше пробовать. Спасибо сирамно. :) Вот такую строчку отлично проверил Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 13:04 пользователем golma1 У меня теперь тоже. Кстати, скрипт Алдио с запятой тоже всё у меня нашёл. Но "точка, тире, буква" более комплексный. Там можно не только знак препинания менять, но и регистр буквы. И у него обзор лучше. Скрипт Алдио хорош для второго прогона и, как я уже писала, для нахождения пропущенной точки. Это важно. Коллеги, я получаю огромное удовольствие от того, как совместными усилиями мы улучшаем качество наших книг. Для меня огромная честь и радость общаться со всеми вами! Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 29/06/2011 - 10:09 пользователем Алексей_Н як, вместо я к Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 29/06/2011 - 21:29 пользователем JonVic А если добавить: ", по" - найдем все не правильно распознанные ", но"... TaKir Такой вопрос - может имеет смысл перенести "ыи" поиск сочетания только в конце слова? Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 29/06/2011 - 21:42 пользователем justserge JonVic написал: Такой вопрос - может имеет смысл перенести "ыи" поиск сочетания только в конце слова? "ыи" - это довольно частая ошибка при распознавании "ьш". Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 29/06/2011 - 22:57 пользователем Алексей_Н Иногда встречается "ыо" вместо "ью". Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 01:01 пользователем Roxana Это, по-моему, есть в первоначальном варианте... Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 00:45 пользователем JonVic Пробовал ставить поиск "фа"->"гра" - хватило меня на 2 минуты - слишком много ошибочных нахождений... Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 01:01 пользователем justserge JonVic написал: Пробовал ставить поиск "фа"->"гра" - хватило меня на 2 минуты - слишком много ошибочных нахождений... Я заметил, что про распознавании "гр" на "ф" меняется буквально в считанных словах: гроб - фоб, негр - неф и граната - фаната. Это какой-то глюк в словарях Файнридера (версии 8, 9 и 10), такой же как и с Таймс - Тайме или Юнкерс - Юнкере. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 01:59 пользователем golma1 justserge написал: JonVic написал: Пробовал ставить поиск "фа"->"гра" - хватило меня на 2 минуты - слишком много ошибочных нахождений... Я заметил, что про распознавании "гр" на "ф" меняется буквально в считанных словах: гроб - фоб, негр - неф и граната - фаната. Это какой-то глюк в словарях Файнридера (версии 8, 9 и 10), такой же как и с Таймс - Тайме или Юнкерс - Юнкере. Подтверждаю. И ещё фуппа - группа и Уильяме - Уильямс. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 11/07/2011 - 03:54 пользователем Roxana Из этой же серии встретилась фация - грация. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 19:56 пользователем HL Цитата: Пробовал ставить поиск "фа"->"гра" если книжка про войнушку, можно прогнать поиском по слову фанат, и посмотреть что найдется... давно так делаю Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 01:01 пользователем Kulipanov Фраза "open the window" была распознана как "орёл не видел" Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 09:49 пользователем Zadd Kulipanov написал: Фраза "open the window" была распознана как "орёл не видел" Лучше было язык распознавания задать английский, тогда не стал бы по-русски распознавать. FR тем и хорош, что можно любую область распознать отдельно от других и каждой области распознавания задать свой язык - очень помогает при распознавании многоязычных текстов, особенно там, где не только русско-английский, но и другие языки присутствуют. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 05:35 пользователем J_Blood Точка в середине предложения (мусор, неправильная запятая). Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 07:01 пользователем golma1 J_Blood написал: Точка в середине предложения (мусор, неправильная запятая). ... ловится скриптом "Слипшиеся слова". Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 04/07/2011 - 12:58 пользователем J_Blood golma1 написал: J_Blood написал: Точка в середине предложения (мусор, неправильная запятая). ... ловится скриптом "Слипшиеся слова". Попробовал. Чевой-то неудобным он мне показался. Два слова только показывает, надо все равно по тексту проверять, вариант замены вручную править. Запихнуть бы это дело в Единый Великий Скрипт :)) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 04/07/2011 - 14:02 пользователем wotti J_Blood написал: golma1 написал: J_Blood написал: Точка в середине предложения (мусор, неправильная запятая). ... ловится скриптом "Слипшиеся слова". Попробовал. Чевой-то неудобным он мне показался. Два слова только показывает, надо все равно по тексту проверять, вариант замены вручную править. Запихнуть бы это дело в Единый Великий Скрипт :)) Насколько я понимаю, не все знают КАК добавить в Единый скрипт тот или иной регесп. Попробую описать максимально просто: 1. Скачиваем или открываем скрипт.Я поместил его в папку чистка: FictionBook Editor - Scripts - 06_Чистка 2. Открываем его при помощи блокнота: Рекомендую Notepad++. В нём нерабочие строки будут выделяться зелёным цветом: 3. Читаем комментарий. (комментарий кончается словами : -------------начало блока TaKir - регэкспы:--------------- ) Если категорически непонятно - пропускаем.: 4. Вставляем нужный или скопированный регесп из этой темы. Для удобства выделите его пустыми строками ( они в данном случае никакой роли не играют): 5. Жмём на "Сохранить" 6. Пробуем Ещё немного: Для удобства можно вывести ярлык этого скрипты на рабочий стол и редактировать его по мере необходимости. Скрипт начинает работать сразу по сохранению. Перезапускать FBE не требуется Ненужный регэсп можно отключить, поставив в начале строки два слеша (//). В Notepad++ эта строчка изменит цвет на зелёный. Сохраняем. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 04/07/2011 - 14:03 пользователем golma1 J_Blood написал: golma1 написал: J_Blood написал: Точка в середине предложения (мусор, неправильная запятая). ... ловится скриптом "Слипшиеся слова". Попробовал. Чевой-то неудобным он мне показался. Два слова только показывает, надо все равно по тексту проверять, вариант замены вручную править. Запихнуть бы это дело в Единый Великий Скрипт :)) Дело в том, что этот скрипт ловит намного больше, чем точку в середине предложения. У меня он - в списке обязательных скриптов. Ну и заодно и точку ловит. ;) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 04/07/2011 - 14:47 пользователем J_Blood Ага. У меня просто скан попался такой, вот этих самых точек много. Показалось проще вылавливать поиском [а-я][.] [а-я], учит. регистр, рег. выражения. А так многие скрипты пользую. Да, и wotti спасибо за это: Цитата: Ненужный регэсп можно отключить, поставив в начале строки два слеша (//). Не знал. А, еще вспомнил по случаю - вот этого скриптика у Вас не завалялось случаем? А то потерялся у меня, теперь вспоминаю с тоской:)) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 04/07/2011 - 15:16 пользователем wotti J_Blood написал: А, еще вспомнил по случаю - вот этого скриптика у Вас не завалялось случаем? А то потерялся у меня, теперь вспоминаю с тоской:)) http://www.multiupload.com/RWM7NPFQ5R Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 04/07/2011 - 15:16 пользователем J_Blood wotti написал: J_Blood написал: А, еще вспомнил по случаю - вот этого скриптика у Вас не завалялось случаем? А то потерялся у меня, теперь вспоминаю с тоской:)) http://www.multiupload.com/RWM7NPFQ5R Благодарствую:)) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 11:42 пользователем Aldio Туда же можно засунуть конструкцию "[а-я] — [А-Я]" с учётом регистра (т.е. "i" убрать). Отлавливает места, где в диалогах пропала точка. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 11:44 пользователем Aldio Ну и до кучи ", — [А-Я]" с учётом регистра (т.е. "i" убрать). Отлавливает места, где в диалогах запятая вместо точки. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:39 пользователем Aldio `addRegExp("[а-я] — [А-Я]","","Найдено: возможно, пропущена точка в диалоге");` `addRegExp(", — [А-Я]","","Найдено: возможно, запятая вместо точки в диалоге");` `addRegExp("[а-я] но ","i","Найдено: -но- после слова и в обрамлении пробелов, скорее всего нужно -по-");` Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:44 пользователем golma1 Aldio написал: `addRegExp("[а-я] — [А-Я]","","Найдено: возможно, пропущена точка в диалоге");` `addRegExp(", — [А-Я]","","Найдено: возможно, запятая вместо точки в диалоге");` `addRegExp("[а-я] но ","i","Найдено: -но- после слова и в обрамлении пробелов, скорее всего нужно -по-");` Yeeeeessss! Спасибо, Алдио! Wotti, и тебе. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:39 пользователем Aldio с запятой почему-то не работает. Завтра посмотрю :-) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:47 пользователем golma1 Aldio написал: с запятой почему-то не работает. Завтра посмотрю :-) Запятую отлично ищет тот скрипт, о котором я писала - "точка тире буква", а вот пропущенную точку только что нашла с твоим скриптом. Кла-а-а-а-ассс!!! Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 12:49 пользователем wotti Aldio написал: с запятой почему-то не работает. Завтра посмотрю :-) `addRegExp("[,] [—] [А-ЯЁ]","","Проверка знака припинания");` Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 13:08 пользователем Aldio Странно... не работает с запятой. Чудеса. Ладно, утро вечера мудренее :-) А, не. Понял. После "Генеральной уборки" пробел после запятой и перед тире похоже превращается в неразрывный. И соответственно более не находится. Как в скрипте указать неразрывный пробел? Про точка-три-буква понял,. Раньше не пользовался. Буду :-) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 13:15 пользователем wotti Aldio написал: Странно... не работает с запятой. Чудеса. Ладно, утро вечера мудренее :-) А, не. Понял. После "Генеральной уборки" пробел после запятой и перед тире похоже превращается в неразрывный. И соответственно более не находится. Как в скрипте указать неразрывный пробел? Включи режим отображения неразрывных пробелов в настройках Скопируй в сорцах неразрывный пробел Вставь в скрипт У меня так: `addRegExp(",□— [А-Я]","","Найдено: возможно, запятая вместо точки в диалоге");` УПД. Некоторые регэспы лучше делать в 2-х видах: с простым и с неразрывными пробелами, чтобы ловил оба варианта Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 13:27 пользователем golma1 wotti написал: У меня так: `addRegExp(",□— [А-Я]","","Найдено: возможно, запятая вместо точки в диалоге");` УПД. Некоторые регэспы лучше делать в 2-х видах: с простым и с неразрывными пробелами, чтобы ловил оба варианта Co-o-o-o-ol! Тоже работает. Вот переделаю все-все-все книги и засяду тренироваться писать регэкспы. Да. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано ср, 06/07/2011 - 23:21 пользователем Sclex Если у вас последняя версия скрипта, то неразрывный пробел в регэкспе можно записать так: \xA0 , тогда он будет корректно искаться независимо от того, какое его отображение выбрано в настройках. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 07/07/2011 - 00:55 пользователем golma1 Sclex написал: Если у вас последняя версия скрипта, то неразрывный пробел в регэкспе можно записать так: \xA0 , тогда он будет корректно искаться независимо от того, какое его отображение выбрано в настройках. О, спасибо! Теперь и после "Ген. уборки" работает. :) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 13:37 пользователем wotti Цитата: Вот переделаю все-все-все книги и засяду тренироваться писать регэкспы. Да. Тоскливо перечитал фразу и подумал, сколько ещё можно умного узнать, если бы.. но... Ну и фигсним ))) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 30/06/2011 - 19:57 пользователем Aldio wotti Спасибо! :-) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано чт, 14/07/2011 - 01:37 пользователем JonVic Тема открыта уже полгода... Сам пользуюсь двумя - "Поиск по набору регэкспов TaKir 24_01_2011" и "своим", подсмотренным здесь: [collapsed title=открыть]addRegExp("[а-яё][А-ЯЁ]","","Найдено: смесь регистров"); addRegExp("[А-ЯЁ][А-ЯЁ][а-яё]","","Найдено: смесь регистров"); `tagRegExp("(?<![а-яё])ои(?![а-яё])","i","Найдено: слово "ои" ("он" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])го(?![а-яё])","i","Найдено: слово "го" ("по или то" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])нот(?![а-яё])","i","Найдено: слово "нот" ("пот" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])газ(?![а-яё])","i","Найдено: слово "газ" ("гав или таз" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])гав(?![а-яё])","i","Найдено: слово "гав" ("газ или таз" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])щей(?![а-яё])","i","Найдено: слово "щей" ("шеи" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])ато(?![а-яё])","i","Найдено: слово "ато" ("а то" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])ито(?![а-яё])","i","Найдено: слово "ито" ("и то" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])тою(?![а-яё])","i","Найдено: слово "тою" ("того" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])вамп(?![а-яё])","i","Найдено: слово "вамп" ("вами" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])попятно(?![а-яё])","i","Найдено: слово "попятно" ("понятно" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])отда(?![а-яё])","i","Найдено: слово "отда" ("отца" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])конда(?![а-яё])","i","Найдено: слово "конда" ("конца" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])лидами(?![а-яё])","i","Найдено: слово "лидами" ("лицами" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])аза(?![а-яё])","i","Найдено: слово "аза" ("а за" с опечаткой).","",1);` `tagRegExp("(?<![а-яё])пей(?![а-яё])","i","Найдено: слово "пей" ("ней" с опечаткой).","",1);` `tagRegExp("(фан)","i","Найдено: часть слова "фан" ("гран" с опечаткой).","",1);` `tagRegExp("[а-яёa-z]<strong>[а-яёa-z]+?</strong>\|<strong>[а-яёa-z]+?</strong>[а-яёa-z]","i","Найдено: жирность в средней части слова.");` `tagRegExp("[а-яё]<strong>[а-яё]+?</strong>\|<strong>[а-яё]+?</strong>[а-яё]","i","Найдено: жирность части слова.");` `tagRegExp("<strong>[а-яёa-z]+?</strong>[а-яёa-z]\|[а-яёa-z]<strong>[а-яёa-z]+?</strong>","","Найдено: жирность в начале или конце слова.");` `tagRegExp("[а-яёa-z]<sup>[а-яёa-z]+?</sup>\|<sup>[а-яёa-z]+?</sup>[а-яёa-z]","i","Найдено: Найдено: верхний индекс в средней части слова.");` `tagRegExp("[а-яё]<sup>[а-яё]+?</sup>\|<sup>[а-яё]+?</sup>[а-яё]","i","Найдено: Найдено: верхний индекс.");` `tagRegExp("<sup>[а-яёa-z]+?</sup>[а-яёa-z]\|[а-яёa-z]<sup>[а-яёa-z]+?</sup>","","Найдено: верхний индекс в начале или конце слова.");` `tagRegExp("[а-яёa-z]<sub>[а-яёa-z]+?</sub>\|<sub>[а-яёa-z]+?</sub>[а-яёa-z]","i","Найдено: нижний индекс в средней части слова.");` `tagRegExp("[а-яё]<sub>[а-яё]+?</sub>\|<sub>[а-яё]+?</sub>[а-яё]","i","Найдено: нижний индекс части слова.");` `tagRegExp("<sub>[а-яёa-z]+?</sub>[а-яёa-z]\|[а-яёa-z]<sub>[а-яёa-z]+?</sub>","","Найдено: нижний индекс в начале или конце слова.");`[/collapsed] Так вот... - есть у кого готовые и работающие наработки? А так же, желание поделиться? :) Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пт, 01/07/2011 - 00:25 пользователем Алексей_Н Выложите кто-нибудь готовый скрипт со всеми наработками, please. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пт, 01/07/2011 - 22:35 пользователем Roxana Мой http://ifolder.ru/24492734 Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пт, 01/07/2011 - 23:03 пользователем Алексей_Н Спасибо! Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пт, 01/07/2011 - 23:55 пользователем golma1 Roxana написал: Мой http://ifolder.ru/24492734 И от меня спасибо. Wotti тоже собирался делать, хотела как раз его просить включить ещё два "моих" слова ко всем уже перенятым: "Уильяме" вместо "Уильямс" и "поддерев" вместо "под дерев" (склеиваются почему-то только "под деревом" или "под деревьями"; причём "поддеревом" даже не распознаётся как орфографическая ошибка - ни в ФР, ни в ФБЕ). Может, кому-нибудь тоже пригодится. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 02/07/2011 - 00:28 пользователем Алексей_Н Сейчас делаю книжку и постоянно натыкаюсь: "Ухты" вместо "Ух ты", "Ивам" вместо "И вам", "1" в конце предложения вместо "!" Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 02/07/2011 - 00:43 пользователем golma1 Алексей_Н написал: Сейчас делаю книжку и постоянно натыкаюсь: "Ухты" вместо "Ух ты", "Ивам" вместо "И вам", "1" в конце предложения вместо "!" Ну, "1" выловит как "смесь букв и цифр", а остальные, если регулярно встречаются, можно добавить (по аналогии с уже существующими), а потом отключить. Я часто так делаю для конкретной книги. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 02/07/2011 - 01:13 пользователем Алексей_Н Типичные ошибки для данной книги можно найти и обычным поиском. Но сочетания "И вам" и "Ух ты" не так часты и в любой другой книги могут оказаться незамеченными. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано сб, 02/07/2011 - 01:47 пользователем golma1 Алексей_Н написал: Типичные ошибки для данной книги можно найти и обычным поиском. Но сочетания "И вам" и "Ух ты" не так часты и в любой другой книги могут оказаться незамеченными. Ну так включите эти случаи в свой вариант скрипта. ;) `tagRegExp("(?<![а-яё])ивам(?![а-яё])","i","Найдено: слово "ивам" ("и вам" с опечаткой).","",1); tagRegExp("(?<![а-яё])ухты(?![а-яё])","i","Найдено: слово "ухты" ("ух ты" с опечаткой).","",1);` Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 04/07/2011 - 14:07 пользователем golma1 Коллеги! Этот скрипт - огромная помощь для верстальщиков. Трудно переоценить его необходимость. Но он не заменяет все остальные скрипты. Не ограничивайтесь только им, какое бы количество регэкспов мы туда ни запихнули. Более того, если вы использовали другие скрипты до запуска этого, то они уже нашли множество ошибок, а значит скрипт по регэкспам будет работать намного быстрее. Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 04/07/2011 - 14:20 пользователем wotti Ещё (может кто не знает) Чтобы присвоить скрипту (любому) горячую клавишу нужно: 1. Заходим в меню Сервис-Настройки 2. в появившемся окне выбираем вкладку "Клавиши". В левом окошке выбираем "Скрипты". В правом ищем скрипт "Поиск по набору регеспов" . В чекбоксе "Клавиши" выбираем ту, что больше нравится. (В моём случае это F4) Жмём "Присвоить" ВСЁ Можно вывести иконку на панель скриптов. Для этого: 1. Клик на панели скриптов. Появится окошко "Настроить" 2. В появившемся окошке настройки, выбираем нужную иконку и переносим её в правую часть, нажав кнопку "Добавить" Отв: Типичные ошибки распознавания - собираем статистику ... Постоянная ссылка (Permalink) Опубликовано пн, 04/07/2011 - 14:23 пользователем wotti Голма совершенно права. Я тоже сначала прохожу скриптами, которые заточены под определённые операции и только потом прохожу Единым скриптом и Спеллчеком. Страницы « первая ‹ предыдущая 1 2 3 4 5 6 7 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии Aliki RE:Подайте бедному копеечку на книжку с литреса... 12 часов sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 13 часов sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 1 неделя larin RE:Пропал абонемент 3 недели Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц tvv RE:faq brainstorm =) 1 месяц Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 месяц Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 день larin RE:абонемент не обновлен 1 месяц sem14 RE:За иллюминатором (серия) - чего не хватает? 1 месяц sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 месяц Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц tvv RE:DNS 2 месяца MrMansur RE:<НРЗБ> 2 месяца Stager RE:Беженцы с Флибусты 2 месяца Впечатления о книгах mysevra про Шацкая: Настольная книга стервы (Психология) 06 03 О, это нечто, товарищи. Хотя я лично знакома с барышней неопределенного возраста, для которой эта книга, а ещё «Как влюбить в себя любого» Лаундес и биография принцессы Дианы являются действительно настольными, и всё у неё ……… Оценка: неплохо mysevra про Лондон: Время-не-ждет [= День пламенеет] [Burning Daylight ru] (Приключения: прочее, Классическая проза ХX века) 06 03 У этого автора все работы замечательные, но некоторые особо выделяются на общем фоне. Эта книга – одна из таких, её не забудешь и ни с чем не спутаешь. Оценка: отлично! mysevra про Эстес: Бегущая с волками. Женский архетип в мифах и сказаниях [Women Who Run with the Wolves. Myths and Stories of the Wild Woman Archetype ru] (Мифы. Легенды. Эпос, Психология, Самосовершенствование) 06 03 Кто-то очень метко высказался: «Женская энергия – это не про соответствие каким-то шаблонам. Не про жертвенность, не про покорность и уж точно не про вечную улыбку. Это про способность быть мягкой без слабости, гибкой без ……… Оценка: отлично! Chernovol про Ефимович: Майя Плисецкая (Биографии и Мемуары) 05 03 Хорошая книга, но ни одной иллюстрации-фотографии. Оценка: хорошо nightrunner про Пехов: Птицелов (Фэнтези, Самиздат, сетевая литература) 03 03 Хуже предыдущей. Опять поди с бабой своей писал Оценка: неплохо Никос Костакис про Дроздов: Лейб-хирург [СИ] (Альтернативная история, Попаданцы) 03 03 Мне порой кажется, что только мы, русские, не считаем себя лучшими в мире. Никуда не лезем, никого не учим жить." Ага, ага! Лысенко Владимир Андреевич про Каюрин: Нигилист. Повесть о штурмовике (О войне, Самиздат, сетевая литература) 02 03 Пропагандисткая заказуха, если они не хотят жить по нашему, то мы их уничтожим. Оценка: нечитаемо udrees про Кинг: Техносоциализм. Как неравенство, искусственный интеллект и климатические изменения создают новый миропорядок [litres] (Публицистика) 01 03 В общем-то годная книга, которая раскрывает основные мировые проблемы, лежащие перед человечеством. Автор предлагает четыре варианта развития будущего, из них самый радужный и самый оптимистичный – это конечно техносоциализм. ……… Оценка: хорошо udrees про Володин: Газлайтер. Том 7 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература) 01 03 Примитивная простенькая история-сказка. Написана очень простыми словами, с такими же простыми диалогами героев. Это сказка, конечно, где главный герой прямо супермен, неуязвимый с кучей умений, никто не может ему противостоять. ……… Оценка: неплохо udrees про Володин: Газлайтер. Том 6 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература) 01 03 Эта серия приключений про мальчишку-телепата тянет на Санта-Барбару, как в мыльной опере всегда какие-то интриги, сражения, любовные романы. Написано слишком просто, примитивным языком, который тем не менее легко читается ……… Оценка: неплохо udrees про Даттон: Мудрость психопатов (Психология) 01 03 Книга будет полезна для общего развития и понимания такого отклонения или разновидности психики как психопатия. ДО этого я читал «Сойти с ума», там тоже в качестве одного из отклонений приводилась психопатия, но подробного ……… Оценка: хорошо udrees про Андреев: Время Z. Фронт без флангов (Военная документалистика) 01 03 Пропагандистский панегирик идущей СВО. Всю позицию автора можно оценить по одному его предложению: «И слава богу, что случилось 24 февраля 2022 года.» Большая часть книги посвящена восхвалению ЧВК «Вагнер» и его деяниям, ……… Оценка: нечитаемо больше впечатлений