Обновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!

Вы здесь Главная » Блоги » Блог пользователя TaKir Обновление скрипта "Поиск по набору регэкспов" для FBE - тестируем! Опубликовано пт, 06/09/2019 - 04:13 пользователем TaKir Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE). Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси. Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем: Типичные ошибки распознавания... https://lib.rus.ec/node/268750 и Курьезы сканировщика: http://lib.rus.ec/comment/372489 Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются. Просьба приводить конкретные примеры: - ошибок скрипта, ложных срабатываний - ошибок распознавания, которые можно включить в скрипт - прочих пожеланий и усовершенствований. Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта. Ссылка на последнюю версию скрипта (30-09-2019): https://my-files.ru/p1yq7v альтернативные ссылки: https://ru.files.fm/u/j76r8q44 https://anonfiles.com/Yae3t470n2/17_TaKir-Sclex-30-09-2019_js https://www25.zippyshare.com/v/GgMyWsRc/file.html Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке: ... /Fiction Book Editor/Scrips/06_Чистка Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов). Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице" Тогда будет гораздо меньше лишних срабатываний. По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию. P.S. На Флибусте открыта аналогичная тема, можно писать в любую. http://www.flibusta.is/node/441303 Блог пользователя TaKir Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 06/09/2019 - 04:29 пользователем golma1 Отлично, давно было пора собрать до кучи все наработки. Спасибо, TaKir! RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 06/09/2019 - 06:37 пользователем tvnic Спасибо. Давненько такие штучки не обновлялись. Проверил на одном файле. Редактор ругается на данную строку: Цитата: addRegExp(" кое[A-Za-zА-яЁё]{3})","i","Найдено: возможно, пропущенный дефис"); И часто появляется сообщение, что сценарий тормозит работу эксплорера. В остальном всё норм. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 06/09/2019 - 06:56 пользователем TaKir addRegExp("( кое[A-Za-zА-яЁё]{3})","i","Найдено: возможно, пропущенный дефис"); вот так должно быть, потерялась скобка перед "пробел+кое" А про торможение эксплорера у меня ни разу не ругалось. Т.е. вообще с 2007 г никогда такого не было. UPD. Ссылка на неругающийся файл обновлена в старт-посте. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 06/09/2019 - 07:39 пользователем Violontan TaKir написал: А про торможение эксплорера у меня ни разу не ругалось. Т.е. вообще с 2007 г никогда такого не было. Это, видимо, зависит от доступной вычислительной мощности. Больше чем 300 поисковых команд - немалое число. Пока скрипт их все проверит... RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 06/09/2019 - 10:06 пользователем Isais Спасибо за обновление! У меня в ФБЕ стоит версия 2.9, дополненная wotti, Roxana и другими. Материалы версии 2.9 вошли в предложенный релиз? RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 06/09/2019 - 10:58 пользователем TaKir Isais написал: Спасибо за обновление! У меня в ФБЕ стоит версия 2.9, дополненная wotti, Roxana и другими. Материалы версии 2.9 вошли в предложенный релиз? Выложи плиз свой файлик, я проверю. По идее придумывалось и собиралось все, что можно и тестировалось. Можно в личку, если так проще. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 06/09/2019 - 13:53 пользователем Isais Прикреплять здесь некуда, так что ссылка на Дропбокс: https://www.dropbox.com/s/j74awi24vigsvw2/04_Regexps_Search.zip?dl=0 Если ссылка окажется недоступной, скажите -- что-то Дроп глючит давно и по-свински. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 06/09/2019 - 14:48 пользователем TaKir Isais написал: Прикреплять здесь некуда, так что ссылка на Дропбокс: https://www.dropbox.com/s/j74awi24vigsvw2/04_Regexps_Search.zip?dl=0 Если ссылка окажется недоступной, скажите -- что-то Дроп глючит давно и по-свински. Спасибо, скачал, при беглом взгляде - по содержанию - это довольно старая версия этого же скрипта, новый существенно расширен. Но после выходных поизучаю более внимательно, если что в моем не учтено, добавлю. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано сб, 07/09/2019 - 06:29 пользователем GMAP TaKir написал: если что в моем не учтено, добавлю. Еще не закончил проверять, но вот пара неучтенных комбинаций из моего набора для EmEditor: Как под горкой под горой( торговал мужик золой. Как под горкой под горой « торговал мужик золой . Есть и другие, дойду до них, тогда тоже выложу. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано сб, 07/09/2019 - 13:05 пользователем TaKir GMAP написал: Еще не закончил проверять, но вот пара неучтенных комбинаций из моего набора для EmEditor: Как под горкой под горой( торговал мужик золой. Как под горкой под горой « торговал мужик золой . Есть и другие, дойду до них, тогда тоже выложу. Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице" Тогда будет гораздо меньше лишних срабатываний. Добавил эту рекомендацию в стартпост. Но оторванную скобку и кавычку добавить в скрипт нет проблем, конечно. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано сб, 07/09/2019 - 05:03 пользователем alexej36 Прилипший дефис в конце строки в стихах не находит, а надо бы! RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано вт, 10/09/2019 - 11:00 пользователем TaKir Прилипший дефис проверим! ) Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа: млн. рублей тыс. человек добавлю в скрипт, чтобы пропускал такие вещи. т.д. и т.п. уже учтены RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано вт, 10/09/2019 - 11:40 пользователем Александр Лагода TaKir написал: Прилипший дефис проверим! ) Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа: млн. рублей тыс. человек добавлю в скрипт, чтобы пропускал такие вещи. т.д. и т.п. уже учтены Уважаемый TaKir, примите во внимание, что сокращение млн по правилам записывается без точки (как и, например, сек -- секунда, т -- тонна) -- в отличие от тыс., где точка таки нужна. http://new.gramota.ru/spravka/docs?layout=item&id=16_15 RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано вт, 10/09/2019 - 12:09 пользователем Isais Александр Лагода написал: TaKir написал: Прилипший дефис проверим! ) Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа: млн. рублей тыс. человек добавлю в скрипт, чтобы пропускал такие вещи. т.д. и т.п. уже учтены Уважаемый TaKir, примите во внимание, что сокращение млн по правилам записывается без точки (как и, например, сек -- секунда, т -- тонна) -- в отличие от тыс., где точка таки нужна. http://new.gramota.ru/spravka/docs?layout=item&id=16_15 +100500! Также не не нужна точка в сокращениях млрд, трлн, км, га -- то есть таких, которые сокращаются "фигурно" -- выбросили кусок слова в одном месте, потом в другом, осталось пара-тройка букв из разных мест -- вот такие слова не требуют точек в конце. А вообще по сокращениям и как они пишутся есть довольно-таки толстый словарь с убористым текстом... Всё в скрипт не переписать. :( RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано вт, 10/09/2019 - 13:18 пользователем TaKir Isais написал: Александр Лагода написал: TaKir написал: Прилипший дефис проверим! ) Коллеги, просьба набросать примеров типичных наиболее часто встречающихся сокращений, где используется точка, типа: млн. рублей тыс. человек добавлю в скрипт, чтобы пропускал такие вещи. т.д. и т.п. уже учтены Уважаемый TaKir, примите во внимание, что сокращение млн по правилам записывается без точки (как и, например, сек -- секунда, т -- тонна) -- в отличие от тыс., где точка таки нужна. http://new.gramota.ru/spravka/docs?layout=item&id=16_15 +100500! Также не не нужна точка в сокращениях млрд, трлн, км, га -- то есть таких, которые сокращаются "фигурно" -- выбросили кусок слова в одном месте, потом в другом, осталось пара-тройка букв из разных мест -- вот такие слова не требуют точек в конце. А вообще по сокращениям и как они пишутся есть довольно-таки толстый словарь с убористым текстом... Всё в скрипт не переписать. :( Если в книге уже написано "млн. руб." или "млрд. человек" - будем удалять точки? Или оставляем как "написано пером"? Какая политика партии? Если мне не изменяет мой склероз, то при оцифровке всегда шли от презумпции "неприкосновенности" написанного, кроме, возможно, явных очепяток. Скрипту планируется указать просто пропускать такие сокращения с точкой, буде они встретятся. Просто частенько бывает слишком много стандартных сокращений в книге, и хотелось бы, чтобы скрипт их пропускал. Никаких исправлений в тексте скрипт не делает, если кто еще не в курсе, он всего лишь останавливается на подозрительных местах. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано вт, 10/09/2019 - 13:25 пользователем TaKir Из найденного на скорую руку (речь о наиболее распространенных сокращениях, весь словарь нам не нужен, конечно). в. г. вв. гг. млн. млрд. трлн. тыс. сокр. и т.д. т.к. т.е. т.п. т.о. т.ч. н. э. чел. экз. руб. коп. долл. др. пр. проч. см. ср. англ. фр. нем. исп. лат. прим. перев. авт. ред. рук. мин. сек. стр. мм. кг. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано ср, 25/09/2019 - 14:37 пользователем Isais "Мм" и "кг" относятся как раз к той разновидности сокращений, алгоритм для которой я написал выше: буквы выброшены выборочно, поэтому точки не нужны! Если где-то есть -- это или ошибка, или соринка прилипла к бумаге. И -- Вы куда-то выходили, когда я говорил, что ни в "ТРЛН", ни в "МЛН", ни в "МЛРД" точка не должна стоять? RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 13/09/2019 - 08:17 пользователем alexej36 Цитата: Первое предложение.-Второе предложение. Можно ли научить скрипт такое находить? RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пн, 16/09/2019 - 05:11 пользователем TaKir alexej36 написал: Цитата: Первое предложение.-Второе предложение. Можно ли научить скрипт такое находить? Да, конечно, без проблем. addRegExp("[\\.]-","","Найдено: неправильные дефисы-тире"); В новой версии будет включено в поиск. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано сб, 21/09/2019 - 22:59 пользователем alexej36 Цитата: Найдено: слово "II" ("И" с опечаткой) Думаю, в заголовках и подзаголовках это лишнее. Постоянно о римские цифры спотыкается. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пн, 23/09/2019 - 07:39 пользователем TaKir alexej36 написал: Цитата: Найдено: слово "II" ("И" с опечаткой) Думаю, в заголовках и подзаголовках это лишнее. Постоянно о римские цифры спотыкается. Можно вот так скорректировать, чтобы скрипт искал после конца фразы и на заголовках и подзаголовках не тормозил. addRegExp("([\\.!\\?][\\x20\\xA0\\t\\n\\r\\f])II(?![а-яё])","i", "Найдено: слово \"II\" (\"И\" с опечаткой)","-title -subtitle"); RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2019 - 04:50 пользователем TaKir Обновленная версия скрипта в шапке. Дублирую тут тоже. - Многое добавлено, переработано и исправлено. - Все упоминавшиеся в теме тут и на Флибусте ошибки учтены. - Сравнение с другими версиями скрипта произведено, там ничего не было, чего уже не было бы в полной версии. - Добавлен пропуск сокращений, чтобы не было лишних срабатываний. (Очередной раз огромное спасибо Sclex!) - Улучшен поиск кириллицы в латинице, в том числе в инициалах, англоязычных списках литературы. На 26-09-2019 собрано 395 поисковых строк, из них рабочих - 385, макросов - 7 штук. // заремленных поисковых строк - 10 штук (из-за частых лишних срабатываний.) Ссылка на последнюю версию скрипта (26-09-2019): https://my-files.ru/mkvr2n Просьба тестировать. Еще раз напоминаю, что скрипт НЕ ПРОИЗВОДИТ НИКАКИХ ИЗМЕНЕНИЙ В ФАЙЛЕ книги, а только останавливается на "подозрительных" местах в тексте. Все исправления делаются по необходимости руками, если действительно найдена ошибка. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2019 - 05:29 пользователем alexej36 Цитата: addRegExp("[а-я], по ","i","Найдено: -по- после после запятой, возможно нужно -но-") Можно добавить... на плохих сканах бывает полезно. В основном замедляет проверку конечно... RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2019 - 08:37 пользователем tvnic Пока не тестил, но в любом случае спасибо за проделанную работу. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2019 - 12:24 пользователем V_E Спасибо за проделанную работу! Протестировал скрипт на уже вычитанной книге. Многократное нажатие горячей клавиши (поставил F4, так как рекомендуемая F2 уже зарезервирована) привело к опуханию пальца в конце работы из-за многочисленных ложных срабатываний. Но к разработчикам претензий нет, так как в таком сложном скрипте без этого не обойтись. Что было отмечено: как подозрительное выделяется слово ею (творительный падеж местоимения она); яиц (родительный падеж слова яйца), начало имени или инициалы после тире. Не совсем ясно, как все-таки будет с сокращениями. В книге на которой тестировался скрипт сокращения т (тонна) ц (центнер), написанные в соответствии с правилами, т.е. без точки, выделялись как ошибочные. В качестве предложения хочу сказать следующее: расширить список воспринимаемых сокращений в том числе исторических. Например, слово Президент (с заглавной буквы в середине предложения) скрипт пропускал, а вот словосочетание ЦК (центральный комитет) выделял. Также известная аббревиатура ВКП(б) выделялась скриптом, хотя это сочетание известно всем, родившимся до 1985 года. Может и КПСС тоже выделит как ошибку? Да, и еще - неплохо бы решить проблему с религиозной терминологией. Сплошь и рядом слова бог, библия, господь, и т.д. пишут с заглавной буквы, хотя в печатных оригиналах эти слова писались и должны писаться строчными. Как будет скрипт реагировать на эти вещи? В целом, несмотря на известное предубеждение в отношении скриптов и вообще автоматизации работы, считаю данный скрипт полезным, так как помимо бесчисленного количества ложных срабатываний он сумел найти и реальные ошибки, пропущенные в ходе двукратной вычитки. Хотя палец от многократных нажатий и болит. Еще раз спасибо! RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2019 - 13:39 пользователем TaKir V_E написал: Спасибо за проделанную работу! Протестировал скрипт на уже вычитанной книге. Многократное нажатие горячей клавиши (поставил F4, так как рекомендуемая F2 уже зарезервирована) привело к опуханию пальца в конце работы из-за многочисленных ложных срабатываний. Но к разработчикам претензий нет, так как в таком сложном скрипте без этого не обойтись. Что было отмечено: как подозрительное выделяется слово ею (творительный падеж местоимения она); яиц (родительный падеж слова яйца), начало имени или инициалы после тире. Не совсем ясно, как все-таки будет с сокращениями. В книге на которой тестировался скрипт сокращения т (тонна) ц (центнер), написанные в соответствии с правилами, т.е. без точки, выделялись как ошибочные. В качестве предложения хочу сказать следующее: расширить список воспринимаемых сокращений в том числе исторических. Например, слово Президент (с заглавной буквы в середине предложения) скрипт пропускал, а вот словосочетание ЦК (центральный комитет) выделял. Также известная аббревиатура ВКП(б) выделялась скриптом, хотя это сочетание известно всем, родившимся до 1985 года. Может и КПСС тоже выделит как ошибку? Да, и еще - неплохо бы решить проблему с религиозной терминологией. Сплошь и рядом слова бог, библия, господь, и т.д. пишут с заглавной буквы, хотя в печатных оригиналах эти слова писались и должны писаться строчными. Как будет скрипт реагировать на эти вещи? В целом, несмотря на известное предубеждение в отношении скриптов и вообще автоматизации работы, считаю данный скрипт полезным, так как помимо бесчисленного количества ложных срабатываний он сумел найти и реальные ошибки, пропущенные в ходе двукратной вычитки. Хотя палец от многократных нажатий и болит. Еще раз спасибо! Спасибо за отзыв! Объясню немного логику работы этого скрипта: Скрипт в основном заточен на работу с худлитом. Для научпопа его использовать можно, но может быть именно как у вас, палец устанет. Скрипт не только выделяет сомнительные места в тексте, но и пишет в строке состояния, внизу экрана редактора, что именно найдено и почему. "ею" - часто после скана это "его" "яиц" - "лиц" и т.д. Отдельно встречающиеся в тексте согласные скрипт воспринимает такие же как ошибки - "ц" - возможно "и", да и вообще, отдельно стоящие согласные довольно редко встречаются в реальных текстах. Т.е. это именно частые ошибки распознавания, встречающиеся после файнридера. Учтите, скрипт не человек, он не умеет анализировать смысл текста, ему все равно - "Президент" или "Бог" или "Библия". Скрипт ищет "ошибки" по формальным признакам, например, после слова и точки в 99% случаев начинается новый абзац или новая фраза, а она чаще всего - с большой буквы. Вот если тут буква маленькая, то скрипт отмечает такое место. Всякие ЦК скрипт находит как 2 согласных подряд, что тоже в текстах бывает крайне редко, часто в таких местах должно быть что-то другое. Скрипт не понимает, что это именно ЦК, там могло быть и ХЗ и РВ - скрипт не умеет понимать написанное. Аналогично с отдельностоящими 2-3 гласными - обычно это редко встречается и может означать ошибку. ВКП(б) - буквы с прилипшими скобками - в обычных текстах такого не должно быть. Можно, конечно, впихнуть в него все возможные сокращения, но не думаю, что это будет к лучшему. Опять же, от конкретной книги зависит. На каком-нибудь учебнике может быть столько ложных срабатываний, что проще не пользоваться этим скриптом вообще. Либо сделать 2-3... версии скрипта, заточенных под разные типы текстов, как уже тут предлагалось. Т.е. мы пытаемся предусмотреть и вписать в скрипт именно типичные наиболее распространенные подозрительные места в тексте. Понятно, что ложные срабатывания бывают, куда же без них. Но то, что можно четко формализовать и добавить в скрипт - буду стараться добавлять. Если дадите ссылку на вашу книгу - погоняю по ней, посмотрю, на чем спотыкается, может получится уменьшить количество ложных остановок. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2019 - 20:56 пользователем tvnic Универсального скрипта в любом случае создать не удастся. Имеется в виду, чтобы и ошибки находил, и ложных срабатываний не было. Многое зависит от тематики и характера текста. Вообще-то каждому можно отредактировать скрипт под себя или разбить его на несколько скриптов и гонять частями, если палец устает. Редактировать сложнее - надо понимать функцию каждой строки. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 27/09/2019 - 03:48 пользователем TaKir Количество ложных срабатываний можно уменьшить, если подключатся светлые головы и помогут с примерами и формализацией поисковых запросов. В одно рыло перебрать столько вариантов у меня банально фантазии и времени не хватает. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано вт, 08/10/2019 - 10:50 пользователем V_E TaKir написал: Т.е. мы пытаемся предусмотреть и вписать в скрипт именно типичные наиболее распространенные подозрительные места в тексте. Понятно, что ложные срабатывания бывают, куда же без них. Но то, что можно четко формализовать и добавить в скрипт - буду стараться добавлять. Если дадите ссылку на вашу книгу - погоняю по ней, посмотрю, на чем спотыкается, может получится уменьшить количество ложных остановок. Особо не заморачивайтесь. Я прекрасно понимаю возможности скриптов и связанные с ними ограничения. Поэтому еще раз повторюсь - к разработчикам претензий нет. Стремление уменьшить число ложных срабатываний может привести к другому результату - будет увеличиваться число пропущенных ошибок. Для меня было важно то, что даже в вычитанном тексте удалось найти незамеченные ошибки. Тут надо просто подумать, на каком этапе ваш скрипт запускать - в начале вычитки или после первого прохода. Вполне согласен, что нужно учитывать тип издания. В специальных работах, после выявления типичных ошибок, может быть целесообразно вместо скрипта запустить несколько поисков с заменой или поиск и замену с регулярными выражениями. В общем, варианты есть, но этому скрипту место наверняка найдется. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 27/09/2019 - 05:52 пользователем Антонина82 V_E написал: Спасибо за проделанную работу! Протестировал скрипт на уже вычитанной книге. Многократное нажатие горячей клавиши (поставил F4, так как рекомендуемая F2 уже зарезервирована) привело к опуханию пальца в конце работы из-за многочисленных ложных срабатываний. Но к разработчикам претензий нет, так как в таком сложном скрипте без этого не обойтись. Что было отмечено: как подозрительное выделяется слово ею (творительный падеж местоимения она); яиц (родительный падеж слова яйца), начало имени или инициалы после тире. Не совсем ясно, как все-таки будет с сокращениями. В книге на которой тестировался скрипт сокращения т (тонна) ц (центнер), написанные в соответствии с правилами, т.е. без точки, выделялись как ошибочные. В качестве предложения хочу сказать следующее: расширить список воспринимаемых сокращений в том числе исторических. Например, слово Президент (с заглавной буквы в середине предложения) скрипт пропускал, а вот словосочетание ЦК (центральный комитет) выделял. Также известная аббревиатура ВКП(б) выделялась скриптом, хотя это сочетание известно всем, родившимся до 1985 года. Может и КПСС тоже выделит как ошибку? Да, и еще - неплохо бы решить проблему с религиозной терминологией. Сплошь и рядом слова бог, библия, господь, и т.д. пишут с заглавной буквы, хотя в печатных оригиналах эти слова писались и должны писаться строчными. Как будет скрипт реагировать на эти вещи? В целом, несмотря на известное предубеждение в отношении скриптов и вообще автоматизации работы, считаю данный скрипт полезным, так как помимо бесчисленного количества ложных срабатываний он сумел найти и реальные ошибки, пропущенные в ходе двукратной вычитки. Хотя палец от многократных нажатий и болит. Еще раз спасибо! А зачем F4? Я на панели в FBE добавила ссылку (иконку) - и мышкой. Всё удобней, чем пальцем. Если текст большой, то можно мозоль заработать :) ЗЫ: Проверила работу скрипта, правда текст был небольшой. Замечаний нет. Может что в дальнейшем найдется. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 27/09/2019 - 06:09 пользователем Zadd Антонина82 написал: А зачем F4? Я на панели в FBE добавила ссылку (иконку) - и мышкой. Всё удобней, чем пальцем. Если текст большой, то можно мозоль заработать :) А мышку не рукой двигаешь? А кнопку на мышке носом нажимаешь? RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 27/09/2019 - 07:07 пользователем Антонина82 Ваш юмор не оценила. :( Мышкой работать гораздо удобнее. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 27/09/2019 - 07:55 пользователем GMAP Антонина82 написал: Мышкой работать гораздо удобнее. Человечество изобрело мышку с дополнительными кнопками, в частности, сбоку. А еще это ленивое человечество изобрело софты для любого переназначения клавиатурных и мышиных кнопок, занимает это минуты. Зато не нужно тыкать курсором в определенное место. Хотя, если подходить к работе над файлами с позиций армянского комсомола, то бишь создавать себе трудности и мужественно их преодолевать, тады да, можно все мышкой. Ножной :-) RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 27/09/2019 - 12:00 пользователем TaKir Антонина82 написал: Мышкой работать гораздо удобнее. Для данной операции - сомнительно. Особенно сомнительна необходимость вывихивания шеи при тыкании мышкой в верхний угол и рассматривании сомнительного места в тексте, находящегося иногда внизу экрана, при работе на большом (от 22" и больше) экране. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пт, 27/09/2019 - 22:48 пользователем Антонина82 Привычка свыше нам дана, Замена счастию она. А.С.П. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано ср, 02/10/2019 - 01:40 пользователем ProstoTac Ну отчего же сомнительно? Кнопку F1 (или F4, или любую) - можно повесить на клавишу мыши (если есть нормальная мышка) и тогда комфорта выше крыши - тыкание мышкой и рассматривание сомнительного места в тексте происходит практически в одно и том же месте. Из замеченного: скрипт "конец строк без точек" в чем-то дублирует работу отдельного скрипта "Интерактивная ликвидация разрывов абзацев". Возможно, для облегчения работы "Поиска по набору регэкспов" в будущем убрать подобный дубляж? RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано ср, 02/10/2019 - 02:27 пользователем TaKir ProstoTac написал: Ну отчего же сомнительно? Кнопку F1 (или F4, или любую) - можно повесить на клавишу мыши Сомнительное удобство - в описанной Антониной ситуации - десятки и сотни раз тыкать мышкой в иконку на панели. А назначенной кнопкой мыши - ну может и удобнее, хотя меня допкнопки на мыши всегда бесили, мелкие, руку приходится крючить больше, чем хотелось бы, тем более для частого одноообразного многократного нажатия. Потому хоткеи для типичной рутины - лично мое все ) ProstoTac написал: Из замеченного: скрипт "конец строк без точек" в чем-то дублирует работу отдельного скрипта "Интерактивная ликвидация разрывов абзацев". Возможно, для облегчения работы "Поиска по набору регэкспов" в будущем убрать подобный дубляж? По мне "Интерактивная ликвидация разрывов абзацев" - слишком монструозная штука, требующая лишних телодвижений и задающая много вопросов )) Потому мне гораздо проще найти подозрительные разрывы строк кнопкой F2 и по факту руками поправить, если надо. Облегчить работу скрипта убирание 1 строки не поможет, а дополнительный контроль такой типичнейшей фигни, как разрыв абзаца, не помешает. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано ср, 02/10/2019 - 03:19 пользователем tvnic TaKir написал: Облегчить работу скрипта убирание 1 строки не поможет, а дополнительный контроль такой типичнейшей фигни, как разрыв абзаца, не помешает. Любой, если считает строку лишней, может ее убрать из скрипта. Только найти надо. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано ср, 02/10/2019 - 04:18 пользователем TaKir tvnic написал: Любой, если считает строку лишней, может ее убрать из скрипта. Только найти надо. Найти и убрать (а лучше заремить в начале строки //) не проблема, поскольку скрипт, когда находит что-то, пишет в строке состояния, что именно он нашел. Вот это описание, надо, открыв файл скрипта блокнотом, набрать в поиске и поисковая строчка найдется. (строк ищущих одно и то же, в скрипте может быть больше одной). RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано ср, 02/10/2019 - 03:27 пользователем ProstoTac "в описанной Антониной ситуации" - таки да, согласен. "руку приходится крючить больше, чем хотелось бы" - крючить совершенно не приходится - программируемая доп кнопка под указательным пальцем, практически там же, где и ЛК мыши. Ну, или на выбор - кнопка сразу под большим пальцем. Это если нормальная мышка. "По мне "Интерактивная ликвидация разрывов абзацев" - слишком монструозная штука, требующая лишних телодвижений и задающая много вопросов" - для одной ошибки да, но и для правки нескольких сот ошибок одним кликом - штука весьма удобная. Никто на знает заранее, сколько и каких ошибок чудных готовит редактируемый текст. И как удобнее (каким скриптом) их исправлять. Впрочем, я не спорю - я обмениваюсь мнениями. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано ср, 02/10/2019 - 04:12 пользователем TaKir ProstoTac написал: "руку приходится крючить больше, чем хотелось бы" - крючить совершенно не приходится - программируемая доп кнопка под указательным пальцем, практически там же, где и ЛК мыши. Ну, или на выбор - кнопка сразу под большим пальцем. У меня на мышке Logitech M705 нет кнопки под указательным пальцем. А возле большого есть, но мне она ну очень неудобна. ProstoTac написал: "По мне "Интерактивная ликвидация разрывов абзацев" - слишком монструозная штука, требующая лишних телодвижений и задающая много вопросов" - для одной ошибки да, но и для правки нескольких сот ошибок одним кликом - штука весьма удобная. Никто на знает заранее, сколько и каких ошибок чудных готовит редактируемый текст. Если сразу много надо исправить одним кликом - то да. Но у меня много разрывов абзацев никогда не бывает, я эти вещи на этапе ФР, потом скриптом на этапе ворда исправляю. Потом в Fiction Book Designer остатки добиваю. Ну а если 1-2 штуки в FBE просочится, то там уже "Поиском по регэкспам". Но это если сам сканишь, распознаешь и верщешь. А если чужую готовую книгу в FBE надо править, то там да, всякое может быть. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано чт, 03/10/2019 - 02:46 пользователем Zadd TaKir написал: Потом в Fiction Book Designer остатки добиваю. Так вот кто книжки уродует! Этот Fiction Book Designer уродует все символы, не находящиеся в кодовой странице 1251.(всякие там плюс-минус, мат.символы, умляуты, диакритику и т.д.) RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано чт, 03/10/2019 - 09:05 пользователем TaKir Zadd написал: TaKir написал: Потом в Fiction Book Designer остатки добиваю. Так вот кто книжки уродует! Этот Fiction Book Designer уродует все символы, не находящиеся в кодовой странице 1251.(всякие там плюс-минус, мат.символы, умляуты, диакритику и т.д.) "Дядя, ты дурак"? (с) Никаких проблем с этим в Fiction Book Designer нет и не было. Вот тебе пример текста с юникодом в FBE сразу после передачи из FBD. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано сб, 05/10/2019 - 11:12 пользователем Zadd Цитата: Вот тебе пример текста с юникодом в FBE сразу после передачи из FBD. А юникод в FBD не получается? Только после передачи в FBE? Насчёт прямых рук: некоторые и после Калибри ухитряются пройти в FBE и получить вменяемый файл. А большинство тупо сразу заливает файл после Калибри даже и не догадываясь, как Калибря уродует файл. Нормальный человек вообще не станет использовать Калибрю, а сделает хороший файл без её использования. Подозреваю, что и без FBD и FBW можно обойтись. Можно же сразу копипастить в FBE и получить хороший результат, а можно взять и ррраз! бац! сохранить в FR в fb2 и получить дерьмо на выходе. И ведь мало кто будет это дерьмо обрабатывать в FBE, сразу понесут заливать в библиотеку. Я вообще-то в разделе /soft читал, что FBD и FBW портят файлы, поэтому к ним надо относиться с осторожностью, а лучше и вообще не использовать. Про юникодные символы моя придумка, но неоднократно читал и на Либрусеке и на Флибусте и на рутрекере книги, в которых именно те "фефекты фикции", которые я описал: если в тексте идет какой-нибудь символ, не укладывающийся в 1251, то этот символ корёжится самым причудливым образом так, что и не догадаешься, что за символ там стоял изначально(если не знаешь язык, на котором написана фраза, то даже по переводу не всегда догадаешься, какой диакритический символ там должен был стоять.) RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано сб, 05/10/2019 - 12:36 пользователем ProstoTac И после FBD и после FBW и после "сохранить в FR в fb2" нужно допиливать ручками FB2 до ума. Ибо и после FBD и после FBW и после "сохранить в FR в fb2" и даже после "копипастить в FBE" (и даже FB2 с СИ) получится файл хоть и разной, но паршивости. Обычно люди, которые после работы FR сохраняют в FB2, его и допиливают дальше, а не бегут заливать в библиотеку. Не понимаю, как Fiction Book Designer уродует все символы, не находящиеся в кодовой странице 1251, если обработка/редактирование и в FBD, и в FBE проходит в utf-8 (он же юникод) и в нем же нужно fb2-файл сохранять? RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано пн, 07/10/2019 - 06:48 пользователем TaKir Zadd написал: Цитата: Вот тебе пример текста с юникодом в FBE сразу после передачи из FBD. А юникод в FBD не получается? Только после передачи в FBE? Что значит не получается? Если сохраняешь в FBD в юникоде, то в файле будет юникод. Сохранишь в 1251 - юникода не будет. Потом открывай файл чем хочешь, акелпадом, FBE - будет ровно то, что сохранишь, никакого шаманства не требуется. Zadd написал: Насчёт прямых рук: некоторые и после Калибри ухитряются пройти в FBE и получить вменяемый файл. А большинство тупо сразу заливает файл после Калибри даже и не догадываясь, как Калибря уродует файл. ... Про юникодные символы моя придумка, но неоднократно читал и на Либрусеке и на Флибусте и на рутрекере книги, в которых именно те "фефекты фикции", Ты же понимаешь, что если ты возьмешь богато форматированный, со стилями, картинками, колонками, таблицами и прочими радостями doc файл и сохранишь его как TXT, у тебя все это богатое форматирование пропадет. Так вот, глупость из-за этого орать на весь интернет, что ворд - редактор - говно и портит файлы. Кто-то чушь написал, не вникая в суть вопроса, а ты бездумно ее тиражируешь. Сохранять файлы надо в правильной кодировке, (настраивается 1 раз) и всего делов. FBD от рождения был юникодным, с 2005 г. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано вт, 21/01/2020 - 06:44 пользователем Hookol Необязательно такие сложности преодолевать. Юникод проще переформатировать в что то более удобное а потом все вернуть. TaKir написал: Zadd написал: Цитата: Вот тебе пример текста с юникодом в FBE сразу после передачи из FBD. А юникод в FBD не получается? Только после передачи в FBE? Что значит не получается? Если сохраняешь в FBD в юникоде, то в файле будет юникод. Сохранишь в 1251 - юникода не будет. Потом открывай файл чем хочешь, акелпадом, FBE - будет ровно то, что сохранишь, никакого шаманства не требуется. Zadd написал: Насчёт прямых рук: некоторые и после Калибри ухитряются пройти в FBE и получить вменяемый файл. А большинство тупо сразу заливает файл после Калибри даже и не догадываясь, как Калибря уродует файл. ... Про юникодные символы моя придумка, но неоднократно читал и на Либрусеке и на Флибусте и на рутрекере книги, в которых именно те "фефекты фикции", Ты же понимаешь, что если ты возьмешь богато форматированный, со стилями, картинками, колонками, таблицами и прочими радостями doc файл и сохранишь его как TXT, у тебя все это богатое форматирование пропадет. Так вот, глупость из-за этого орать на весь интернет, что ворд - редактор - говно и портит файлы. Кто-то чушь написал, не проверив и не вникая в суть вопроса, а ты бездумно ее тиражируешь. Сохранять файлы надо в правильной кодировке, (настраивается 1 раз) и всего делов. FBD от рождения был юникодным, с 2005 г. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано вт, 21/01/2020 - 06:46 пользователем Hookol Необязательно такие сложности преодолевать. Юникод проще переформатировать в что то более удобное а потом все вернуть. TaKir написал: Zadd написал: Цитата: Вот тебе пример текста с юникодом в FBE сразу после передачи из FBD. А юникод в FBD не получается? Только после передачи в FBE? Что значит не получается? Если сохраняешь в FBD в юникоде, то в файле будет юникод. Сохранишь в 1251 - юникода не будет. Потом открывай файл чем хочешь, акелпадом, FBE - будет ровно то, что сохранишь, никакого шаманства не требуется. Zadd написал: Насчёт прямых рук: некоторые и после Калибри ухитряются пройти в FBE и получить вменяемый файл. А большинство тупо сразу заливает файл после Калибри даже и не догадываясь, как Калибря уродует файл. ... Про юникодные символы моя придумка, но неоднократно читал и на Либрусеке и на Флибусте и на рутрекере книги, в которых именно те "фефекты фикции", Ты же понимаешь, что если ты возьмешь богато форматированный, со стилями, картинками, колонками, таблицами и прочими радостями doc файл и сохранишь его как TXT, у тебя все это богатое форматирование пропадет. Так вот, глупость из-за этого орать на весь интернет, что ворд - редактор - говно и портит файлы. Кто-то чушь написал, не проверив в http://antiplagiat.org и не вникая в суть вопроса, а ты бездумно ее тиражируешь. Сохранять файлы надо в правильной кодировке, (настраивается 1 раз) и всего делов. FBD от рождения был юникодным, с 2005 г. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано вт, 08/10/2019 - 10:57 пользователем V_E Антонина82 написал: А зачем F4? Я на панели в FBE добавила ссылку (иконку) - и мышкой. Всё удобней, чем пальцем. Если текст большой, то можно мозоль заработать :) ЗЫ: Проверила работу скрипта, правда текст был небольшой. Замечаний нет. Может что в дальнейшем найдется. Тут, что называется, на любителя. При редактировании книг особой потребности в мышке не ощущаю. Все легко и удобно делается с клавиатуры. Тем более, что бывает и так, что мышку просто некуда пристроить, например, когда правишь книгу лежа на "четвероногом друге" (сиречь диване). Кто как привык. RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -... Постоянная ссылка (Permalink) Опубликовано сб, 05/10/2019 - 04:50 пользователем alexej36 Книгоделу полезно пополнять в свою версию скрипта по такому шаблону: `tagRegExp("(?<![а-яё])теша(?![а-яё])","i","Найдено: слово "теша" ("теща" с опечаткой).","",1);` Страницы 1 2 3 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии Kutulik RE:Подайте бедному копеечку на книжку с литреса... 1 день Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 неделя Tramell RE:Серия "Символы времени" издательства "Аграф" 1 неделя Tramell RE:Серия книг «Судьбы книг» издательства «Книга» 1 неделя Tramell RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 неделя Tramell RE:Современная корейская литература. Книжная серия... 1 неделя nehug@cheaphub.net RE:Загадка автора 1 неделя Drunkenmunky RE:/sql/ 1 неделя weis RE:Прошу переформатировать, распознать, etc... 1 месяц larin RE:Заплатила, а абонемента нет и скачать ничего не могу! 1 месяц sibkron RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц akorish RE:Регистрация 2 месяца Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 2 месяца konst1 RE:Ух, как я не люблю спамеров! 2 месяца tvv RE:DNS 3 месяца sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 3 месяца larin RE:Заблокирован 3 месяца konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 4 месяца Впечатления о книгах ikravtso про Браун: Роковая ошибка мистера Куина [litres] [The hurtwood village murders ru] (Классический детектив, Исторический детектив, Детективы: прочее) 17 07 Книга неплохая, но перевод ужасно корявый. "Белла заказала лосося и, прежде чем ответить, насладилась щедрым кусочком". "Я вообще не мог понять, о чем он трещит, и попытался передать свою растерянность пустым выражением лица". ……… Barbud про Калверт: Объект [litres] (Космическая фантастика, Научная фантастика) 16 07 На первых же страницах: "Плутон от нас в четырех с половиной световых годах...". Все, дальше читать не стал, уровень "научности" этой фантастики уже ясен. Олег Макаров. про Алатова: Неисправная Анна Том 2 [publisher: SelfPub] (Стимпанк, Самиздат, сетевая литература) 14 07 Почему-то вторая сначала читалась труднее, чем первая, но потом захватила и тоже оставила очень хорошее впечатление Оценка: отлично! Олег Макаров. про Алатова: Неисправная Анна Том 1 [publisher: SelfPub] (Стимпанк, Самиздат, сетевая литература) 14 07 Авторский мир продуман и реалистичен в деталях События разворачиваются динамично и логично, хочется читать серию и дальше Оценка: отлично! Kutulik про Кеппел: Ривермен. Как Тед Банди и я охотились на Убийцу с Грин-Ривер [litres] (Триллер, Детективы: прочее, Публицистика) 14 07 Ого, кто залил - спасибо тебе огромное, напиши пожалуйста мне в ЛС))))) Igrina про Тимур Шаов 14 07 Тимур есть на youtube Погуглите ― и будет вам счастье. Я его несколько раз живьём слушала, когда он к нам в Голландию приезжал ― ОТПАД! https://www.youtube.com/results?search_query=Тимур Шаов Никос Костакис про Тарасов: Один в поле не воин (Фэнтези, Самиздат, сетевая литература) 14 07 В космосе мчался корабль ..." Дальше можно не читать __________________________ Отчего же? Вот начало рассказа "Полное взаимопонимание" известного японского писателя Синити Хоси: "Сверкающая серебряная ракета ……… vudy про Тарасов: Один в поле не воин (Фэнтези, Самиздат, сетевая литература) 14 07 В космосе мчался корабль ..." Дальше можно не читать nik_ol про Алатова: Неисправная Анна Том 1 [publisher: SelfPub] (Стимпанк, Самиздат, сетевая литература) 13 07 Спасибо большое, что выложили! Оценка: хорошо udrees про Дорничев: Дворник 13-го уровня. Том 5 (Юмор: прочее, Городское фэнтези, ЛитРПГ, Самиздат, сетевая литература) 12 07 В целом сюжет в книге пока такой же шаблонный, в первой книге еще была интрига. Здесь ничего нового нет – повествование затянулось, обычные рядовые сражения, гаремник, эротические подробности, прокачка героя. Описания очень ……… Оценка: плохо udrees про Дорничев: Дворник 10-го уровня. Том 4 (Юмор: прочее, Городское фэнтези, ЛитРПГ, Самиздат, сетевая литература) 12 07 Книга на уровне 2-й и 3-й из этой серии, почти ничего нового. Дворник уже не тот дворник из первой книги, а какой-то альфа-герой из книг серии литРПГ со своим отрядом и гаремом девушек. Интересна конечна первая треть книги, ……… Оценка: плохо mysevra про Булычев: Путешествие Алисы (Детская фантастика) 11 07 Роскошная детская книга, одна из моих любимых. Кому нужны принцессы, когда такие приключения. Оценка: отлично! больше впечатлений