Вы здесьОбновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!
Опубликовано пт, 06/09/2019 - 04:13 пользователем TaKir
Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE). Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси. Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем: Типичные ошибки распознавания... Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются. Просьба приводить конкретные примеры: - ошибок скрипта, ложных срабатываний Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта. Ссылка на последнюю версию скрипта (30-09-2019): альтернативные ссылки: Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке: Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов). Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице" По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию. P.S. На Флибусте открыта аналогичная тема, можно писать в любую.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aleks_Sim RE:Багрепорт - 2 5 часов
babajga RE:Народные сказки - Сказки народов Сибири = Fairy-Tales of... 18 часов Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 день Kiesza RE:Бушков умер. 1 день sibkron RE:Серия "Библиотека французской литературы" (Макбел) 2 дня sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 дня нэнси RE:Подайте бедному копеечку на книжку с литреса... 2 дня Isais RE:Игорь Северянин - Том 2. Поэзоантракт 1 неделя sem14 RE:Современная корейская литература. Книжная серия... 1 неделя sem14 RE:Семейственность в литературе 1 неделя Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели kopak RE:На 78-м году жизни скончался советский и российский... 4 недели Саша из Киева RE:Подводное течение 1 месяц lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц konst1 RE:Переименовать ник (имя учетки) 1 месяц Larisa_F RE:Таррин Фишер 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 1 месяц Впечатления о книгах
Лысенко Владимир Андреевич про Сухов: Полубояринов 1 (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
08 10 Книга понравилась, жду продолжения. Оценка: отлично!
peterabotnov про Серж Винтеркей
07 10 Винтеркей С., Шумилин А. «Ревизор - возвращение в СССР» Мне понравилось. Прочитал другие комменты, большинство ругают. А я сам на волне прочтения серии с ностальгией вспоминаю СССР. Возможно, что авторы понапридумывали, ………
Дей про Частный детектив второго ранга
07 10 Надеюсь на продолжение. Из минусов - говорящий кот (ну реально, сколько можно-то?). Но кот практически ни во что не вмешивается. Плюсы - особых плюшек ГГ не отсыпано. Ни магии, ни богатства, ни титула. При этом он ………
MERLINA2010 про Поляков-Катин: Эпицентр (Шпионский детектив, Современная проза)
07 10 Третью книгу трилогии "Цепная реакция" хочется прочитать. Оценка: отлично!
Sello про Доде: Том 2. Рассказы по понедельникам. Этюды и зарисовки. Прекрасная нивернезка. Тартарен из Тараскона (Классическая проза)
07 10 Перелопатил столько классики за годы жизни, а вот до Доде руки (глаза, вернее) не доходили. И как-то не воодушевился я от написанного - привычно можно сослаться на перевод, мол, не шибко он удачный. Но, кажется, дело в другом. ……… Оценка: неплохо
obivatel про Граф Суворов
06 10 Очень интересно. Больше всего понравилось описание власти как сложной системы; при этом удалось избежать скучного изложения, что обычно встречается у увлеченных темой людей; в результате получилось довольно завлекательно и ………
mysevra про Окер: Проклятые вещи. Истории о самых печально известных предметах [Cursed Objects ru] (Научпоп)
06 10 Стиль, конечно, блогерский: сжато, поверхностно, с хахоньками, «время прочтения – 3 минуты», чтобы читатель, не дай боже, не переутомился. Короче, спасибо за подборку и за иллюстрации, дальше можно уже самому найти об интересующих объектах.
mysevra про Гюнтекин: Птичка певчая [Çalikuşu ru] (Исторические любовные романы)
06 10 У меня сложилось впечатление, что лучшие романы о женщинах пишут мужчины:) Ярко выписаны быт и местный менталитет, что особо подкупает.
mysevra про Миллман: Путь мирного воина. Книга, которая меняет жизнь (Эзотерика)
06 10 Интересно, что при повторном прочтении обнаруживаешь массу нового. Необычная книга. Или просто я была невнимательна.
tvv про Краулет: Высокий замок (Фэнтези, Боевик, Попаданцы)
04 10 На АТ восемь томов в свободном доступе.
obivatel про Воронцов. Перезагрузка
03 10 Автор слабо представляет себе жизнь начала 19 века. О крестьянстве, видимо, представление из позднесоветских фильмов, где добрый в расстёгнутой рубахе барин целеустремленно бежит за упитанной счастливо хохочущей крестьянкой, ………
Belomor.canal про Свечин: Секретные люди [litres] (Исторический детектив)
02 10 Отлично написанная история начала 1 мировой от секретных лиц Лыковых- Нефедьевых. Действие одновременно происходит на западном и южном фронтах столица. Масса малоизвестных фактов о ключевых фигурах того времени! Похоже ……… Оценка: отлично! |
Комментарии
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Ну, я не специалист-филолог, но мне кажется, скрипт должен ориентироваться на литературный, а не на просторечный вариант.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
В FBE есть проверка по словарю. "Орфография" F7 тыц. У поиска по набору регэкспов другая задача.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Не буду спорить. Свою задачу я вижу в том, чтобы набрать статистику. Что из нее учитывать, а что не учитывать, думаю должны решать разработчики.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Идеальный скрипт в любом случае не сделать.
Писалось выше - улучшить бы "Генеральную уборку".
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Пока не вижу примеров для доработки скрипта, кроме прилипшего многоточия и удаления пробела перед маркером сноски.
Какие улучшения нужны?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
А апостроф?
...предусмотреть замену всех возможных различных вариаций апострофов - ´ ʼ ′ ˙ ΄ - на ' (буква «э» на англ. раскладке), который U+0027.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, вы, вообще, в курсе, что пробел и нижнее подчеркивание, это разные символы?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прошу прощения, но не совсем понял, в связи с чем возник этот вопрос? Если ответить коротко - да, в курсе, но, по-моему, про нижнее подчеркивание я ничего не писал? И на его проверку не жаловался. Может, конечно, что-то запамятовал, уточните, если не сложно, почему вы меня об этом спрашиваете.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, потому что во многих ваших книгах, загруженных сюда, в названии книги вместо пробелов стоят нижние подчеркивания.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно попросить ссылку? И уточните, о чем идет речь: о названии книги (печатное издание) или имени файла? Нижнее подчеркивание использую в имени файла. Это давняя привычка, обусловленная определенными причинами. А вот в названии книги - что-то за собой такого не помню. Если дадите ссылку, проверю по своим оригиналам. Может быть, это какая-то ошибка, тем более, что она есть "во многих файлах". Надо посмотреть, что это такое.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Теперь еще по поводу работы скрипта, столкнулся с моментами, вызвавшими легкое удивление:
скрипт иногда обнаруживает, а иногда пропускает полужирное начертание отдельной буквы предлог "и", местоимение "я". Удивило, что иногда полужирное начертание обнаруживается, а иногда нет. Может, конечно, он реагирует на что-то иное, совпадающее с полужирным начертанием.
Также пропускает сочетание ., (точка и запятая). Также пропускает слово нащ (должно быть - наш). Но это, видимо, тоже относится к орфографическим ошибкам, которые скрипт не проверяет?
Добавлено позже:
Обрабатывал скриптом книгу, в которой при распознавании был пропущены все дефисы в словах типа как-то, кто-то кто-либо, когда-либо и т.д. Заметил, что скрипт пропускает словосочетание дватри (два-три); и тотмто (том-то в выражении "в том-то и дело")
Страницы