Регулярные выражения - нужна помощь

Forums: 

Захотелось заменить двухсимвольное сочетание пробел, длинное тире на неразрывный пробел, длинное тире во всей книге. Во всех версиях FBE, FBW можно использовать регулярные выражения при поиске, замене (а как иначе задать в строке замены неразрывный пробел?).

Не получается. Такой символ - \x20 (обычный пробел) - находит. \xA0 (неразрывный пробел) - нет.

А копипаст тоже не работает?
В смысле скопировать нужное из боди файла в строку замены.

Попробовал. Вместо неразрывного пробела вставляется простой. :(

Проблема снята использованием 16-ричного редактора

Можно ещё AkelPad и аналогичные использовать...

Да, спасибо, действительно Akelpad годится

В FBE2 делал контекстной заменой строки из пробела и тире на неразрывный и тире при включенных регулярных выражениях - проходило. Символ "пробел" вводил просто как " ", "неразрывный пробел" копипастил из штатной микро$офт-форточной софтинки "character map".
Тонкость: в режиме regexp неразрывный пробел тоже находится вместо обычного. Поэтому приходится повыкобениваться с серией замен:
- переключаюсь в режим исходника;
- меняю "<p> " на "<p>";
- "<v> " на "<v>";
- длинное тире на любой символ, которого в тексте гарантированно нет (к примеру, "доллар");
- пробел-доллар-пробел на неразрывный-тире-пробел;
- (ё-пс, забыл - поправляю) <p>-доллар-пробел на <p>-тире-неразрывный;
- <v>-доллар-пробел на <v>-тире-неразрывный;
- ищу все оставшиеся "доллары", правлю руками.
Ну, и неплохо поискать последовательности "пробел-минус" и "минус-пробел" - бывают неуверенно распознанные сканером или изгаженные при изготовлении .doc из .txt.

любой пробел (хоть в сорцах, хоть в обычном режиме):
\s

TaKir написал:
любой пробел [...] \s
Сенькс!
Кстати, а не подскажешь regexp для "европейских" букв (с галочками, акутами, умляутами и прочими хвостиками)? А то иногда досаждают - то из-за кривости исходной кодировки, а то есть умники, которые их пихают вместо ударений... :-(

Вот это подойдет?
http://miraduga.com/Temp/TablSpec.html

Можешь сам подобрать.
Таблицу символов выводишь на экран (на виндоус: %SystemRoot%\system32\charmap.exe) и начинаешь исключать диапазоны и символы.
[^!-¿] - уберет латинский и распространенные символы
[^!-¿а-яё] - тоже самое + русский
[^!-¿а-яё\s–—…„“] - с этим уже можно работать.
По вкусу, в общем.

locksmith написал:
[^!-¿а-яё\s–—…„“] - с этим уже можно работать.
Ого! :-) Сенькс!

для подобной чистки я использую либо скрипт «Генеральная уборка», либо внешние средства регэкспов (хоть тот же AkelPad), поэтому такие проблемы были для меня новостью, и я решил поразбираться. результаты приведены ниже. до кучи последним пунктом добавил свое давнее наблюдение.

  • только в режиме дизайна и только при включенных регэкспах неразрывный пробел неотличим от обычного, поэтому: 1) невозможно найти его ни по символу неразрывного пробела, ни по регэкспу \xA0 или \u00A0 2) поиск пробела (символ или регэксп) находит неразрывный пробел
  • в режиме дизайна не все символы можно найти по однобайтному коду, например: для длинного тире вместо \x97 надо использовать \u2014 это справедливо даже для fb2-файлов с однобайтной кодировкой 1251
  • в режиме кода регэкспы не работают — просто ничего не находят
  • если некий регэксп найдет фрагмент, внутрь которого попадет тег, и этот фрагмент мы используем при замене, то обратно фрагмент вставится уже без тега пример подобного регэкспа: Найти: / '(.+?)' / Заменить: / ‘$1’ /

ccaid написал:
только в режиме дизайна и только при включенных регэкспах неразрывный пробел неотличим от обычного
Угу. :-(
ccaid написал:
в режиме дизайна не все символы можно найти по однобайтному коду, например: для длинного тире вместо \x97 надо использовать \u2014
По кодам ни разу не пробовал - юзал просто символы ("—", "–" и т.д.)
ccaid написал:
в режиме кода регэкспы не работают — просто ничего не находят
Странно. У меня работают. Возможно, зависит от версии FBE и/или эксплорера?
ccaid написал:
если некий регэксп найдет фрагмент, внутрь которого попадет тег, и этот фрагмент мы используем при замене, то обратно фрагмент вставится уже без тега
Или тэг будет "выдавлен" за конец замены. Знаю, поэтому автозамену использую нечасто и по возможности в source-режиме. Впрочем, strong'и и emphasis'ы я ещё и проверяю перед окончательной "сдачей в печать".

И вот еще что есть:
Регекспы от Грибова (входят в дистрибутив Ocr Pad)
http://narod.ru/disk/17203841000/RegExp.html.zip.html

Посмотрев на ситуацию с неразрывными пробелами, я опечалился и озадачился.
Вручную расстановка этого дела - трудоёмкое занятие. Даже если делать с использованием рег.выражений.
Видимо, напишу программку на Python. Займёт какое-то время, зато есть надежда, можно будет автоматически расставлять неразрывные пробелы по всей книге сразу.
Ещё правильней было бы сделать на javascript. Мне не хочется.

vadimmo написал:
Посмотрев на ситуацию с неразрывными пробелами, я опечалился и озадачился.
Вручную расстановка этого дела - трудоёмкое занятие. Даже если делать с использованием рег.выражений.
Видимо, напишу программку на Python. Займёт какое-то время, зато есть надежда, можно будет автоматически расставлять неразрывные пробелы по всей книге сразу.
Ещё правильней было бы сделать на javascript. Мне не хочется.

А чем не устраивает вышеупомянутый скрипт "Генеральная уборка"? он широко используется (в узком кругу :)) для чистки fb2

Да у меня из-за проблем со стабильностью программы скрипты почти никакие не работали. Сейчас, когда проблема решена, можно посмотреть, что и как работает из скриптов.

Попробовал скрипт "Генеральная уборка". Отличный скрипт. Только неразрывные пробелы он не расставляет, а удаляет.

насколько я помню, от ставит неразрывный пробел не перед всеми тире, а только, если перед пробелом есть знак препинания, а также после тире прямой речи.

В код не заглядывал, но прогнал текст один раз - скрипт про неразрывные пробелы ничего не сказал. Поставил вручную один неразрывный пробел. Результат - http://ifotka.ru/images/l8lhz486rmwhbegwd1dz.png

vadimmo написал:
В код не заглядывал, но прогнал текст один раз - скрипт про неразрывные пробелы ничего не сказал. Поставил вручную один неразрывный пробел. Результат - http://ifotka.ru/images/l8lhz486rmwhbegwd1dz.png

я тоже не заглядывал в код. лучше сделать так:
выполнить скрипт, документ сохранить как name1;
во внешнем редакторе открыть name1, заменить все неразрывные на простые, сохранить как name2;
снова в FBE открыть name2, выполнить скрипт, сохранить как name3;
в любимой программе сравнения посмотреть на разницу между name2 и name3.

ccaid написал:
в любимой программе сравнения посмотреть на разницу между name2 и name3.
Кто будет юзать CompareIt! - не нарвитесь! У его есть фишка - игнорировать пробелы, так вот при какой-то комбинации галочек неразрывные тоже считаются пробелами и успешно игнорируются. :-( Если у кого есть версия, не шизеющая на эту тему, - делитесь!

Рыжий Тигра написал:
ccaid написал:
в любимой программе сравнения посмотреть на разницу между name2 и name3.
Кто будет юзать CompareIt! - не нарвитесь! У его есть фишка - игнорировать пробелы, так вот при какой-то комбинации галочек неразрывные тоже считаются пробелами и успешно игнорируются. :-( Если у кого есть версия, не шизеющая на эту тему, - делитесь!

Гы-ы. А в бесплатном WinMegre пробелы учитываются, причем дифференцированно - обычные и неразрывные.

Tanja45 написал:
в бесплатном WinMegre
Сенькс, опробую и поделюсь.
Upd: невезуха - не берётся, админы уже успели закрыть закачку .exe-файлов и доступ к самым популярным файлообменникам. :-( Смогу скачать только вечером из дому.
Upd2: скачал, пробую. Непривычно - сравниваемые тексты не сверху-снизу, а слева-справа. А особенно жаль, что нету моих любимых регулярных выражений, в коих так удобно собирать отличия, которые я намерен проигнорировать (разные кавычки, тире, даже имена - в "Туманности Андромеды, например: Эрг Ноор, Ионе Мар, Мвен Мас - то латиницей, то кириллицей).

Рыжий Тигра написал:
Upd2: скачал, пробую. Непривычно - сравниваемые тексты не сверху-снизу, а слева-справа. А особенно жаль, что нету моих любимых регулярных выражений, в коих так удобно собирать отличия, которые я намерен проигнорировать (разные кавычки, тире, даже имена - в "Туманности Андромеды, например: Эрг Ноор, Ионе Мар, Мвен Мас - то латиницей, то кириллицей).

Положение окошек можно поменять в настройках. И никто не говорил,что будет легко :). Можно им пользоваться только для окончательных расчётов последней проверки именно пробелов, после прогона ч/з CompareIt.
Я, конечно, понимаю, что лучше быть и здоровым и богатым, но делать-то нечего.

Tanja45 написал:
Положение окошек можно поменять в настройках
О! Делись! Я не нашёл... :-(

Рыжий Тигра написал:
Tanja45 написал:
Положение окошек можно поменять в настройках
О! Делись! Я не нашёл... :-(

(каеццо) Не-е-е. Наврала я. Там в "окна" есть переключатель - горизонтальное и вертикальное расположение окон, но это не то, не на те окошки действует, перепутала. :( Мне-то как раз удобно, как тебе не удобно. :))

Рыжий Тигра написал:
ccaid написал:
в любимой программе сравнения посмотреть на разницу между name2 и name3.
Кто будет юзать CompareIt! - не нарвитесь! У его есть фишка - игнорировать пробелы, так вот при какой-то комбинации галочек неразрывные тоже считаются пробелами и успешно игнорируются. :-( Если у кого есть версия, не шизеющая на эту тему, - делитесь!

подсказка… в вышеописанной схеме программа сравнения не обязана быть текстовой: для установления факта, что в name2 — обычные пробелы, а в name3 — неразрывные, достаточно fc /b

ccaid написал:
для установления факта, что в name2 — обычные пробелы, а в name3 — неразрывные, достаточно fc /b
Для UTF8 - фиг: обычный пробел - один байт, неразрывный - два. :-(

Рыжий Тигра написал:
Кто будет юзать CompareIt! - не нарвитесь! У его есть фишка - игнорировать пробелы, так вот при какой-то комбинации галочек неразрывные тоже считаются пробелами и успешно игнорируются. :-( Если у кого есть версия, не шизеющая на эту тему, - делитесь!

я не понял, в чем проблема. поковырялся я с этой прогой — замечательно себя ведет, дай бог каждой. можно визуализировать пробельные символы, так там все, как на ладоне. если включить игнор пробельных, то естественно всякие пробелы, табы и пр. в безразличном количестве не будут принимать участие в сравнении.
надо будет поактивнее эту прогу пользовать, а то что-то она у меня простаивает :)

ccaid написал:
неразрывный пробел [...] только, если перед пробелом есть знак препинания, а также после тире прямой речи.
А остальные? ИМХО тире в начале строки - некузяво вне зависимости от того, стоит перед ним знак препинания или нет.

Рыжий Тигра написал:
ИМХО тире в начале строки - некузяво вне зависимости от того, стоит перед ним знак препинания или нет.
да меня тоже это несколько удивило, когда я начал пользоваться скриптом и изучал его действие. но поскольку он в комплекте с FBE 2.0, то я принял это как стандарт де-факто и данность, недоступную изменениям. сейчас? в связи с новой волной развития FBE может быть стоит этот вопрос поднять.
Аватар пользователя s_Sergius

Рыжий Тигра написал:
ccaid написал:
неразрывный пробел [...] только, если перед пробелом есть знак препинания, а также после тире прямой речи.
А остальные? ИМХО тире в начале строки - некузяво вне зависимости от того, стоит перед ним знак препинания или нет.

Да, это бандитизм. Я после "генеральной уборки" дополнительно делаю общую замену пробел + тире на неразрывный пробел + тире.

Когда вставлены неразрывные пробелы в Alreader'е не работает поиск, если в строке поиска есть пробел, а на самом деле там неразрывный пробел. Это скорее претензия к читалке. В Coolreader3 поиска вообще не нашёл.

X