Файл fb2, полученный из FR11


В продолжение темы "Мои алгоритмы работы с FR11". На всякий случай повторюсь: ни на чём не настаиваю, никого ни в чём не убеждаю, не утверждаю, что мой метод лучше какого бы то ни было другого. Просто делюсь собственным опытом.



Итак, мы получили файл fb2 при помощи опции ФР "сохранить как fb2". Если при сохранении вы заполнили название книги и автора, то они уже стоят в дескрипшене. Но файл в любом случае невалидный, поскольку в дескрипшене отсутствуют обязательные данные. Поэтому первая задача - сделать файл валидным.

1 этап - заполнение дескрипшена.


- жанр по умолчанию всегда "science" -- меняем на правильный
- название и автор -- заполнено (если нет, заполняем)
- "дата текстом" -- для переводных книг я ставлю здесь год, когда сделан перевод (он может быть отличным от года издания)
- "значение даты" -- не заполняю
- "обложка" -- прикрепляю файл cover.jpg и выбираю его в окне "изображение" (насчёт размеров: с недавнего времени по просьбе уважаемых сканировщиков делаю обложки чуть больше - 500 пикселей по горизонтали; но при этом слежу, чтобы размер после разумного сжатия не превышал 100 кб - если не получается, уменьшаю до 450)
- "язык" - русский
- "язык оригинала" -- соответствующий (если книга НЕ переводная, НЕ НАДО дублировать "русский" в этой графе)
- "переводчики" -- ищу вариант написания имени на Либрусеке (он зачастую намного полнее, чем в выходных данных книги) и записываю в дескрипшен именно так (при этом поиске иногда находятся дубли авторов-переводчиков, если вы на 100% уверены, что это одно лицо, можно их объединить)
- "серия" - снова ищу написание серии на Либрусеке. В это окно вносится авторская серия. Если книги в ней нумерованы, внесите номер в соответствующее поле.


Различные даты:



Раздел дескрипшена "Информация об оригинале книги" заполняется тем же образом, только "дата текстом" должна быть соответствующая (см. скриншот), а в графе "язык" должен быть указан язык, на котором написана книга.
Имя автора и название книги, как правило, указаны в ВД (выходных данных) книги или даже даны отдельной страницей. Кроме того, можно попытаться найти эти данные на Озоне: под русским названием книги обычно стоит её название на языке оригинала, а если кликнуть на имя автора в разделе "Персоны" (ниже на странице), то в открывшемся окне, опять-таки как правило, есть настоящее (не переводное) имя автора.
Записывать или нет название авторской серии (разумеется, на языке оригинала) серии в этом разделе - выбор верстальщика. Когда-то внесение этой информации приводило к конфликту на странице автора, сейчас, по-моему, этой проблемы нет.


Раздел дескрипшена "FB2-документ" заполняется интуитивно. Не забудьте только изменить набор цифр в разделе "дата текстом". Ибо совершенно непонятно, откуда ФР их берёт. В "Source OCR" я записываю ники сканировщика, OCR-щика и вычитывальщика (например: Scan&ReadCheck: Ronja_Rovardotter; OCR: golma1). Если книга не вычитывается, то пишу OCR&SpellCheck: golma1.
Если вы делаете книгу "с нуля" (со сканов), то в разделе Source URLs можно записать интернет-адрес библиотеки, для которой вы делаете эту книгу.


Раздел дескрипшена "Бумажная книга" тоже понятен интуитивно. Все необходимые для него данные стоят в ВД книги. Строка "серия" предполагает издательскую серию (за редким исключением, книги в ней не нумерованы).


Раздел дескрипшена "Дополнительная информация" предназначен для любой информации, которую вы сочтете важной, но место для которой в основных разделах дескрипшена не предусмотрено. Например: "Художественное оформление Александра Шпакова". С недавних пор я стала вписывать сюда также типографские данные (они обычно даются в конце книги на отдельной странице). В "тип" можно поставить "general" - общая (информация). А можно и не заполнять.


В дескрипшене некоторые поля можно дублировать - кликом на значок двойного окна:

"Крестик" убирает лишние поля.


В самом верху страницы дескрипшена есть кнопка "показать", где можно выбрать, что именно вы хотите видеть на этой странице:

Комментарии

Если после заполнения дескрипшена файл всё ещё невалидный, переходим к следующему этапу.


2 этап - структурирование документа


Если структура книги простая (только главы, например) и вы в процессе распознавания проследили, что стили были правильно расставлены, зачастую этот этап оказывается ненужным.
Во всех остальных случаях структуру приходится править.


Для начала я пользуюсь скриптом "Сброс структуры разделов" (Скрипты -- Структура разделов). Он приводит всю структуру к первому уровню (без вложенных секций).
Сразу после этого я заполняю текст аннотации (как правило, он расположен в начале книги и тоже экспортирован в наш файл), используя копипаст. Затем удаляю ненужные (уже) ВД книги и делаю общий заголовок.
Первый заголовок (и если нужно, эпиграф) я делаю ДО открытия первой секции. Для того чтобы не переходить в режим Source (S в графическом меню), можно сделать так: ПКМ (правой кнопкой мыши) в любом месте текста -- выделить body, после этого создать заголовок (Ctrl+T) и вписать туда автора и название.
Эпиграф создаётся при помощи выделения нужного текста и Ctrl+N. При этом он переносится сразу под заголовок. "Вывести" его из первой секции можно только в режиме S.
Автор эпиграфа выделяется при помощи Alt+A, при этом тэг работает только в последней строке эпиграфа. Так что, если вам нужно выделать таким образом несколько строк, соберите их сначала в одну, обозначьте тэгом, а потом уже разделите на несколько.




Если структуры в книге нет или она неполноценна, разбейте сначала документ на секции.
Раньше я уже писала, что в определённых случаях удобно пользоваться скриптом "Разбить документ на разделы" (Скрипты -- Структура разделов):
- если в книге есть "Часть 1", "Часть 2", а в них соответственно "Глава 1", "Глава 2", то в первое поле скрипта внесите сначала:
^Часть
нажмите "Обработать", а затем внесите
^Глава
и нажмите "Обработать и выйти".
Если главы обозначены просто цифрами, в верхнюю строку скрипта вписываем:
^[1-9]
Обратите внимание, что есть возможность создавать заголовки из нескольких строк: для этого нужно выставить количество строк до или после искомой строки.


Так же можно поступить, если выяснится, что ФР распознал не все заголовки и некоторые главы пропущены. Можете смело пользоваться скриптом, существующую структуру он не нарушит.


Если все заголовки выделены полужирным, можно воспользоваться скриптом "перейти на следующую жирность" (Скрипты -- Поиск форматирования) и разбить на секции вручную: выделить заголовок и нажать Shift+Enter. При этом происходит разделение секций и создаётся заголовок.


Во всех остальных случаях нужно пройтись по тексту и сделать всё вручную.
По окончании проверьте ещё раз порядок нумерации (если она есть) секций: слева - в структуре документа или при помощи скрипта "Обзор элементов" (Скрипты -- Обработка форматирования), выбрав title.



Когда Вы разбили документ на секции, осталось лишь правильно структурировать документ. Это делается очень просто при помощи стрелок внизу раздела "Структура документа":



Выделите нужные секции (например, главы, входящие в Часть 1) и нажмите стрелку вправо, чтобы "задвинуть" их внутрь предыдущей секции. Стрелка влево, соответственно, "выдвигает" отмеченные секции из предыдущей.
Если в книге есть несколько уровней - Раздел, Часть, Глава, рекомендую вложить сначала "Часть+Глава" в Раздел, а затем уже Главу в Часть.
При этом важно: между предыдущей секцией и первой вложенной не может быть пустой строки; там может быть только эпиграф или картинка (при этом не должно быть пустых строк):





Самой частой ошибкой, делающей файл невалидным, является разрыв секции сразу после title:



Удалить такой разрыв довольно просто: курсор в title, нажать Alt+Del.





После того как мы сделали файл валидным, можно приступить к работе над форматированием.


К сожалению, съедаются пустые строки. Надеюсь, скоро починят. Тогда текст станет более удобочитаем. :(
Аватар пользователя Антонина82

Голма, книги стихов. Трачу очень много времени на них, так как теряется форматирование. Как всё же лучше сохранить стихи в нужном формате, с наименьшей потерей времени?
Как ни странно, но ФР11 практически не допускает ошибок при распознавании, но формат губит безнадежно.
Как раз сейчас отсканировала книгу Нарбута и Ваши советы были бы очень кстати.

Антонина82 написал:
Голма, книги стихов. Трачу очень много времени на них, так как теряется форматирование. Как всё же лучше сохранить стихи в нужном формате, с наименьшей потерей времени?
Как ни странно, но ФР11 практически не допускает ошибок при распознавании, но формат губит безнадежно.
Как раз сейчас отсканировала книгу Нарбута и Ваши советы были бы очень кстати.

Боюсь, что, кроме данного уже ранее совета (к сожалению, не помню, кто именно его дал: sd, или s_Sergius, или ....), не могу ничего Вам подсказать.

Совет звучал так:
- в ФР поставить галочку в "Сервис -- Опции -- Сохранить -- DOC/ODT/RTF - сохранять деление на строки".

При этом, разумеется, сохранять нужно в один из этих форматов, а потом уже конвертировать в fb2.

Аватар пользователя Антонина82

Пробовала, но если стихи написаны "лесенкой" - не помогает.

Антонина82 написал:
Пробовала, но если стихи написаны "лесенкой" - не помогает.

Не делятся на строки? Или не сохраняется "лесенка"?
Если второе, то, боюсь, способа сохранить её в текстовом формате нет.
Аватар пользователя Антонина82

golma1 написал:
Антонина82 написал:
Пробовала, но если стихи написаны "лесенкой" - не помогает.

Не делятся на строки? Или не сохраняется "лесенка"?
Если второе, то, боюсь, способа сохранить её в текстовом формате нет.

На строки делится, а вот "лесенка"(размер) -нет. Со стихами Гуляма намучилась. "В ручную" всё пришлось делать.
Аватар пользователя Isais

Цитата:
Раздел дескрипшена "Бумажная книга" тоже понятен интуитивно. Все необходимые для него данные стоят в ВД книги...
Увы, не всем. Вижу по дескрипшнам заливаемых книг.
Поэтому разжевываю:


0) оптимально основную информацию (ФИО автора, название книги, подзаголовок, место, год издания) брать с титульного листа. Если нужной инфы нет на титуле - тогда из других мест книги: обложки, выходных данных и пр.


1) в поле <book-name>***</book-name> надо ставить заглавие бумажной книги. В случае, если это сборник, из которого сделали один-два-три файла, - название сборника.
Т.е. <book-name >Яснее ясного< /book-name>


2) в поле <publisher>***</publisher> - название издательства.
  • Без лишних букв ЗАО, ОАО, ИД, издательство и т.п. Т.е. никаких izdevniecība «Gulbis»

  • Слово "издательство" писать только в случае, когда оно входит в название публикатора: издательство Московского университета, издательство О. Морозовой, издательство им. Сабашниковых

  • Без кавычек: Эксмо, АСТ, Астрель, Вече, Фолиант, Фолио.
  • C прописными буквами согласно правилам русского/нужного иностранного языка, а не ВСЕ КАПСЛОКОМ.
  • Никаких знаков копирайта перед издательством. Этот знак не входит в названия издательств.
  • Сокращать слова можно, но нежелательно.

Т.е. <publisher>Джангар</publisher>
(В старых книгах издательство и типография написаны нестандартно, но увы, это издательство, так и надо писать: иждивением купца Ив. Сытина.)


3) вот с полем <city>***</city> как раз интуитивно понятно. Однако, если делается иноязычный файл, там фиг поймешь, где издана книга: NY - Sidney - Melbourne - Toronto - далее везде... В таких случаях я или беру первое из мест изданий - NY, или вообще не заполняю, т.к. не имею достоверных данных.
Т.е. <city>Элиста</city>


4) в поле <year>1990</year> записывается год издания книги. Арабскими цифрами. Четырехзначный.
В некоторых современных книгах издатели мухлюют с ISBN-ами-регистрациями-тиражами и под., поэтому дату на титульном листе не ставят. В таких случаях - ориентироваться на последнюю по времени дату регистрации авторского права (около значка копирайта).



Для этих сведений оптимально подходит поле custom-info: <custom-info>Побратимы : поэма / Алексей Домнин ; рис. В. Меринова // Уральский следопыт. - № 4. - 1974. - С. 10-12.</custom-info> или
<custom-info>Вилла / Нора Робертс // Избранные романы : в специальной редакции Ридерз Дайджест : перевод с английского. - М. : Ридерз Дайджест, 2002. - С. 132 - 281.
«Вилла», перевод с английского «The Villa», автор Нора Робертс.
Полное издание на английском языке опубликовано в издательстве G. P. Putnam's Sons, a member of Penquin Putnam Inc.
© 2001 by Nora Roberts
Иллюстрации на с. 132-134: Bud Kemper </custom-info>

golma1 написал:
Просто делюсь собственным опытом.

Читать всем, кто впервые осваивает верстку FB2 файлов.
У Кондратовича не так просто и ясно.

Большая беда с дескрипшеном у книг, издававшихся в 90-х годах. Информации для этого раздела минимум. Название на оригинальном языке, фамилии переводчиков и другое попробуй разыщи.

Аватар пользователя Isais

tvnic написал:
Большая беда с дескрипшеном у книг, издававшихся в 90-х годах. Информации для этого раздела минимум. Название на оригинальном языке, фамилии переводчиков и другое попробуй разыщи.
С книгами 1990-х, особенно левых кооперативных ОПГ ОАО, не беда, а полный п****ц. Во всех отношениях. И выходных данных нет, и титульный лист оформлен через жопу, и автор может быть не тот, что указан в книге: http://lib.rus.ec/b/118130 .
Но и современные издатели недалеко ушли, практически там же застряли: http://lib.rus.ec/a/33702 .
Аватар пользователя alexej36

Про стихи лесенкой: как сделать отступ слева.
Первый вариант: используем для этой цели нужное количество неразрывных пробелов
пример книги http://lib.rus.ec/b/207583
Серьезный недостаток: не все читалки "увидят" сделанный так отступ, напр. AlReader не увидит.
Второй вариант: используем знаки юникода: U+2003(EM SPACE); U+2004(THREE-PER-EM SPACE) (длинный и короткий пробел)
пример книги http://lib.rus.ec/b/292307
Данный вариант предполагает, что для стихов в читалке будет использоваться шрифт с поддержкой юникода, иначе вместо отступов будут "квадратики", "вопросы" и т.п.

alexej36 написал:
Про стихи лесенкой: как сделать отступ слева.
Первый вариант: используем для этой цели нужное количество неразрывных пробелов
пример книги http://lib.rus.ec/b/207583
Серьезный недостаток: не все читалки "увидят" сделанный так отступ, напр. AlReader не увидит.
Второй вариант: используем знаки юникода: U+2003(EM SPACE); U+2004(THREE-PER-EM SPACE) (длинный и короткий пробел)
пример книги http://lib.rus.ec/b/292307
Данный вариант предполагает, что для стихов в читалке будет использоваться шрифт с поддержкой юникода, иначе вместо отступов будут "квадратики", "вопросы" и т.п.

Речь идёт не об этом. Речь идёт об экспорте из ФР.
Я не знаю, есть ли даже теоретически способ сохранить "лесенку" при экспорте в любой текстовый формат. А Вы?
Аватар пользователя alexej36

При сохранении точной копии с опцией "сохранять деление на строки" все будет верно отображаться (в ворде). Но при конвертации в FB2 левый отступ все равно будет утрачен :(

alexej36 написал:
Но при конвертации в FB2 левый отступ все равно будет утрачен :(

Об этом и речь.

3 этап - форматирование тэгами


Если вы в ходе распознавания делали служебные пометки, то следующий шаг - расстановка тэгов - будет довольно простым.
Запускаем поиск по ###. Тут есть небольшая тонкость. Если выбрано направление поиска "вверх", то найдутся только те ###, которые стоят в начале строки. Остальные почему-то "видятся" поиску как ##.
Поэтому есть два способа найти все служебные знаки:
- искать, выбрав направление поиска "вниз";
- искать по ## (или сначала по ###, а потом проверить ещё раз по ##).
Выбирайте, как вам удобнее.


При поиске будут найдены: разорванные (на стыке страниц) абзацы, цитаты, стихи, а также любые другие места, которые вы пометили ещё в ФР, чтобы произвести соответствующую разметку в ФБЕ.
Я предпочитаю для всех случаев использовать один и тот же знак, добавляя при необходимости уточнение. Например: ###bild 0031.jpg### - означает, что в этом месте должна быть картинка из этой страницы скана. Или ###b#страна### означает, что это слово следует выделить болдом.
Хотя ФР сохранит болд (и курсив), который есть в тексте, бывает нужным выделить другие слова - например, данные разрядкой, которая нехорошо смотрится в электронном варианте (по крайней мере, на мой вкус), или напечатанные другим шрифтом (этой возможности у нас нет) и в некоторых других случаях.


Итак, вы прошлись по всему тексту, нашли служебные пометки, расставили тэги форматирования. Пришла пора взяться за скрипты.

Аватар пользователя alexej36

Про картинки: возможно есть смысл не разрывать ими абзац, а вставлять между?
Картинки по любому лучше при конвертации сохранять, так стиль "подпись к картинке" сохранится в FB2. Потом в дескрипшине все картинки можно легко удалить. В тексте останутся лишь рамки - ориентиры куда мы будем вставлять наши правленные должным образом изображения.

Лично мое мнение - при издании бумажной книги существуют определенные ограничения, из-за которых картинки оказываются там, где оказываются. ИМХО - в электронной книге таких ограничений нет, соответственно я ставлю картинки там, где они подходят по смыслу, либо, если смысл не определенно ясен, между абзацами, максимально близко к тому месту, где они расположены в бумаге.

Like Indigo написал:
Лично мое мнение - при издании бумажной книги существуют определенные ограничения, из-за которых картинки оказываются там, где оказываются. ИМХО - в электронной книге таких ограничений нет, соответственно я ставлю картинки там, где они подходят по смыслу, либо, если смысл не определенно ясен, между абзацами, максимально близко к тому месту, где они расположены в бумаге.

+1.
Я поступаю точно так же.

alexej36 написал:
Про картинки: возможно есть смысл не разрывать ими абзац, а вставлять между?
Картинки по любому лучше при конвертации сохранять, так стиль "подпись к картинке" сохранится в FB2. Потом в дескрипшине все картинки можно легко удалить. В тексте останутся лишь рамки - ориентиры куда мы будем вставлять наши правленные должным образом изображения.

Не могу полностью согласиться.
В случае сложных колонтитулов (виньетки, буквицы и пр.) они часто распознаются как картинки. Можно, конечно, поработать в ФР с шаблоном областей, но если всё остальное в ФР Вас устраивает, то легче "отключить" картинки, чем каждый раз удалять ненужные области.
Не такой уж и редкий случай, кстати.

Поэтому Ваш способ годится, но условно, не в любом случае.

Этап 4.1 - работа со скриптами (картинки)
Если в тексте есть картинки, разберёмся сначала с ними.
Предположим, вы выбрали при сохранении "сохранять картинки в разрешении исходного изображения". Вы сразу увидите, что они передались соответственного размера и с ними надо что-то делать.
Для начала проверьте, правильно ли они отобразились в тексте: Скрипты -- Иллюстрации -- Проверка иллюстраций.
В оптимуме получите сообщение о том, что ошибок не найдено.



Но бывает и такое:



Посмотрите, что это за картинки: перейдите на закладку дескрипшена (D в графическом меню) и наведите курсор на значок "глаза" рядом с этой картинкой. Если это нужная картинка, найдите место, где она должна стоять, и вставьте. Если ненужная (бывает, например, что край страницы распознался как картинка), удалите, нажав на крестик.


Бывает и такое сообщение:

Значит, где-то стоит тэг image l:href..., а картинки к нему нет. Найдите это место (поиском в режиме S) и проверьте, нужна ли там картинка. Если да, найдите нужную (в скане, например) и вставьте.


Проверьте ещё раз иллюстрации. NB: обложка должна быть уже прикреплена (мы сделали это раньше, когда заполняли дескрипшен; если нет, то сейчас самое время).
Если всё в порядке, запустите скрипт "Унификация вложений и иллюстраций" (Скрипты -- Иллюстрации). Он переименует картинку, выбранную в качестве обложки в cover, а остальные - по порядку #i_001.jpg, #i_002.jpg.


Скорее всего, картинки придётся обрабатывать. Лучше всего брать их прямо из сканов, но если иллюстраций много и вы боитесь запутаться в их расположении, то удобно сделать следующее (все скрипты лежат в Скрипты -- Иллюстрации):
1. Запустить скрипт "Сохранить вложения на диск". При этом все картинки сохранятся в той же папке, где сохранен ваш фб2-файл.
2. Обработать должным образом картинки (почистить, при необходимости уменьшить, сжать).
3. Запустить скрипт "Удалить все вложения".
4. Прикрепить обработанные картинки, в т.ч. и обложку - и тут же выбрать её в дескрипшене в соответствующем окне.
5. Запустить скрипт "Обновление иллюстраций".


Если вы всё сделали правильно, то на нужных местах будут стоять новые (обработанные) картинки. Проверьте на всякий случай ещё раз скриптом "Проверка иллюстраций".


Для начала делайте резервную копию файла на тот случай, если что-то вдруг пойдёт неправильно. Хотя ничего особо сложного здесь нет. Важно только соблюсти очередность действий, а особенно не забыть выбрать обложку перед унификацией, иначе скрипт сделает обложкой первый в списке файл.


Есть и другие способы работы с иллюстрациями.
Если иллюстраций немного, имеет смысл сделать так:
1. Подготовьте нужные картинки и прикрепите их к файлу ("скрепка" в графическом меню).
2. Перейдите к первой иллюстрации. Если вы поставите курсор на неё, в окошке "ссылка" (панель ссылок) будет видно название файла

Нажмите на стрелочку рядом - появится список всех прикреплённых файлов. Не бойтесь добавлять файлы под теми же названиями, они получат дополнительный индекс, так что вы сумеете их различить.

3. Выберите нужный файл. Он заменит в этом месте существующий.
4. Перейдите к следующей картинке и сделайте то же самое (если текст большой, можно воспользоваться скриптом "Следующая иллюстрация" - при этом курсор не должен находиться внутри картинки, кликните где-нибудь в тексте под картинкой). Повторите со всеми картинками.
5. Запустите скрипт "Унификация вложений и иллюстраций". Он вам выдаст сообщение типа:

Это значит, что есть неиспользуемые вложения.
6. Запустите скрипт "Удаление неиспользуемых вложений" и проверьте иллюстрации ещё раз.
Теперь должно быть всё в порядке.

ЕМНИП, созаваемый ФР фб2 документ имеет версию 1, тогда как ФРЭ начинает с 1.0
Насколько это существенно?

sem14 написал:
ЕМНИП, созаваемый ФР фб2 документ имеет версию 1, тогда как ФРЭ начинает с 1.0
Насколько это существенно?

Не принципиально совершенно. Валидны оба варианта.
Я предпочитаю с десятичным знаком, хотя бы потому, что позже может появиться версия 1.1, или 1.2 или 1.5.
Но среди верстальщиков есть те, кто увеличивает версию сразу на 1 невзирая на количество исправлений, и тогда версия может быть просто 2, вместо 2.0.

Основная задача этого параметра - выявить последовательность файлов из одного и того же источника. Хотелось бы, конечно, найти общее решение, но...

Существенности никакой. Для обоих вариантов версия 1.01 и т.д. будет более новой.

Этап 4.3 - работа со скриптами (текст)
Этап 4.2 - работа со скриптами (примечания) см. ниже.


Первое замечание: не бойтесь работать со скриптами. Скрипт - это маленькая программка, которая, будучи запущенной, сделает много полезного: иногда самостоятельно, а иногда - только по вашему желанию.
Второе замечание: не ленитесь работать со скриптами. Основная часть из них была сделана по просьбе опытных верстальщиков и на сегодняшний день учитывает практически все часто встречающиеся ситуации.


4.3.1. Обязательные скрипты


Если вы пользовались моими советами для работы в ФР, то, кроме уже обработанных служебных знаков ###, остались ещё знаки ===, обозначающие пустую строку. Разберёмся с ними.
Запускаем скрипт "Разметка подзаголовков, чистка пустых строк, удаление жирности в заголовках" (Скрипты -- Подзаголовки, пустые строки). Этот скрипт работает самостоятельно и после работы выдаст вам сообщение о том, что он сделал. В частности, он уберёт пустые строки вокруг цитат и стихов и вместо нескольких идущих друг за другом пустых строк, оставит одну.
Теперь можно запустить замену (Ctrl+H) и заменить === на ничего, т.е. в окне "заменить:" ничего не должно стоять. Таким образом, сохранятся все пустые строки в тексте, которые мы отметили ещё в ФР.


Несколько деталей
Если вам нравится, когда стихи и цитаты отделены пустой строкой от остального текста (хотя во многих читалках это предусмотрено в настройках), можно использовать скрипт "Вставить пустую строка перед/за стихом, эпиграфом, цитатой" (Скрипты -- Мелочи редактирования).
В папке "Подзаголовки, пустые строки" лежат 4 варианта основного скрипта. Вы можете выбрать тот, который вам больше в данном случае подходит.


Разобравшись с пустыми строками и заголовками, запускаем скрипт "Генеральная уборка". Он подчищает кучу всяких мелких деталей, что вручную сделать практически невозможно.
Обратите внимание, что запускать его стоит лишь после того, как вы разметили стихи, особенно, если в них присутствует "лесенка". Новый вариант скрипта (version 2.2 GolmaEdition) не удаляет начальные пробелы в стихах. Мне кажется, что эта версия скрипта стоит по умолчанию в последних версиях ФБЕ. Если нет, скажите, я выложу этот скрипт для скачивания.


Следующий обязательный скрипт - "Управляемое исправление разрывов абзацев" (Скрипты -- Чистка).
Этот скрипт требует уже вашего вмешательства. При его запуске появится окно:





При работе с обычным текстом вам ничего править там не надо, достаточно нажать ОК. Изменить что-нибудь бывает нужно, если вы работаете с файлом, полученным из формата txt, в котором сохранились все переносы и разрывы строк. Тогда имеет смысл сделать предварительные установки в этом окне. По умолчанию там для всех случаев стоит "не трогать".
После нажатия ОК, появляется список сомнительных мест, которые вам предлагается проверить на ошибку:





Место разрывы отмечено зелёным цветом; справа расположены варианты редактирования. Если вы не можете решить, надо ли вносить изменения, нажмите на линк "показать" - скрипт переместится к указанному месту текста. Если вы выбрали какой-нибудь из предложенных вариантов редактирования, цвет выделения изменится на красный. Если до этого вы выбрали для нескольких мест варианты редактирования, а в предложенном фрагменте нужно внести исправления вручную, нажмите линк "Ок и перейти". Скрипт выполнит все указанные изменения и переместит вас к нужном месту в тексте. После этого запустите скрипт снова.
В идеале после запуска скрипта появляется сообщение:

но далеко не всегда. Особенно, если в тексте много цитат, предваряемых двоеточием.


Следующий шаг - расстановка кавычек.


В папке "Скрипты -- Обработка кавычек" лежат несколько вариантов разных скриптов.
Я пользуюсь скриптами "Расстановка ёлочек и лапок", "Расстановка ёлочек и лапок с позиции курсора", при необходимости исправить ошибку - скриптами "Переход на предыдущие ёлочки" и "Переход на предыдущие лапки".


В отличие от всех ранее описанных скриптов скрипт "Расстановка ёлочек и лапок" работает в интерактивном режиме. Это значит, что скрипт находит спорное место, сообщает вам об этом и предлагает исправить вручную.
Сообщения об ошибках могут быть нескольких видов.


а)

Означает, что где-то есть незакрытая кавычка.
Вернитесь (при помощи скрипта "Переход на предыдущие ёлочки") к последней "ёлочке" и просмотрите текст. Наиболее часто встречающиеся причины: искажение знака кавычек или незакрытие второй кавычки (типа «Голосование в клубе „Три толстяка“»). Исправьте знак или проставьте недостающую кавычку (её вид не имеет значения, скрипт изменит на правильный).


б)

Означает, что где-то отсутствует открывающая кавычка.
Нажмите "ОК", при этом курсор окажется возле искомой кавычки. Наиболее часто встречающиеся причины: искажение знака кавычки, мусор после OCR, пропущенная открывающая кавычка. Исправьте.


в)

Означает, что вложение кавычек слишком "глубокое", скорее всего - ошибка. Вернитесь к последней "ёлочке" и просмотрите текст. Бывает, что такое глубокое вложение действительно правильное, хотя и редко. Если выяснится, что это ваш случай, проставьте нужные кавычки вручную (Скрипты -- Символы -- Спецсимволы).


После исправления ошибки запустите скрипт ещё раз. В первых двух случаях - тот же, а в третьем - скрипт "Расстановка ёлочек и лапок с позиции курсора". При этом проследите, чтобы курсор стоял после последней проставленной вручную кавычки.


В итоге должно получиться сообщение:



Обратите внимание на соотношение "ёлочек" и "лапок". Если "лапок" слишком много, это может быть знаком ошибки в расстановке кавычек. Особо дотошным рекомендую пройтись скриптом "Переход на предыдущие лапки" (курсор при этом - в конце текста) и проверить визуально. В документальной литературе, правда, соотношение "ёлочек" и "лапок" может быть непредсказуемым, особенно при цитировании переписки.


Следующий скрипт "Латиница в кириллице" (Скрипты -- Чистка). Он всё делает сам (заменяет латинские буквы в русских словах на кириллические), хотя и не до конца. Это не страшно, поскольку один из рекомендуемых скриптов проверяет это ещё раз. Но так как этот скрипт работает автоматически, а другой - нет, то имеет смысл его запустить, чтобы облегчить себе работу в дальнейшем.



К обязательным скриптам относится также скрипт "Слипшиеся слова", но его, на мой взгляд, лучше запускать чуть позже, тем более что его частично дублирует один из рекомендуемых скриптов. Он будет описан позже.




В тексте ещё наверняка осталось ещё много ошибок и помарок, исправить которые можно при помощи других скриптов, описание которых я сделаю в разделе 4.3.2 (см. ниже).

Аватар пользователя Ronja_Rovardotter

golma1 написал:
Если вам нравится, когда стихи и цитаты отделены пустой строкой от остального текста (хотя во многих читалках это предусмотрено в настройках), можно использовать скрипт "Вставить пустую строка перед/за стихом, эпиграфом, цитатой" (Скрипты -- Мелочи редактирования).

Хочухочухочу... Где бы мне его раздобыть?

Ronja_Rovardotter написал:
golma1 написал:
Если вам нравится, когда стихи и цитаты отделены пустой строкой от остального текста (хотя во многих читалках это предусмотрено в настройках), можно использовать скрипт "Вставить пустую строка перед/за стихом, эпиграфом, цитатой" (Скрипты -- Мелочи редактирования).

Хочухочухочу... Где бы мне его раздобыть?

Здесь >>>>>>>

Там же, если присмотреться к "дереву" в левой части, можно найти ВСЕ скрипты в актуальной версии.

Аватар пользователя Ronja_Rovardotter

golma1 написал:
Там же, если присмотреться к "дереву" в левой части, можно найти ВСЕ скрипты в актуальной версии.

Ого, как я отстала от жизни. Спасибо! :)

golma1 написал:
Там же, если присмотреться к "дереву" в левой части, можно найти ВСЕ скрипты в актуальной версии.

А на что в "дереве" надо кликать, чтобы скачалось.

tvnic написал:
golma1 написал:
Там же, если присмотреться к "дереву" в левой части, можно найти ВСЕ скрипты в актуальной версии.

А на что в "дереве" надо кликать, чтобы скачалось.

Trunks -- files -- Scripts -- 06 Чистка (например)
Справа появляется список всех скриптов из этой папки, выбрать нужный, ПКМ - "цель сохранить как..." (или как-то похоже, я перевела дословно).
Аватар пользователя alexej36

Цитата:
Новый вариант скрипта (version 2.2 GolmaEdition) не удаляет начальные пробелы в стихах. Мне кажется, что эта версия скрипта стоит по умолчанию в последних версиях ФБЕ.

Да, именна эта версия. С начальными пробелами различных сортов проблем не имеется.
Вот на что стоит обратить внимание: если в середине слова часть букв заменена двумя точками (обычно это ненормативная лексика) - то "генеральная уборка" все порушит: разобьет такое слово на два и поставит точку в конце первого. Нужно эти точки заменить на что-нибудь другое. А после обработки файла скриптом вернуть все назад.

Продолжим. Вернее, вернёмся немного назад. Я пропустила один важный этап - расстановку примечаний. И хоть это можно сделать в любой момент, я рекомендую расставить примечания после картинок, тогда все применяемые к тексту скрипты обработают сразу и body примечаний.
В связи с этим я немного изменила нумерацию предыдущих этапов.


Этап 4.2 - работа со скриптами (примечания)
Если вы при распознавании переносили текст примечаний к слову в фигурных скобках, то сейчас вам нужно всего лишь запустить скрипт "Примечания из {}" (Скрипты -- Примечания и комментарии из скобок). Он всё сделает сам. Для пущей уверенности можно запустить скрипт "Тест сносок" (Скрипты -- Добавление примечания) и, на всякий случай, скрипт "Унификация сносок" (там же). Юргеннт сделал по моей просьбе скрипт "Унификация сносок", который перемещает номер сноски ЗА знак примечания. Желающие могут скачать: Унификация сносок, Inc.


Если сносок в книге было много и вы предоставили ФР расставить сноски при экспорте, то настоятельно рекомендую проверить, все ли они были сохранены и правильно ли были расставлены.
Удобнее всего, на мой взгляд, это делать следующим образом:
- уменьшаем окно "Крупный план" в ФР таким образом, чтобы страница была видна полностью, и листаем (Alt+PageDown), пока не увидим первую сноску на странице;
- в ФБЕ переходим на body "Примечания" и сравниваем первую сноску с книжной;
- повторяем для всех сносок.


Если обнаружится пропавшая сноска, следует найти нужное место в тексте и вставить. При этом удобно пользоваться скриптами, находящимися в папке "Скрипты -- Добавление примечания".
На выбор есть несколько вариантов. В данном случае подходят два из них:
- вставить текст сноски в открывшемся окне: этот вариант плох тем, что "теряет" курсив и, если текст примечания содержит несколько абзацев, переносит только первый абзац;
- добавить сноску, перейдя к её разделу. Таким образом, вы снова оказываетесь в body "Примечания", что удобно для того, чтобы продолжить сравнение сносок.


В данном случае скрипт "Тест сносок" является обязательным, т. к. он позволяет проверить правильность их расстановки с точки зрения схемы формата. Если при этом обнаружатся ошибки, скрипт предложит вам перейти на последнюю правильную сноску. Перейдите и сверьте фрагменты с исходником. Наиболее частая ошибка - потеря текста сноски. Восстановите.
После окончания сверки и отсутствия ошибок в "Тесте сносок" обязательно запустите скрипт "Унификация сносок". Он исправит нумерацию, если она была нарушена в процессе исправления ошибок.







Вопрос о том, следует ли выделять комментарии в отдельное body, относится к тем вопросам, на которые нет однозначного ответа. Каждый верстальщик решает его для себя.
Я предпочитаю сливать примечания и комментарии в одно body. В первую очередь потому, что не все читалки правильно отражают body "Комментарии" и позволяют вернуться в текст после прочтения комментария.


Если примечания и комментарии сделаны одним человеком (переводчиком, например), никаких дополнительных пометок я не делаю. Разве что titel "Примечания" переименовываю в "Примечания и комментарии .....ФИО".
Если примечания и комментарии делали разные люди (например, переводчик и редактор), то после каждого примечания ставлю "прим. перев." или "прим. редактора". Если одних примечаний больше чем других, ставлю "Здесь и далее примечания переводчика, если не указано иначе" и прописываю только "прим. редактора" (или наоборот).


Маленькая хитрость:
Я расставляю примечания в конце страницы в фигурные скобки, а комментарии из конца книги - в фигурные скобки с восклицательным знаком после открывающей {!Родился в 1213 году. Прим. перев.}.
Дело в том, что ФБЕ разрешает расставлять примечания из любых скобок. Загляните в папку "Скрипты -- Примечания и комментарии из скобок", вы увидите там несколько готовых вариантов, а также "Примечания из скобок, заданных регэкспам" и "Примечания из скобок, заданных простым текстом".
При запуске последнего скрипта открывается окно, куда вы можете внести собственное сочетание скобок. В моём случае это {! }. Важно: не забудьте пробел между скобками, в данном случае - между восклицательным знаком, относящимся к открывающей скобке, и закрывающей скобкой.


Теперь я в первую очередь расставляю примечания, полученные из комментариев, и добавляю в каждой секции - "Прим. редактора". А после этого расставляю "обычные" примечания (тоже при помощи скрипта - см. выше).
ФБЕ сделает правильную нумерацию - и в тексте, и в body "Примечания".


Для перестраховки проверим и унифицируем.


Всё. Теперь точно можно переходить к скриптам для самого текста.

4.3.2. Рекомендуемые скрипты


В эту группу входят скрипты, которые "отшлифуют" ваш файл, вычистив дополнительные ошибки OCR, расставив неразрывные пробелы там, где это нужно, найдя пропущенные/перепутанные знаки препинания и т.д.
Все эти скрипты - интерактивные и все работают с места курсора. Поэтому при их запуске возвращайтесь всегда к началу текста (лучше - к аннотации).


Скрипт "Фамилия И. О." (Скрипты -- Чистка) расставляет неразрывные пробелы в сочетаниях "Иванов И. И.", "И. И. Иванов", "Людовик Х" и пр. Это важно, поскольку при отсутствии таких пробелов читалки вполне могут разбить строку в виде:

... зашел Людовик
Х и все встали.

Несмертельно, конечно, но уж очень некрасиво. А мы ж стремимся к совершенству, или? ;)


При обнаружении искомого сочетания скрипт предложит выбрать:

В данном случае, разумеется, нажимаем "да".


А вот в этом случае (здесь "си" - это нота):

конечно, нет.
Вывод - смотрим внимательно, не всегда соглашаемся. Кстати, скрипт останавливается на "Да" с точкой. Так что...
Скрипт этот к тому же "обучающийся". То есть, если вы один раз нажали "да/нет", то он второй раз об этом же сочетании не спросит, а повторит ваше решение.


Этот способ хорош в художественных текстах. В документальных или биографических такие сочетания встречаются слишком много раз, для того чтобы каждый раз щёлкать мышкой.
Wotti написал регэксп для массовой замены в этих случаях.
([.])([A-Z-А-Я])
   $1□$2

Первая строка - в поле "Найти", вторая, соответственно - в "Заменить". При этом должны стоять "галочки" в "Учитывать регистр" и "Регулярное выражение", а также быть включённым отображение неразрывного пробела в виде квадратика во второй строке (об этом чуть позже, как и о том, где в самом ФБЕ удобно хранить подсказки такого рода).


Иногда вас спросят, надо ли продолжать работу скрипта, отвечайте "да", пока не дойдёте до конца документа.




Следующий скрипт "10.000.000.000" (Скрипты -- Чистка) расставляет неразрывные пробелы в числах типа 235 342 и меняет дефис/длинное тире на среднее тире в числовых диапазонах.






И в том, и в другом случае соглашаемся.
Иногда скрипт предлагает разбить длинный ряд цифр на группы из трёх, что не всегда оправданно. В этом случае отвечаем, разумеется, нет.
То есть и здесь вникаем в каждый случай, а не жмём автоматически.




Следующий скрипт "Точка, тире, буква" (Скрипты -- Чистка) ищет неправильно расставленные знаки в прямой речи и бывает крайне необходим, если ФР постоянно путает точку с запятой. Хотя один из последующих скриптов тоже ищет такие же сочетания, я предпочитаю пройтись сначала этим. Мне он кажется более наглядным и удобным. А при проходе другим скриптом (который ищет огромное количество ошибок и будет описан ниже) я экономлю время на уже исправленных ошибках.


Скрипт выделяет спорное место красным цветом и предлагает на выбор три варианта:
- пропуск
- заменить знак пунктуации
- изменить регистр буквы.
Если ни один вариант не подходит, можно нажать на "Перейти без замены" и сделать необходимые исправления вручную.
Внимание при этом надо обращать на слово, первая буква которого выделена красным. Если это имя нарицательное, написанное с большой буквы, можете быть уверены, что стоящая запятая должна быть точкой.





Нажимаем "Заменить знак пунктуации".


При находках типа (где слово - имя собственное):





сверяемся с оригиналом.
Есть две группы авторов/редакторов/корректоров. Одни в предложении типа
— Ты устал, — Фредерика взяла сигарету. — Иди и посмотри на себя в зеркало. Я все поняла по цвету твоих глаз.
поставят запятую, другие же - точку. Хотя точка, на мой взгляд, предпочтительнее, если вся книга написана с запятыми в аналогичных местах, менять их на точки я считаю неправильным.
Дважды проверив такие случаи по оригиналу и получив одинаковый результат, можно быть уверенным, что и в дальнейшем эта пунктуация сохранится.
Посему при именах собственных, отмеченных красным, вникаем в текст и в случае сомнений сверяемся с оригиналом.


Обратите внимание на то, что скрипт НЕ должен останавливаться на многоточии во фразах типа:
— Ты устал... — сказала Фредерика.


Если в Вашей версии скрипт останавливается в сходных местах, скачайте новую версию.




Следующим запустим обязательный скрипт "Слипшиеся слова" (Скрипты -- Чистка). Он интерактивный, работает с места курсора и обучающийся. Частично его продублирует тот скрипт, о котором я уже упоминала, но запустить его нужно обязательно, поскольку он найдёт и другие сочетания и предложит вам решить, надо ли исправлять спорное место.


В сообщении указывается, что за ошибка обнаружена. Изменения производятся в окне скрипта.





После внесения изменения нажмите "да", скрипт перейдёт к следующему спорному месту.





В этом случае предложен уже вариант уже с внесённым изменением, достаточно просто нажать "да".





Здесь всё правильно, изменения не нужны; нажимаем "нет".


Дойдя до конца текста, скрипт покажет статистику: "Произведено замен: 12".




А теперь запустим тот скрипт, который одновременно ищет большое число ошибок - в первую очередь, ошибки OCR, но не только.
Речь идёт о скрипте "Поиск по набору регэкспов". Не могу точно сказать, где вы его найдете, потому что я свой положила его в папку "Чистка". Здесь он лежит в папке "Поиск и замена", раньше был в "Мелочах редактирования", если я не ошибаюсь. Поищите. ;)


По умолчанию вы найдете 2 схожих скрипта: один из них (безо всяких пометок) - это заготовка для тех, кто захочет написать свои регэкспы для поиска (регэкспы в данном случае - это написанные специальным способом "правила/критерии" поиска), зато другой (с никами wotti, Roxana, JonVik...) уже содержит перечень основных регэкспов (регулярных выражений).
Каждый верстальщик в процессе работы добавляет в свой скрипт дополнительные регэкспы или "отключает" те, которые ему не нужны.
Если вы заметили повторяющуюся ошибку (или повторяющуюся ситуацию с ошибкой), а сами не можете написать регэксп, спросите на форуме, вам обязательно помогут.
Если какой-то регэксп вам кажется лишним, "отключите" его. Для этого откройте скрипт в текстовом редакторе (например, Notepad++), найдите нужное сочетание, по которому работает поиск, и поставьте в начале строки два слэша:





Мой вариант скрипта.


Скрипт интерактивный, работает с места курсора и НЕ обучающийся (вам придётся столько раз кликнуть, сколько раз встретятся подозрительные места).
Скрипт останавливается на спорном месте и в левом нижнем углу окна программы появляется подсказка, о какой ошибке может идти речь.





В каждом случае вам придется решать, ошибка это или нет. Исправления производятся вручную в тексте. После этого запустите скрипт дальше.





Как видите, исправлять нужно не везде. Но гарантирую: вы будете поражены, увидев, сколько ошибок можно найти при помощи этого скрипта.




Следующее, что мы запустим, хоть и не скрипт по сути, но тоже ищет ошибки. Это служба "Слова" (см. пункт главного меню "Сервис").
Запустив "Слова", вы получите таблицу со всеми словами, имеющими дефис. Красным выделены исключения, которые вы уже внесли.





Внизу вы видите дополнительные опции, которыми можно воспользоваться. При длинной таблице я рекомендую убрать "галочку" из "Показать/скрыть исключения", особенно, если вы уже давно работаете с программой и список исключений довольно велик.
Работать с таблицей можно разными способами.
Можно пройтись по всей таблице, расставляя "галочки" в квадратиках напротив тех слов, где дефис надо убрать (в примере на картинке - "лобо-томии"), а потом нажать "ОК" в правой части внизу - "Обработка". Такой способ удобен, когда вы работаете с файлом, полученным из текста, в котором сохранены переносы. Тогда таких дефисов много и удобно их заменять одним махом.
Обычно же я отмечаю нужное слово, нажимаю на "Найти", фокус перемещается на слово в тексте (оно будет выделено), и тогда я нажимаю на кнопку "заменить" (она активируется после нахождения слова).
Кстати, кнопка "найти" очень удобна для уточнения необходимости изменений.








На этом закончим с рекомендуемыми скриптами и перейдём к дополнительным, применение которых зависит от конкретных проблем конкретной книги.






Здесь будет уместно дать ссылку на скрипты уважаемого Alex2L, который сделал подсветку для уже имеющихся (описанных выше) скриптов, что порой значительно облегчает поиск спорного места.
Он же написал и продолжает писать и другие скрипты, о которых мы поговорим позже.

Увы, служба "Слова" бессильна против ошибки типа "еще и полгода не прожила в Нью-Йор-ке,", т.е. не предлагает заменить непервые дефисы. Или у меня старый вариант? FBE 2/6/6 сборка Apr 6 2012 05:04:19.

Радужный Лентяй написал:
Увы, служба "Слова" бессильна против ошибки типа "еще и полгода не прожила в Нью-Йор-ке,", т.е. не предлагает заменить непервые дефисы. Или у меня старый вариант? FBE 2/6/6 сборка Apr 6 2012 05:04:19.

Есть два способа бороться с такого рода ошибками:

  • вставить строку tagRegExp("([a-zа-яё]-[a-zа-яё]*?-[a-zа-яё])","i","Найдено: слово в двумя дефисами).","",1); в скрипт "Поиск по регэкспам" и воспользоваться им ДО службы "Слова"
  • просматривать слова в списке после запуска этой службы и в случае сомнений (увидев там "Нью-Йор", я бы засомневалась, а Вы? ;) ) по кнопке "найти" переместиться в искомое место и проверить; в этом случае для исправления ошибки придётся выйти из службы, исправить ошибку и снова запустить службу.

Выбирайте. :)

Аватар пользователя Антонина82

Со скриптом "Поиск по регэкспам" (блин, опять споткнулась на слове "регэкспам", кто его только придумал!!!) гораздо удобнее. Вариантов трех и более звенных слов попадается в книгах очень много. Скрипт поможет просмотреть их все.

golma1 написал:
Радужный Лентяй написал:
Увы, служба "Слова" бессильна против ошибки типа "еще и полгода не прожила в Нью-Йор-ке,", т.е. не предлагает заменить непервые дефисы. Или у меня старый вариант? FBE 2/6/6 сборка Apr 6 2012 05:04:19.

Есть два способа бороться с такого рода ошибками:

  • вставить строку tagRegExp("([a-zа-яё]-[a-zа-яё]*?-[a-zа-яё])","i","Найдено: слово в двумя дефисами).","",1); в скрипт "Поиск по регэкспам" и воспользоваться им ДО службы "Слова"
  • просматривать слова в списке после запуска этой службы и в случае сомнений (увидев там "Нью-Йор", я бы засомневалась, а Вы? ;) ) по кнопке "найти" переместиться в искомое место и проверить; в этом случае для исправления ошибки придётся выйти из службы, исправить ошибку и снова запустить службу.

Выбирайте. :)


https://mega.co.nz/#!bwZGnJba!K71ZZDbsQcZNySIijVuF-l0wvBEyZEa7Hegt1rIbcdw
Скрипт, находит ДВА дефиса
Распаковать и добавить и добавить в папку " Чистка"

Скрипт Wotti работает отлично. Первый способ безусловно лучше, было просто лень выходить из службы и снова заходить (я всегда стараюсь нести 10 кирпичей, чтоб два раза не ходить, я же Лентяй).
Антонина82 , "регэксп" (или "регексп") - это варварский жаргон программистов, да пребудет с ними Чарльз Бэббидж. Это слово = "регулярное выражение", "REGular EXPression", а что это такое, я не сумею объяснить лучше Википедии.
Всем искреннее спасибо.

Я в таких случаях не выхожу из службы, а просто добавляю это слово в изменяемые. Потом оно мне встретится при проверке правописания.

Аватар пользователя Антонина82

Хочу уточнить для себя: если фамилия в книге написана так: ИВАНОВ И.И. скрипт Фамилия И. О. - работать не будет? Или его можно, каким-то образом, заставить работать?

Антонина82 написал:
Хочу уточнить для себя: если фамилия в книге написана так: ИВАНОВ И.И. скрипт Фамилия И. О. - работать не будет? Или его можно, каким-то образом, заставить работать?

Будет работать.

4.3.3. Дополнительные скрипты
В 90% случаев вам хватит выше описанных скриптов. Но есть ещё и другие, о которых скажу чуть подробнее.
- "Удаление тэгов style" - особенно полезно, если текст вставляется копипастом;
- "Точка" - очень полезно, когда в скане много пропущенных точек (есть скрипт от Alex2L - очень удобный, но под некоторыми ОС работающий с ошибками - пробуйте!): интерактивный, с места курсора, изменения делаются в окне скрипта после обработки полного абзаца;
- "Превращение внешних ссылок в текст" - нужен в случаях, когда в тексте много интернет-ссылок или емэйл-адресов;
- папка "Символы" содержит скрипты, вставляющие специальные буквы и знаки;
- папка "Поиска форматирования" содержит скрипты, позволяющие быстрее передвигаться по документу в поисках определённого форматирования;
- папка "Перенос примечаний в скобки" содержит скрипты, позволяющие перенести примечания (все сразу или по одному) к слову: бывает нужно в случаях, когда примечание было создано ошибочно или вы хотите заменить примечание комментарием (или наоборот) и пр.;
- "Обзор и превращение элементов" (Скрипты -- Обработки форматирования) - очень важный и мною часто задействуемый скрипт: позволяет менять subtitle на title (и наоборот), превращать subtitle и title в обычный текст, создавать списки по различным видам форматирования и преобразовать (списком или в одиночку) элементы, придавая им другое форматирование или убирая его вовсе;





кроме того можно изменить регистр заголовков или подзаголовков:





- папка "Регистр" содержит скрипты, позволяющие менять регистр выделенного текста: капитализировать ("Капитализация выделения"), а также выбрать из разных вариантов нужный ("Циклическое изменение регистра"); там же находится скрипт "Регистр заголовков и подзаголовков", где можно изменять регистр отдельных букв и слов в заголовках и подзаголовках:



при клике на отдельные буквы меняется их регистр



при выделении нескольких слов и клике ПКМ появляется выбор регистра для выделения.


- в папке "Мелочи редактирования" тоже находятся полезные скрипты: "Удаление пробелов" - пригождается в случаях, когда в исходнике есть текст разрядкой; "Снятие форматирования стихом, цитатой или эпиграфом" - позволяет снять ошибочное форматирование, не переходя в режим Source; "Открыть текстовый файл" - помните, я говорила, что расскажу, где хранить разные памятки (например, написанный wotti регэксп для расстановки пробелов в инициалах)? - так это оно. :) Здесь же можете хранить любую информацию, которая вам кажется важной при работе с файлом fb2 - вы всегда сможете вызвать этот текст, добавить нужное и сохранить.





Практически работа с файлом закончена. Для неисправимых перфекционистов, которым, как и мне, режет глаз различие форматирования между словом и последующим знаком препинания, могу ещё посоветовать пройтись по тексту скриптом "Поиск следующего курсива" и проверить.
Кстати, просмотреть все курсивы и болды в скрипте "Обзор и превращение элементов" может оказать полезным. Во-первых, ФР грешит тем, что заглавное "Я" в начале строки/страницы норовит написать курсивом, как и выделить курсивом только тире в начале прямой речи (исправить можно сразу при просмотре, выбрав в нижнем окне скрипта - "текст"). Во-вторых, курсив и болд при этом отображаются в окне скрипта простым текстом, а это позволяет увидеть топ на месте mon, например.

5 этап - Spellcheck.

Всячески рекомендую вам воспользоваться появившейся возможностью сделать спеллчек в ФБЕ (красная "галочка" в графическом меню или F7).
Как бы вы ни чистили текст скриптами, ошибки всё равно ещё есть. Как минимум, те, которые сделал ФР11.
В этой версии появился новый баг: ФР часто склеивает слова, разделённые дефисом в конце строки. И если в наречиях (где-нибудь), местоимениях (кто-нибудь) ошибок практически не бывает, то сочетания вида "светло-зеленый" или "темно-красный" почти всегда пишутся слитно.
Кроме того, нынешние издатели, видимо, экономят на корректорах, поскольку в книгах определённых издательств встречаются грубейшие ошибки, перепутанные местами буквы, пропущенные или лишние буквы и пр. и пр.





У вас есть возможность при проверке
- пропустить слово (один раз)
- пропустить все (все так же написанные слова)
- заменить слово на предложенное (или выбрать предложенное из списка)
- добавить слово в словарь (очень удобно, так как чем дольше вы работаете с программой, тем больше дополнительных слов вы включаете в словарь; но будьте внимательны с именами собственными, которые имеют разные написания - Даниэль/Даниэл/Дэниел и т.д.)
- изменить предложенное слово во второй строке и нажать на "заменить" или просто изменить отмеченное в тексте слово
- заменить все (не рекомендую, если есть хоть малейшее подозрение, что могут быть другие случаи).


Даже если вы собираетесь вычитывать книгу, всё равно рекомендую сделать сначала спеллчек. Во-первых, он сэкономит время при чтении (да и читать приятнее, не прерываясь на исправление ошибок), а во-вторых, при чтении от вашего внимания могут ускользнуть мелкие ошибки.


Но даже после самых придирчивых проверок скриптами и самого внимательного спеллчека в тексте могут быть ещё ошибки. Поэтому вычитку не может заменить ничего. Однако всё вышеописанное позволит вам минимизировать количество ошибок. При скане высокого качества количество ошибок стремится к нулю. ;)





Чуть позже я напишу ещё немного о том, как можно сделать работу с ФБЕ более комфортной, подстроить под свои предпочтения. Но в целом - это всё. :)


Один из лучших способов совершенствования верстальщиков - вычитывать собственноручно распознанные и свёрстанные книги. Тогда сразу видны допущенные ошибки, которые в следующий раз можно избежать. ;)
Аватар пользователя alexej36

Цитата:
вычитку не может заменить ничего.

А почему ее не провести раньше - в FR? А в FBE заняться только форматированием и скриптами.

alexej36 написал:
Цитата:
вычитку не может заменить ничего.

А почему ее не провести раньше - в FR? А в FBE заняться только форматированием и скриптами.

Я не знаю, как много и как часто Вы делаете книги. Но если бы я вычитывала все свои 2500+ книг... ;) Тем более, что среди них есть те, которые мне совсем не интересны по содержанию.


Подчеркну ещё раз: в книгах, сделанных из хороших сканов по вышеописанным методам (в связке ФР+ФБЕ), ошибок крайне мало. Иногда даже меньше, чем в книгах, вычитанных кое-как. ;)
Всё, что можно "вычислить" и "вычистить", должно быть, на мой взгляд, сделано.
И тогда вычитка - это бонус, который всегда кстати, но не всегда возможен.


update:
Основная идея этого топика - это показать, что делать файлы приличного качества можно и без вычитки.
Хочу подчеркнуть, что эта возможность появилась только начиная с 2.0+ версий ФБЕ. Благодаря огромному труду программистов (SeNS, TaF), скриптописальщиков (Sclex, Jurgennt, Alex2L) и всех, кто участвовал в разработке. Именно сейчас появились инструменты, позволяющие при их умелом применении максимально "вычистить" текст от привнесённых ошибок. Представить их и описать их возможности и было задачей, которую я перед собой ставила.

Вычитывать все-таки надо. ФР, при неуверенно распознанном символе, подыскивает подходящее слово из словаря. Такие слова спеллчекер не не находит. Мне попадалось блок - блох, речной – вечной и т. п. Такие ошибки бывают очень часто, и найти их можно только вычиткой.

izekbis написал:
Вычитывать все-таки надо. ФР, при неуверенно распознанном символе, подыскивает подходящее слово из словаря. Такие слова спеллчекер не не находит. Мне попадалось блок - блох, речной – вечной и т. п. Такие ошибки бывают очень часто, и найти их можно только вычиткой.

А вот такие случаи нужно собирать в отдельный файл и пересылать Алексу http://lib.rus.ec/user/33502 - насколько я знаю, у него есть задумки Именно по таким случаям

izekbis написал:
Вычитывать все-таки надо. ФР, при неуверенно распознанном символе, подыскивает подходящее слово из словаря. Такие слова спеллчекер не не находит. Мне попадалось блок - блох, речной – вечной и т. п. Такие ошибки бывают очень часто, и найти их можно только вычиткой.

Конечно. Об этом я и писала в конце.
Слово, которое при неправильном распознавании распозналось как имеющееся в словаре, скриптами не выловишь.

С одним-единственным исключением: скрипт "Поиск по регэкспам". Я его постоянно расширяю: недавно добавила "грех" (вместо "трех"), "липа" (вместо "лица" - причём как часть слова, т.е. "липами" тоже проверится).


Все более-менее частые случаи уже есть в указанном скрипте. И, если Вы говорите, что одни и те же слова часто распознаются неправильно, ничто не мешает Вам добавить их в список проверки.

Но дело в том, что все случаи невозможно учесть, поэтому вычитку не заменит ничто.

Интенция этой темы - показать возможность получения файла максимально высокого качества без вычитки.

Как мне справедливо подсказал alexej36, я забыла упомянуть два важных момента.


1. Перед тем как залить книгу на сайт, не забудьте проверить её внешним валидатором (исполнительный файл - validator_gui). Он более строгий, чем встроенный в ФБЕ, и, например, увидит лишние и недостающие сноски и иллюстрации.
В оптимуме результат должен выглядеть так:



Но и результат типа:

не должен вас пугать. Важно, чтобы в первых двух строках не было замечаний.
Последняя строка - дополнительная проверка (в данном случае означает, что не заполнено поле "дата написания книги"), результаты которой не относятся к собственно валидности файла.


2. В некоторых книгах вам встретятся примечания/комментарии с отсылкой к другому примечанию/комментарию. Например: "см. примечание на стр. 36".
Разумеется в электронном варианте такие ссылки не несут никакой информации.


Я поступаю в таких случаях следующим образом. Ещё в ФР отмечаю их всё тем же знаком ### и как дополнительную информацию вписываю первые несколько слов из текста ссылки, о которой идёт речь (с той самой стр. 36).
В ФБЕ расставляю примечания обычным способом.
При проверке служебных знаков попадаю, конечно, на эту сноску. Поиском нахожу сноску "со стр. 36" и заменяю текст "см. примечание на стр. 36" на "см. примечание №...".
Теперь читатель может легко найти нужную информацию.








Здесь же хочу ещё раз объясниться по поводу вычитки.


Только что закончила вычитывать книгу, сделанную моим обычным способом.


При чтении сделала 21 закладку - в основном, чтобы проверить написание неизвестных географических названий (дело происходит в Дании).
Действительно ошибками оказались:
- "не помнить" вместо "не помнишь"
- "управления" вместо "у правления"
- перепутанное в печатной книге согласование: "женщина, которая знают..."
- три места с указанием диапазона "восемь — десять" (перешедшие из печатного издания, где такое написание встречается сплошь и рядом) вместо "восемь-десять" (как это должно быть в соответствии с правилами русского языка)


Эти ошибки никак, кроме как при вычитке, не обнаружить. Именно это я имела в виду, когда говорила о незаменимости вычитки.
Но остальные ошибки (порядка 30-40) были выявлены и вычищены скриптами ФБЕ, давая очень хороший результат даже без вычитки (2 привнесённые ошибки на более чем 400 страниц текста - это не очень много, согласны?).






Отдельное спасибо alexej36 за внимательное чтение и дельные замечания и предложения.

Цитата:
Теперь читатель может легко найти нужную информацию.

Не во всех читалках же есть возможность переходить по примечаниям. Я в таких случаях просто дублирую примечание со стр. такой-то, и никуда ходить не надо.

Like Indigo написал:
Цитата:
Теперь читатель может легко найти нужную информацию.

Не во всех читалках же есть возможность переходить по примечаниям. Я в таких случаях просто дублирую примечание со стр. такой-то, и никуда ходить не надо.

Или так. :)
Важно - не пропустить и не оставить "см. прим. на стр.". ;)

Страницы

X