Деятификация — спроси меня как…

Forums: 

Топик предназначен для опытных книгоделов.

Задача: у вас есть pdf/djvu книжка в дореформенной орфографии, вам нужно перевести её в орфографию современную.

Вам потребуются:
1) FineReader (с поддержкой распознавания старой орфографии),
2) LibreOffice, и установленное расширение для LibreOffice — OOoFBTools,
3) и самое главное — макрос конвертации старой русской орфографии в современную русскую орфографию для LibreOffice — Deyatificator-LO.bas (взять можно здесь).

1. Заряжаем pdf/djvu в FineReader, в качестве языка распознавания выбираем «Русский (Старая орфография)».
2. Распознанный файл сохраняем как doc/odt.
3. !! Важно !! Сохраняем распознанный файл, также и как pdf с текстовым слоем (чтобы заглядывать туда в случаях ошибочного распознавания)
4. Макрос Deyatificator-LO.bas устанавливается в LibreOffice так:
Выбираем в меню: «Сервис» → «Макросы» → «Редактировать макросы»
В левой части окна выбираем в «My Macros & Dialogs» → «Standard» → «Module 1», копируем текст макроса Deyatificator-LO.bas и вставляем в правую часть окна.

Жмём «Сохранить», закрываем окно.
5. Открываем свой текст в LibreOffice.
6. Вызываем макрос Deyatificator. В меню «Сервис» → «Макросы» → «Выполнить макрос». В выпавшем окне в правой части выбираем строчку «My macros» → «Standart» → «Module 1». В левой части выбираем «Deyatificator» и жмём «Run». Процесс довольно продолжительный, происходит без каких-либо видимых признаков. В конце процесса выскакивает табличка о завершении макроса.
7. Конвертим деятифицированный текст в fb2 с помощью OOoFBTools.
8. Открываем и вычитываем в FBE или кому удобнее, можно работать c текстом в LibreOffice, и уже потом конвертировать OOoFBTools.

В макросе более четырёхсот строчек замен — не только исправляются буквы ѢѴІѲѣѵіѳ и убираются ненужные ъ, правятся также устарелые формы приставок, окончаний и устарелые написания множества слов.

Оно конечно, интересно и познавателно, НО: Зачем?!
Зачем портить аутентичную "ценную" книгу?
Это примерно как наклеить на Люгер стразиков. Результат: без стразиков Люгер стоит несколько тыщ долларов, но со стразиками это просто дешёвка не стоящая и одного доллара.(Видел такой сюжет на "Дискавери")

А вы пробовали читать книгу издания до 1918 года?
Я бы рядом клал оригинал и деятифицированную книгу.

Zadd написал:
Оно конечно, интересно и познавателно, НО: Зачем?!
Зачем портить аутентичную "ценную" книгу?
Это примерно как наклеить на Люгер стразиков. Результат: без стразиков Люгер стоит несколько тыщ долларов, но со стразиками это просто дешёвка не стоящая и одного доллара.(Видел такой сюжет на "Дискавери")

Зачем нужно переводить дореформенные книги на современную орфографию? Потому что это очень интересно и познавательно. Я нашёл работающий инструмент (искал несколько лет), сделал с ним пару десятков книжек, и поделился своей находкой с книгоделами.
P.S. Не всему, что вы видите в телевизоре, можно верить. Стразики не меняют боевых качеств Люгера, если их клеить не в стволе, конечно. И сами попробуйте найти, где за меньше доллара можно купить Люгер в стразиках. Таких мест просто не существует.
Аватар пользователя Isais

Спасибо, взял.
Но меня напрягает распознавание не в FB2, а в ODT.
Я бы предпочел такой скрипт для FBE. Но до сих пор нету.

Все бы хорошо, если б не надо было еще и офис устанавливать.
Лучше бы, конечно, как уже и отметили, скрипт для FBE.

А так-то - замен 10 и будет устранено примерно 90-95% наследия царского режима. А остальное можно и по ходу дела исправить.

А Zadd неправильно сравнивает. Текст с ятями и прочей ѳiгней - это как раз люгер с ненужными стразиками.

N. N. написал:
Все бы хорошо, если б не надо было еще и офис устанавливать.
Лучше бы, конечно, как уже и отметили, скрипт для FBE.

А так-то - замен 10 и будет устранено примерно 90-95% наследия царского режима. А остальное можно и по ходу дела исправить.

А Zadd неправильно сравнивает. Текст с ятями и прочей ѳiгней - это как раз люгер с ненужными стразиками.


Во-первых, связка LibreOffice+OOoFBtools не ненужный балласт, а прекрасный конвертер для rtf/docx/odt файлов.
Во-вторых, есть портабельный LibreOffice, устанавливать его не обязательно.
И в-третьих, оставшихся после десяти замен 5-10 процентов в объёмном тексте — это много долгой ручной работы по замене и исправлению того, что могло бы быть быстро заменено и исправлено макросом.
Основной смысл деятификации — максимальное облегчение вычитывания дореформенного текста.

Нет смысла. Это огрызок книги — пять глав.

X