Координация сканирования и вычитки

Для лучшей координации сканирования новых книг запустил сервис http://lib.rus.ec/ocr

Комментарии

Можно исправлять либрусекитовые файлы.
А можно брать книги в библиотеке.

Да мало ли.. Можно расставлять отсутствующие жанры, аннотации, обложки, полно работы с базой

По секрету и на ушко - не думайте, что электронные книги на Литресе супер-пупер-идеал. Даже несмотря на утверждения о тексте, переданном правобладателем. Надысь, а может давеча, прогнал купленную книгу через софты - это что-нибудь особенного! И не поймешь кто виноват - автор, редактор, корректор, фбдвушник или еще кто-то. Ошибок море, и даже окиян.И грамматика, и орфография, и очепятки, а может просто безграмотность. Поэтому, покупка файла на Литресе не есть финал, надо вычитывать.

А может и правда, попробовать повычитывать? Я вот, читая многие книги ,вижу, что ошибок- море!Порой бывает, что невозможно читать! Попробовать что ли? Как это делается, через Ворд прогнать или через FBE , если файл fb2? Но дело в том еще, что мне очень нравится сканировать. Знаете, вот когда люди вяжут на спицах или крючком это их успокаивает или вот человек курит-это тоже примерно так же. У меня жизнь нервная, вот sem14 может примерно оценить, потому что знает. У каждого свои заморочки, поэтому я человек нервный, даже немного псих, наверно.((( И сканирование книг, сам ритуал- успокаивает и умиротворяет. И без книг я не могу-это как наркотик.)))

если честно - терпеть не могу сканировать
а вот читать и вычитывать - с удовольствием

если вычитывается/правится фб2 файл - то только в ФБЭдиторе
тем более, что для либрусекитовых файлов надо править структуру

pulochka написал:
Но дело в том еще, что мне очень нравится сканировать.

Если нравится, то надо продолжать. Зачем отказывать себе в удовольствиях.

pulochka написал:
А может и правда, попробовать повычитывать? Я вот, читая многие книги ,вижу, что ошибок- море!Порой бывает, что невозможно читать! Попробовать что ли? Как это делается, через Ворд прогнать или через FBE , если файл fb2?
Никакого Ворда! Только в FBE.
Или в блокноте, или в любом текстовом редакторе, который не нарушит структуру файла, Ворд для этого слишком "интеллектуален": он знает, что файл .fb2 является XML-файлом, ну и, соответственно, может решить, что это его родной, Вордовский, XML, ну и понаделает из fb2 - ТАКОЕ…

а вы на чем читаете? на компе/телефоне?

А как узнать нуждается книга в вычитке или нет? Есть какой-то список?

вопрос сложный, хотя Ларин как-то давал линк из статистики на файлы с черепушкой (трeбующие вычитки/верстки)
а захотите ли вы их читать? я, например, ни за какие коврижки не буду вычитывать ЖЮФ и ЛР
вы можете подключиться к сканировщикам и получить сканы на вычитку/верстку (Like Indigo, monochka)

Надо создавать базу книг, нуждающихся в повторной вычитке)

Касаемо методов вычитки. Могу рассказать как это делаю я. Без малейших претензий на непреложную истину, на владение всеми фичами FBE (скриптами) и всем прочим. Мне так удобно, если будут найдены более продвинутые методы - welcome! После сканирования, файлы передаются в FR11 с отключенным "интеллектом", иначе могут быть ошибки из-за подстановки словарных слов. Добавляются пустые страницы для соответствия номерам страниц во всей книге. Проверяются колонтитулы - чтобы всегда были отдельными зонами, иначе придется править в распознанном тексте, а оно надо? Удаляются зоны типографских листов, поскольку FR11 их не зачисляет в колонтитулы, придется удалять руками в тексте. Распознается текст, если нигде нет грязи, попавшей в зону текста, то сохраняется в txt и doc, если грязь есть, текст проверяется в самом FR11. Текстовый файл прогоняется через EmEditor с макросом (черновая вычитка) на предмет разрывов абзацев, ошибок в знаках (тире - дефис, табулятор) и т.д. Потом в AfterScan на предмет явных косяков, выправке пробелов и знаков препинания. Затем в ОРФО - проверка орфографии и грамматики (последнее самое нудное и спорное, верить нельзя никому и ничему!), все это был этап предварительной вычитки. Затем в Word с макросом - форматирование текста и еще одна предварительная проверка текста, потом конверт в doc2fb. Финал: либо в FBE и вычитка глазами и мозгами, либо текст из Word-а в программу TextStat на предмет поиска неверных уникальных слов, бывает крайне полезно, поскольку составляется полный список ВСЕХ слов и их частота. Дальше форматирование в FBE, все банально и многократно описано.

Цитата:
файлы передаются в FR11 с отключенным "интеллектом"

Подскажите, как его отключить.

Алексей_Н написал:
Цитата:
файлы передаются в FR11 с отключенным "интеллектом"
Подскажите, как его отключить.

Девелоперы такое выдали:
Меню Сервис -> Редактор языков -> Выбираем язык -> Новый -> Соглашаемся создать копию (Создать новый язык на основе существующего) -> Раздел Словарь, кнопка Нет.
По идее, отключение "интеллекта", которого, ессно, нет и никогда не было, должно подавить ошибки типа мерс - мере, пидер - лидер и т.д. Иногда слова берутся вообще с потолка и тогда "Твой поезд ушел" превращается в "Твой поезд запел".
golma1 написал:
Получается, кажется, неплохо.

Респект и уважуха! Это Вы себя не жалеете :-). При таком подходе нужно каждое слово, каждую запятую проверить, вдобавок, зная все правила назубок. А я человек ленивый, мне проще перепоручить компу все действия, принимая решение только на конечной стадии.

GMAP написал:

Респект и уважуха! Это Вы себя не жалеете :-). При таком подходе нужно каждое слово, каждую запятую проверить, вдобавок, зная все правила назубок. А я человек ленивый, мне проще перепоручить компу все действия, принимая решение только на конечной стадии.

На добром слове спасибо. :)

А насчёт "каждое слово, каждую запятую", то я, как правило, имею дело с хорошими сканами, так что работы с распознаванием немного. Разве что последнее "пролистывание" на предмет поиска разорванных абзацев занимает чуть больше времени.
А всё остальное - скрипты, спеллчек.

Вот сегодня, например, было свободных 2 часа. Их хватила на всё про всё (сам документ распознала вчера - но это 10 минут, несчитово ;) )
Изумительный (как всегда) скан от Ronja_Rovardotter, в книге 508 страниц.

А Вам сколько нужно времени на все Ваши программы?

golma1 написал:
А Вам сколько нужно времени на все Ваши программы?
Зависит от. Только не надо про суперскорость вычитки глазами и мозгами, она весьма конечна и ускорить ее ну никак не выйдет. Скрипту нужно минут 10-15 на книге среднего объема (400 страниц), АфтерСкан работает не быстро, минут 20 уходит, остальное как у всех. В общем и целом, часа три-четыре в общей сложности на книгу приходится тратить, а то и больше. От редакторов с корректорами тоже зависит. Но пока что безошибочных книг не попадалось, править приходится буквально все книги, где больше, где меньше, но все. И я в корне не согласен с утверждением, касаемо Волги впадающей в Тихий океан. Правил, правлю и буду впредь править все бумажные косяки. Меня не волнуют моральные проблемы, ибо файл не есть бумага, поэтому имею полное право на исправление любых косяков. Может это звучит кощунственно, но мне хочется чтобы глаз читающего не останавливался на явных ляпах.

GMAP написал:
golma1 написал:
А Вам сколько нужно времени на все Ваши программы?
Зависит от. Только не надо про суперскорость вычитки глазами и мозгами, она весьма конечна и ускорить ее ну никак не выйдет. Скрипту нужно минут 10-15 на книге среднего объема (400 страниц), АфтерСкан работает не быстро, минут 20 уходит, остальное как у всех. В общем и целом, часа три-четыре в общей сложности на книгу приходится тратить, а то и больше. От редакторов с корректорами тоже зависит. Но пока что безошибочных книг не попадалось, править приходится буквально все книги, где больше, где меньше, но все. И я в корне не согласен с утверждением, касаемо Волги впадающей в Тихий океан. Правил, правлю и буду впредь править все бумажные косяки. Меня не волнуют моральные проблемы, ибо файл не есть бумага, поэтому имею полное право на исправление любых косяков. Может это звучит кощунственно, но мне хочется чтобы глаз читающего не останавливался на явных ляпах.

Ой, тут я растерялась. Такой напор, я бы даже сказала агрессия... :(
Я сама перфекционистка и откровенные бумажные ляпы исправляю, так что меня в этом убеждать не надо. Но мне кажется, что мы говорили вовсе не об этом.

В целом, вся моя интенция в том, что ФР - это довольно сильный инструмент. Со своими недостатками, глюками, разумеется (как и все остальные программы). Но если о них (проблемах) знать и уметь их учитывать, то использовать его просто для распознавания текста - это, в моих глазах, равносильно забиванию гвоздей микроскопом.

Ну и совсем уж подытоживая: неважно, кто и как делает книги, важно - что получается в итоге.
Вам нравится работать с полудюжиной программ, я предпочитаю использовать меньше программ, но более интенсивно. Уверена, что у Вас получаются хорошие книги, но и свои мне не стыдно показать. В-) Так что, по сути, спорить нам не о чем.
Всего доброго.

golma1 написал:
спорить нам не о чем

А что, кто-то о чем-то спорил? :-) Но ради любопытства давайте проведем эксперимент - дайте ссылку на вычитанную Вами книгу, я попробую прогнать ее через свою методу. Это не для доказательства, что мой метод лучше, а просто для интереса, может быть я ошибаюсь.
Аватар пользователя Миррима

GMAP написал:
golma1 написал:
спорить нам не о чем

А что, кто-то о чем-то спорил? :-) Но ради любопытства давайте проведем эксперимент - дайте ссылку на вычитанную Вами книгу, я попробую прогнать ее через свою методу. Это не для доказательства, что мой метод лучше, а просто для интереса, может быть я ошибаюсь.

А можно - я? Ну, пожа-алуйста!!! Вот, свежую вчерашнюю прогоните, я хоть буду знать свой процент качества (даже учитывая его условность). http://lib.rus.ec/b/386460
А то меня хвалят за скорость - а вдруг она в ущерб качеству??? :(

Миррима написал:
А то меня хвалят за скорость - а вдруг она в ущерб качеству??? :(

К сожалению, особого качества не наблюдается.
EmEditor
Преподобный Джой засмеялся, но так, как смелются над проделками глупого котенка, и, кто знае[']т, смеясь, он мог уже прикидывать, как бы засунут котенка в мешок, добавить пару камушков и прогуляться к реке.
Он завел глаза, чтобы разглядеть меня, — головы уже не[>]поднять, — и прошептал:

ОРФО
Преподобный Джой засмеялся, но так, как [смелются] над проделками глупого котенка, и, кто знает, смеясь, он мог уже прикидывать, как бы [засунут] котенка в мешок, добавить пару камушков и прогуляться к реке.
Попытайся я уцепиться за него на ходу, мне бы, наверное, руку [отюрвало].
Вновь она повернулась ко мне — медленно-мед[-]ленно.
Вид был такой — поджечь бы все это, а потом запахать золу и начать все заново, [чтоы] не мучиться.
Надо бы, подумала я, отвести Джинкс в сторону и объяснить ей, [чт] с верующими спорить нет смысла, потому что, если им не удастся тебя убедить, они будут [вязатьс] к тебе со своими доводами снова и снова, пока ты не уверуешь, не солжешь [ил я] не наложишь на [себ] руки, только бы отстали.
Его подготовили к погребению, созвали родных — и, [ко гда[ те собрались, мертвец внезапно ожил.
Он где-то рядом, вонючка, [застранец], он ищет нас.
— Вчера я чуть было не полезла в их тюк за спиртным. Со мной все было в порядке до прошлой ночи, пока я не учуяла этот запах, а тогда я готова была наброситься на эту милую [женшину] и драться с ней за глоток самогона, драться со всей их компанией.

Грамматику не стал проверять, ибо нудно, ну и вычитывать тоже не стал.

Аватар пользователя Миррима

Угу, спасибо. :) А эту не затруднит? http://lib.rus.ec/b/384703

Миррима написал:
Угу, спасибо.

*недоумевая* Вообще-то все эти ошибки вылавливаются скриптами и спеллчеком.

update: кроме "смелются" - эта не выловится, поскольку такое слово есть в словаре.

golma1 написал:
все эти ошибки вылавливаются скриптами и спеллчеком

С этим никто не спорит. Но ведь не делают и не проверяют. Про грамматику вообще молчу, ее даже в издательствах не могут толком проверить, наверное, полностью доверяют афтару, который маститый, популярный и книг у него вышло мильён.

GMAP написал:
Про грамматику вообще молчу, ее даже в издательствах не могут толком проверить, наверное, полностью доверяют афтару, который маститый, популярный и книг у него вышло мильён.

Современные корректоры и редакторы - это отдельная больш(н)ая тема.
Если раньше, для того чтобы выяснить, как правильно пишется слово, достаточно было найти его в книге, то теперь... :(
Такое впечатление, что в издательствах даже простейшим спеллчеком не пользуются.

Встретив в последней книге слово "мучал", я решила, что это опечатка. Но потом оно четырежды повторилось. Катастрофа.
Может, я не в курсе, и правило было изменено? :(

golma1 написал:
Такое впечатление, что в издательствах даже простейшим спеллчеком не пользуются.

Зуб даю - либо не пользуются из-за наличия отсутствия присутствия, либо просто лень. А Инет под руками способен выдать практически любую инфу по любому вопросу. И как пишется, и что это такое :-) Ну, и где они, эти грамотные редакторы в издательствах? Не говорю уже о списках замеченных опечаток в виде вклейки к книге. Это было в бескомповую эру, но сейчас возможности возросли на порядки, ан нет, безграмотность издателей стала притчей во языцех.

GMAP написал:
Это было в бескомповую эру, но сейчас возможности возросли на порядки, ан нет, безграмотность издателей стала притчей во языцех.

Ну, справедливости ради заметим, что в России сейчас в год издаётся больше названий, чем во всём СССР в пиковом для него по этому показателю 1974 году (статейку где-то встречал с такими данными). Так что некоторое падение качества вполне ожидаемо, а по сравнению с 1994-м, скажем, годом с качеством сейчас дела очень хорошо обстоят. А опечатки пираты исправят совершенно бесплатно, чего там.

Verdi1 написал:
что некоторое падение качества вполне ожидаемо

Смотря что подразумевать под "некоторым падением". Скромно тешу себя надеждой, что укладываюсь в корректорские нормы - одна ошибка на 40 000 знаков. Но ни одна вычитанная мной книга, даже близко к этому результату не подходит. Я уже не говорю про искусственно раздуваемый объем книги. Вроде бы, по старым меркам, 300-400 страниц - изрядно, но ежели насовать пустых страниц с несколькими словами или какой-нить виньеткой, да шрифт покрупнее, то получается в полтора, а то и два раза меньше. То есть работы корректору меньше, а результат - хуже. Не знаю, сколько в издательствах на редактора и корректора приходится книг в месяц. И за какую зряплату они трудятся.

GMAP написал:
Скромно тешу себя надеждой, что укладываюсь в корректорские нормы - одна ошибка на 40 000 знаков.

Уточнение: норма - одна ошибка на 20 000 знаков (две на авторский лист).

Миррима написал:
А эту не затруднит? http://lib.rus.ec/b/384703

EmEditor
мириться. <.. > На аэродроме
чайной ложечки. <.. > Стоял октябрь
исполнял паленке и мапале, но с ужа'сом ждал
а настоящим ковбоем“. <.. > Общаясь
Проверять в ОРФО не стал, время жалко :-) Как видите, чисто технические ошибки наличествуют и легко ловятся.

GMAP написал:
golma1 написал:
спорить нам не о чем

А что, кто-то о чем-то спорил? :-) Но ради любопытства давайте проведем эксперимент - дайте ссылку на вычитанную Вами книгу, я попробую прогнать ее через свою методу. Это не для доказательства, что мой метод лучше, а просто для интереса, может быть я ошибаюсь.

Пожалуйста. Вот последняя
Мердок "Монахини и солдаты"

golma1 написал:
Вот последняя

Значительно лучше, нежели предыдущие. Техошибок, на мой взгляд. штуки три, скорее всего, связанных с различием в английском и русском, при цитировании писем. Одна ошибка, зато очень богатая :-) [Только пох perpetua…] - nox perpetua
Само собой, грамматику не проверял, и вычитку не делал.

GMAP написал:
Одна ошибка, зато очень богатая :-) [Только пох perpetua…] - nox perpetua

Чёрт. А мне казалось, что я все эти места выловила, их там несколько было. Надо отключать курсив - он "замыливает" ошибку.
Спасибо, теперь буду проверять тщательнЕе. ;)

А остальные? Можете их назвать?

Мысли вслух.

Сейчас делаю книгу, где неграмотная служанка ведёт дневник.
В этом случае интенсивная подготовка текста в ФР (где можно сравнить проблематичные фрагменты со сканом), на мой взгляд, единственная возможность. Ну и, разумеется, скрипты - для вылова мусора, а вот с регэкспами и пр. придётся быть повнимательнее.

golma1 написал:
GMAP написал:
А остальные? Можете их назвать?

Я уже удалил файлы. Разрывы абзацев в начале обращения в письмах, что-то вроде:
Дорогой Том,
пишу...
Либо с большой буквы должна быть следующая строка, как это принято у них:
Дорогой Том,
Пишу...
Либо Enter убрать, как это принято у нас:
Дорогой Том, пишу...
А так - ни нашим, ни вашим.

GMAP написал:
Разрывы абзацев в начале обращения в письмах, что-то вроде:
Дорогой Том,
пишу...

Это в тексте так.

UTC написал:
Это в тексте так.

Редакторский косяк? Насколько помню, в русском не начинают новую строку после запятых. Я бы исправил, чтобы по-нашему, по-бразильски смотрелось :-)

GMAP написал:
UTC написал:
Это в тексте так.

Редакторский косяк? Насколько помню, в русском не начинают новую строку после запятых. Я бы исправил, чтобы по-нашему, по-бразильски смотрелось :-)

На русском письма с обращением в начале большей частью передают таким образом. Ошибка это или нет - можно спорить (или НЕ спорить ;) ).

Для меня было важнее узнать, какие ошибки я пропускаю, в чём недостаток моего метода (Ваш "контроль" выглядит очень убедительно). Рада была выяснить, что пропустила всего одно место (и то - ДОЛЖНА была найти, явно мой косяк, а не метода).
Очень полезно было с Вами пообщаться. Да и результатом я довольна.



Кстати, для тех, кто тоже будет проверять фрагменты текста, написанные латиницей в курсиве: скрипт "Обзор и превращение элементов" при выборе "emphasis" показывает все курсивные слова. Там "пох" вместо "nox" можно будет увидеть.
Альтернатива - пройтись скриптом "переход на следующий курсив" и для проверки убрать курсив со слов, написанных латиницей.

UTC написал:
GMAP написал:
Разрывы абзацев в начале обращения в письмах, что-то вроде:
Дорогой Том,
пишу...

Это в тексте так.

Да часто так письма офорляют.

GMAP написал:
golma1 написал:
GMAP написал:
А остальные? Можете их назвать?

Я уже удалил файлы. Разрывы абзацев в начале обращения в письмах, что-то вроде:
Дорогой Том,
пишу...
Либо с большой буквы должна быть следующая строка, как это принято у них:
Дорогой Том,
Пишу...
Либо Enter убрать, как это принято у нас:
Дорогой Том, пишу...
А так - ни нашим, ни вашим.

А, ясно. Спасибо.

Нет, это не ошибка, так должно быть. Вторая строка вовсе не должна начинаться с большой буквы.

Что радует, так это то, что скрипты это место тоже "вычисляют". Так что у нас с Вами параллельные курсы. :)

раз пошла такая пьянка
http://lib.rus.ec/b/362294

sem14 написал:
раз пошла такая пьянка

Как минимум:
«Встретимся у Филипп»[17], [—]думаю я
Тель-[а]вивского пляжа у нас нет
Они [маячут] у нас за спиной
Орфографическая норма сегодня: маячат. У Анненского - графическая рифма "маячут - плачут", авторское написание сохранено во многих современных изданиях.
— Планета десяти миллионов Снодлей, — сказал [Ян-кель].

Таки больше нуля в достаточно насыщенном нерусскими словами тексте (спеллер ФБЭ поджигал чуть не каждое пятое слово).
И проколы - проглядел глазками.

GMAP написал:
Алексей_Н написал:
Цитата:
файлы передаются в FR11 с отключенным "интеллектом"
Подскажите, как его отключить.

Девелоперы такое выдали:
Меню Сервис -> Редактор языков -> Выбираем язык -> Новый -> Соглашаемся создать копию (Создать новый язык на основе существующего) -> Раздел Словарь, кнопка Нет.
По идее, отключение "интеллекта", которого, ессно, нет и никогда не было, должно подавить ошибки типа мерс - мере, пидер - лидер и т.д. Иногда слова берутся вообще с потолка и тогда "Твой поезд ушел" превращается в "Твой поезд запел". ...

Хм, ни разу не видел, чтобы FR11 предпочел слово из словаря распознанному с ошибкой. "с" и "е" давно путаются при не очень качественной размытой печати. При чем тут интеллект? И он скорее "пидер" вместо "лидер" наOCRит. Небось каждый сталкивался с таким.

Если б у этой сволочи был интеллект он бы никогда не писал предлога "з" вместо "в" или "н" вместо союза "и"...

c-rank написал:
Если б у этой сволочи был интеллект он бы никогда не писал предлога "з" вместо "в" или "н" вместо союза "и"...

У этой сволочи есть "интеллект", но весьма своеобразный, девелоперы подтверждают. Самое простое доказательство - в тексте книги, где много раз встречается "мерс", ни разу оно не было распознано как "мерс", всегда как "мере". То же самое с пидером, который везде стал лидером, оба примера из старых книг Бушкова, распознавал не я. Второй пример: Юнкерс - Юнкере. И так далее, и тому подобное, включая подстановку тех слов, которых на скане нет и не было. Поэтому списать на плохое качество растра никак не получается. FR начинает подгонять слова под свой словарь, вот в этом и есть его "интеллект". А Ваши примеры его не касаются, одна буква для FR не повод ее исправлять, нет у него мозгов на самом деле :-) Это все его творцы выеживаются, чтобы в очередной раз заявить о небывалых процентах улучшения OCR в следующей версии.

GMAP написал:
c-rank написал:
Если б у этой сволочи был интеллект он бы никогда не писал предлога "з" вместо "в" или "н" вместо союза "и"...

У этой сволочи есть "интеллект", но весьма своеобразный, девелоперы подтверждают. Самое простое доказательство - в тексте книги, где много раз встречается "мерс", ни разу оно не было распознано как "мерс", всегда как "мере". То же самое с пидером, который везде стал лидером, оба примера из старых книг Бушкова, распознавал не я. Второй пример: Юнкерс - Юнкере. И так далее, и тому подобное, включая подстановку тех слов, которых на скане нет и не было. Поэтому списать на плохое качество растра никак не получается. FR начинает подгонять слова под свой словарь, вот в этом и есть его "интеллект". А Ваши примеры его не касаются, одна буква для FR не повод ее исправлять, нет у него мозгов на самом деле :-) Это все его творцы выеживаются, чтобы в очередной раз заявить о небывалых процентах улучшения OCR в следующей версии.

Очень бы хотелось пощупать это самому. Как-то не верится в описанное. Противоречит собственному опыту.
Может кто даст ссылочку на pdf/djvu книжку, в которой при распознании получались бы подобные артефакты?

Попробовал сканировать и распознавать отключив словарь и выбрав новый язык. Ошибок стало на порядок больше. Например, очень большое количество букв "п" распозналось как "и". При этом да, "мерс и мере" стали отличаться. Но эта ошибка привычная и вылавливается скриптом "Поиск по набору регэкспов", а вот "п" и "и" менять почти в каждом слове очень утомительно. Поэтому вернулся к русскому и английскому со словарной поддержкой.

GMAP написал:
Касаемо методов вычитки. Могу рассказать как это делаю я. Без малейших претензий на непреложную истину, на владение всеми фичами FBE (скриптами) и всем прочим. Мне так удобно, если будут найдены более продвинутые методы - welcome! После сканирования, файлы передаются в FR11 с отключенным "интеллектом", иначе могут быть ошибки из-за подстановки словарных слов. Добавляются пустые страницы для соответствия номерам страниц во всей книге. Проверяются колонтитулы - чтобы всегда были отдельными зонами, иначе придется править в распознанном тексте, а оно надо? Удаляются зоны типографских листов, поскольку FR11 их не зачисляет в колонтитулы, придется удалять руками в тексте. Распознается текст, если нигде нет грязи, попавшей в зону текста, то сохраняется в txt и doc, если грязь есть, текст проверяется в самом FR11. Текстовый файл прогоняется через EmEditor с макросом (черновая вычитка) на предмет разрывов абзацев, ошибок в знаках (тире - дефис, табулятор) и т.д. Потом в AfterScan на предмет явных косяков, выправке пробелов и знаков препинания. Затем в ОРФО - проверка орфографии и грамматики (последнее самое нудное и спорное, верить нельзя никому и ничему!), все это был этап предварительной вычитки. Затем в Word с макросом - форматирование текста и еще одна предварительная проверка текста, потом конверт в doc2fb. Финал: либо в FBE и вычитка глазами и мозгами, либо текст из Word-а в программу TextStat на предмет поиска неверных уникальных слов, бывает крайне полезно, поскольку составляется полный список ВСЕХ слов и их частота. Дальше форматирование в FBE, все банально и многократно описано.

Не жалеете Вы себя. В-)

Я пользуюсь только ФР и ФБЕ.
1. В ФР просматриваю каждую страницу, обращая внимание на неуверенно распознанные символы и подчёркнутые как ошибки слова.
2. После этого проверяю текст на склеенные абзацы - см. Советы TaKir'a.
3. Последняя версия ФР грешит разрывом абзацев в местах, где строка заканчивается точкой. Просматриваю ещё раз текст, включая непечатаемые символы, чтобы видеть конец абзаца.
4. Импортирую сразу в fb2.
5. Структурирование, форматирование и проверка скриптами (часть из которых позволяет исправить неверную пунктуацию и ошибки OCR) в ФБЕ.
6. Проверка орфографии при помощи встроенной опции ФБЕ.

Получается, кажется, неплохо. В-)

Аватар пользователя Миррима

Вот низашо мне не запомнить такие длинные алгоритмы...
Импортирую в fb2, потом структура-скрипты-вычитка-скрипты. Как правило, этого хватает.

жму руку

Страницы

X