Вы здесьКоординация сканирования и вычитки
Опубликовано пт, 03/12/2010 - 02:59 пользователем larin
Для лучшей координации сканирования новых книг запустил сервис http://lib.rus.ec/ocr
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 3 часа
stevecepera RE:Список современных французских писателей? 15 часов Саша из Киева RE:Как бы с этим побороться и побороть? 4 дня etorus2008 RE:Отв: Помогите найти книгу по описанию 1 неделя lemma7 RE:Чёрный нимб и другие истории, исполненные неизъяснимого ужаса 1 неделя Wedmak RE:Помогите найти!.. #2 1 неделя sem14 RE:Координация сканирования и вычитки 2 недели babajga RE:Кто сможет раздобыть и оцифровать нужные мне книги? 3 недели Isais RE:Мои открытия 3 недели kopak RE:О группе Дятлова. О той самой, того самого... 3 недели A5. RE:Не присылает пароль на почту 4 недели babajga RE:Плюмаж 1 месяц babajga RE:Блошкинс и Фрю. Опасное путешествие 1 месяц alexk RE:Багрепорт - 2 1 месяц babajga RE:Удивленная сова 1 месяц Larisa_F RE:Серия «Квадрат» издательства «Текст» 2 месяца Aleks_Sim RE:Беженцы с Флибусты 2 месяца edvud RE:Прошу переформатировать, распознать, etc... 2 месяца Впечатления о книгах
Lan2292 про Билик: Царь царей (Юмористическая фантастика, Городское фэнтези, Самиздат, сетевая литература)
11 05 Что можно сказать о серии, мне понравилось, есть конечно недочеты и к слогу можно предъявить небольшие претензии, но я прочитала все рассказы до девятой включительно и не было желания прекратить, рекомендую любителям сказок Оценка: отлично!
DMcL про Михаил Дорин
11 05 Авиатор - дневник молодого лётчика. Просто проза про лётную работу. Может кому и понравится. Мне нет - очень Скучно!
Barbud про Порошин: Гость из будущего. Том 1 [СИ] (Юмор: прочее, Самиздат, сетевая литература)
10 05 В качестве прикола над попаданцами в совок сойдет. Автор, судя по возрасту, с реалиями СССР немного знаком, успел захватить по краешку, но тут он точно какой-то альтернативный мир изображает. Хотя если без претензий на серьезность ……… Оценка: неплохо
Belomor.canal про Врангель: Воспоминания. От крепостного права до большевиков (История, Биографии и Мемуары)
10 05 Это великолепный автофикшн - с диалогами, сценами... читается как роман! Всем советую! Оценка: отлично!
Олег Макаров. про Дашко: Москва [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
09 05 > kappa1 есть такое слово "походу". Мне оно тоже не нравится, но ничего с этим не поделать, русский язык не обязан развиваться так, чтобы нам с вами нравилось. И, кстати, "похоже" это не совсем (совсем не) точный "перевод" .
kappa1 про Дашко: Москва [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
09 05 Уважаемый автор! Нет такого слова "походу", есть "похоже", ... , "похоже". Ещё песня есть такая у Агутина: "Не похожий на тебя, не похожий на меня, Просто так прохожий парень чернокожий...". Прослушай её пару раз, может быть ……… Оценка: хорошо
msnaumov про Фреймане: Прощай, Атлантида [Ardievu, Atlantīda! ru] (Биографии и Мемуары)
08 05 Исправлены ошибки в тексте, добавлены недостающие 4 страницы
Isais про Сергей Николаевич Тимофеев
07 05 Потрясающий воображение пример того, сколь много для общей пользы может сделать человек, имея голову на плечах, трудолюбие и хороший инструментарий.
0к про Четверикова: Измена в Ватикане, или Заговор пап против христианства (История, Публицистика)
07 05 Да, вандалы испоганили оригинальный текст - Розенберг стал Гейзенбергом. Но, автор превосходен, поэтому отлично. Оценка: отлично!
decim про Рис: Наблюдатель [litres] (Современная проза)
07 05 Продвинутый британский дамский роман, несколько затянутый. Провокаций тут не шибко, ради качественной провокации читайте "Homo Фабер". Если считать за провокацию постоянные косячки(в переводе названные самокрутками, что поначалу ……… Оценка: неплохо
alexk про Москаленко: Юный бастард. Книга 3 [СИ] (Боевая фантастика, Самиздат, сетевая литература)
07 05 Насколько я помню, этот автор - чемпион по количеству незаконченных циклов. |
Комментарии
Отв: Координация сканирования и вычитки
Можно исправлять либрусекитовые файлы.
А можно брать книги в библиотеке.
Отв: Координация сканирования и вычитки
Да мало ли.. Можно расставлять отсутствующие жанры, аннотации, обложки, полно работы с базой
Отв: Координация сканирования и вычитки
По секрету и на ушко - не думайте, что электронные книги на Литресе супер-пупер-идеал. Даже несмотря на утверждения о тексте, переданном правобладателем. Надысь, а может давеча, прогнал купленную книгу через софты - это что-нибудь особенного! И не поймешь кто виноват - автор, редактор, корректор, фбдвушник или еще кто-то. Ошибок море, и даже окиян.И грамматика, и орфография, и очепятки, а может просто безграмотность. Поэтому, покупка файла на Литресе не есть финал, надо вычитывать.
Отв: Координация сканирования и вычитки
А может и правда, попробовать повычитывать? Я вот, читая многие книги ,вижу, что ошибок- море!Порой бывает, что невозможно читать! Попробовать что ли? Как это делается, через Ворд прогнать или через FBE , если файл fb2? Но дело в том еще, что мне очень нравится сканировать. Знаете, вот когда люди вяжут на спицах или крючком это их успокаивает или вот человек курит-это тоже примерно так же. У меня жизнь нервная, вот sem14 может примерно оценить, потому что знает. У каждого свои заморочки, поэтому я человек нервный, даже немного псих, наверно.((( И сканирование книг, сам ритуал- успокаивает и умиротворяет. И без книг я не могу-это как наркотик.)))
Отв: Координация сканирования и вычитки
если честно - терпеть не могу сканировать
а вот читать и вычитывать - с удовольствием
если вычитывается/правится фб2 файл - то только в ФБЭдиторе
тем более, что для либрусекитовых файлов надо править структуру
Отв: Координация сканирования и вычитки
Если нравится, то надо продолжать. Зачем отказывать себе в удовольствиях.
Отв: Координация сканирования и вычитки
Или в блокноте, или в любом текстовом редакторе, который не нарушит структуру файла, Ворд для этого слишком "интеллектуален": он знает, что файл .fb2 является XML-файлом, ну и, соответственно, может решить, что это его родной, Вордовский, XML, ну и понаделает из fb2 - ТАКОЕ…
Отв: Координация сканирования и вычитки
а вы на чем читаете? на компе/телефоне?
Отв: Координация сканирования и вычитки
А как узнать нуждается книга в вычитке или нет? Есть какой-то список?
Отв: Координация сканирования и вычитки
вопрос сложный, хотя Ларин как-то давал линк из статистики на файлы с черепушкой (трeбующие вычитки/верстки)
а захотите ли вы их читать? я, например, ни за какие коврижки не буду вычитывать ЖЮФ и ЛР
вы можете подключиться к сканировщикам и получить сканы на вычитку/верстку (Like Indigo, monochka)
Отв: Координация сканирования и вычитки
Надо создавать базу книг, нуждающихся в повторной вычитке)
Отв: Координация сканирования и вычитки
http://lib.rus.ec/stat/q/q1
Отв: Координация сканирования и вычитки
Касаемо методов вычитки. Могу рассказать как это делаю я. Без малейших претензий на непреложную истину, на владение всеми фичами FBE (скриптами) и всем прочим. Мне так удобно, если будут найдены более продвинутые методы - welcome! После сканирования, файлы передаются в FR11 с отключенным "интеллектом", иначе могут быть ошибки из-за подстановки словарных слов. Добавляются пустые страницы для соответствия номерам страниц во всей книге. Проверяются колонтитулы - чтобы всегда были отдельными зонами, иначе придется править в распознанном тексте, а оно надо? Удаляются зоны типографских листов, поскольку FR11 их не зачисляет в колонтитулы, придется удалять руками в тексте. Распознается текст, если нигде нет грязи, попавшей в зону текста, то сохраняется в txt и doc, если грязь есть, текст проверяется в самом FR11. Текстовый файл прогоняется через EmEditor с макросом (черновая вычитка) на предмет разрывов абзацев, ошибок в знаках (тире - дефис, табулятор) и т.д. Потом в AfterScan на предмет явных косяков, выправке пробелов и знаков препинания. Затем в ОРФО - проверка орфографии и грамматики (последнее самое нудное и спорное, верить нельзя никому и ничему!), все это был этап предварительной вычитки. Затем в Word с макросом - форматирование текста и еще одна предварительная проверка текста, потом конверт в doc2fb. Финал: либо в FBE и вычитка глазами и мозгами, либо текст из Word-а в программу TextStat на предмет поиска неверных уникальных слов, бывает крайне полезно, поскольку составляется полный список ВСЕХ слов и их частота. Дальше форматирование в FBE, все банально и многократно описано.
Отв: Координация сканирования и вычитки
Подскажите, как его отключить.
Отв: Координация сканирования и вычитки
Девелоперы такое выдали:
Меню Сервис -> Редактор языков -> Выбираем язык -> Новый -> Соглашаемся создать копию (Создать новый язык на основе существующего) -> Раздел Словарь, кнопка Нет.
По идее, отключение "интеллекта", которого, ессно, нет и никогда не было, должно подавить ошибки типа мерс - мере, пидер - лидер и т.д. Иногда слова берутся вообще с потолка и тогда "Твой поезд ушел" превращается в "Твой поезд запел".
Респект и уважуха! Это Вы себя не жалеете :-). При таком подходе нужно каждое слово, каждую запятую проверить, вдобавок, зная все правила назубок. А я человек ленивый, мне проще перепоручить компу все действия, принимая решение только на конечной стадии.
Отв: Координация сканирования и вычитки
На добром слове спасибо. :)
А насчёт "каждое слово, каждую запятую", то я, как правило, имею дело с хорошими сканами, так что работы с распознаванием немного. Разве что последнее "пролистывание" на предмет поиска разорванных абзацев занимает чуть больше времени.
А всё остальное - скрипты, спеллчек.
Вот сегодня, например, было свободных 2 часа. Их хватила на всё про всё (сам документ распознала вчера - но это 10 минут, несчитово ;) )
Изумительный (как всегда) скан от Ronja_Rovardotter, в книге 508 страниц.
А Вам сколько нужно времени на все Ваши программы?
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
Ой, тут я растерялась. Такой напор, я бы даже сказала агрессия... :(
Я сама перфекционистка и откровенные бумажные ляпы исправляю, так что меня в этом убеждать не надо. Но мне кажется, что мы говорили вовсе не об этом.
В целом, вся моя интенция в том, что ФР - это довольно сильный инструмент. Со своими недостатками, глюками, разумеется (как и все остальные программы). Но если о них (проблемах) знать и уметь их учитывать, то использовать его просто для распознавания текста - это, в моих глазах, равносильно забиванию гвоздей микроскопом.
Ну и совсем уж подытоживая: неважно, кто и как делает книги, важно - что получается в итоге.
Вам нравится работать с полудюжиной программ, я предпочитаю использовать меньше программ, но более интенсивно. Уверена, что у Вас получаются хорошие книги, но и свои мне не стыдно показать. В-) Так что, по сути, спорить нам не о чем.
Всего доброго.
Отв: Координация сканирования и вычитки
А что, кто-то о чем-то спорил? :-) Но ради любопытства давайте проведем эксперимент - дайте ссылку на вычитанную Вами книгу, я попробую прогнать ее через свою методу. Это не для доказательства, что мой метод лучше, а просто для интереса, может быть я ошибаюсь.
Отв: Координация сканирования и вычитки
А можно - я? Ну, пожа-алуйста!!! Вот, свежую вчерашнюю прогоните, я хоть буду знать свой процент качества (даже учитывая его условность). http://lib.rus.ec/b/386460
А то меня хвалят за скорость - а вдруг она в ущерб качеству??? :(
Отв: Координация сканирования и вычитки
К сожалению, особого качества не наблюдается.
EmEditor
Преподобный Джой засмеялся, но так, как смелются над проделками глупого котенка, и, кто знае[']т, смеясь, он мог уже прикидывать, как бы засунут котенка в мешок, добавить пару камушков и прогуляться к реке.
Он завел глаза, чтобы разглядеть меня, — головы уже не[>]поднять, — и прошептал:
ОРФО
Преподобный Джой засмеялся, но так, как [смелются] над проделками глупого котенка, и, кто знает, смеясь, он мог уже прикидывать, как бы [засунут] котенка в мешок, добавить пару камушков и прогуляться к реке.
Попытайся я уцепиться за него на ходу, мне бы, наверное, руку [отюрвало].
Вновь она повернулась ко мне — медленно-мед[-]ленно.
Вид был такой — поджечь бы все это, а потом запахать золу и начать все заново, [чтоы] не мучиться.
Надо бы, подумала я, отвести Джинкс в сторону и объяснить ей, [чт] с верующими спорить нет смысла, потому что, если им не удастся тебя убедить, они будут [вязатьс] к тебе со своими доводами снова и снова, пока ты не уверуешь, не солжешь [ил я] не наложишь на [себ] руки, только бы отстали.
Его подготовили к погребению, созвали родных — и, [ко гда[ те собрались, мертвец внезапно ожил.
Он где-то рядом, вонючка, [застранец], он ищет нас.
— Вчера я чуть было не полезла в их тюк за спиртным. Со мной все было в порядке до прошлой ночи, пока я не учуяла этот запах, а тогда я готова была наброситься на эту милую [женшину] и драться с ней за глоток самогона, драться со всей их компанией.
Грамматику не стал проверять, ибо нудно, ну и вычитывать тоже не стал.
Отв: Координация сканирования и вычитки
Угу, спасибо. :) А эту не затруднит? http://lib.rus.ec/b/384703
Отв: Координация сканирования и вычитки
*недоумевая* Вообще-то все эти ошибки вылавливаются скриптами и спеллчеком.
update: кроме "смелются" - эта не выловится, поскольку такое слово есть в словаре.
Отв: Координация сканирования и вычитки
С этим никто не спорит. Но ведь не делают и не проверяют. Про грамматику вообще молчу, ее даже в издательствах не могут толком проверить, наверное, полностью доверяют афтару, который маститый, популярный и книг у него вышло мильён.
Отв: Координация сканирования и вычитки
Современные корректоры и редакторы - это отдельная больш(н)ая тема.
Если раньше, для того чтобы выяснить, как правильно пишется слово, достаточно было найти его в книге, то теперь... :(
Такое впечатление, что в издательствах даже простейшим спеллчеком не пользуются.
Встретив в последней книге слово "мучал", я решила, что это опечатка. Но потом оно четырежды повторилось. Катастрофа.
Может, я не в курсе, и правило было изменено? :(
Отв: Координация сканирования и вычитки
Зуб даю - либо не пользуются из-за наличия отсутствия присутствия, либо просто лень. А Инет под руками способен выдать практически любую инфу по любому вопросу. И как пишется, и что это такое :-) Ну, и где они, эти грамотные редакторы в издательствах? Не говорю уже о списках замеченных опечаток в виде вклейки к книге. Это было в бескомповую эру, но сейчас возможности возросли на порядки, ан нет, безграмотность издателей стала притчей во языцех.
Отв: Координация сканирования и вычитки
Ну, справедливости ради заметим, что в России сейчас в год издаётся больше названий, чем во всём СССР в пиковом для него по этому показателю 1974 году (статейку где-то встречал с такими данными). Так что некоторое падение качества вполне ожидаемо, а по сравнению с 1994-м, скажем, годом с качеством сейчас дела очень хорошо обстоят. А опечатки пираты исправят совершенно бесплатно, чего там.
Отв: Координация сканирования и вычитки
Смотря что подразумевать под "некоторым падением". Скромно тешу себя надеждой, что укладываюсь в корректорские нормы - одна ошибка на 40 000 знаков. Но ни одна вычитанная мной книга, даже близко к этому результату не подходит. Я уже не говорю про искусственно раздуваемый объем книги. Вроде бы, по старым меркам, 300-400 страниц - изрядно, но ежели насовать пустых страниц с несколькими словами или какой-нить виньеткой, да шрифт покрупнее, то получается в полтора, а то и два раза меньше. То есть работы корректору меньше, а результат - хуже. Не знаю, сколько в издательствах на редактора и корректора приходится книг в месяц. И за какую зряплату они трудятся.
Отв: Координация сканирования и вычитки
Уточнение: норма - одна ошибка на 20 000 знаков (две на авторский лист).
Отв: Координация сканирования и вычитки
EmEditor
мириться. <.. > На аэродроме
чайной ложечки. <.. > Стоял октябрь
исполнял паленке и мапале, но с ужа'сом ждал
а настоящим ковбоем“. <.. > Общаясь
Проверять в ОРФО не стал, время жалко :-) Как видите, чисто технические ошибки наличествуют и легко ловятся.
Отв: Координация сканирования и вычитки
Пожалуйста. Вот последняя
Мердок "Монахини и солдаты"
Отв: Координация сканирования и вычитки
Значительно лучше, нежели предыдущие. Техошибок, на мой взгляд. штуки три, скорее всего, связанных с различием в английском и русском, при цитировании писем. Одна ошибка, зато очень богатая :-) [Только пох perpetua…] - nox perpetua
Само собой, грамматику не проверял, и вычитку не делал.
Отв: Координация сканирования и вычитки
Чёрт. А мне казалось, что я все эти места выловила, их там несколько было. Надо отключать курсив - он "замыливает" ошибку.
Спасибо, теперь буду проверять тщательнЕе. ;)
А остальные? Можете их назвать?
Отв: Координация сканирования и вычитки
Мысли вслух.
Сейчас делаю книгу, где неграмотная служанка ведёт дневник.
В этом случае интенсивная подготовка текста в ФР (где можно сравнить проблематичные фрагменты со сканом), на мой взгляд, единственная возможность. Ну и, разумеется, скрипты - для вылова мусора, а вот с регэкспами и пр. придётся быть повнимательнее.
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
Это в тексте так.
Отв: Координация сканирования и вычитки
Редакторский косяк? Насколько помню, в русском не начинают новую строку после запятых. Я бы исправил, чтобы по-нашему, по-бразильски смотрелось :-)
Отв: Координация сканирования и вычитки
На русском письма с обращением в начале большей частью передают таким образом. Ошибка это или нет - можно спорить (или НЕ спорить ;) ).
Для меня было важнее узнать, какие ошибки я пропускаю, в чём недостаток моего метода (Ваш "контроль" выглядит очень убедительно). Рада была выяснить, что пропустила всего одно место (и то - ДОЛЖНА была найти, явно мой косяк, а не метода).
Да и результатом я довольна. 
Очень полезно было с Вами пообщаться.
Кстати, для тех, кто тоже будет проверять фрагменты текста, написанные латиницей в курсиве: скрипт "Обзор и превращение элементов" при выборе "emphasis" показывает все курсивные слова. Там "пох" вместо "nox" можно будет увидеть.
Альтернатива - пройтись скриптом "переход на следующий курсив" и для проверки убрать курсив со слов, написанных латиницей.
Отв: Координация сканирования и вычитки
Да часто так письма офорляют.
Отв: Координация сканирования и вычитки
Отв: Координация сканирования и вычитки
раз пошла такая пьянка
http://lib.rus.ec/b/362294
Отв: Координация сканирования и вычитки
Как минимум:
«Встретимся у Филипп»[17], [—]думаю я
Тель-[а]вивского пляжа у нас нет
Они [маячут] у нас за спиной
Орфографическая норма сегодня: маячат. У Анненского - графическая рифма "маячут - плачут", авторское написание сохранено во многих современных изданиях.
— Планета десяти миллионов Снодлей, — сказал [Ян-кель].
Отв: Координация сканирования и вычитки
Таки больше нуля в достаточно насыщенном нерусскими словами тексте (спеллер ФБЭ поджигал чуть не каждое пятое слово).
И проколы - проглядел глазками.
Отв: Координация сканирования и вычитки
Хм, ни разу не видел, чтобы FR11 предпочел слово из словаря распознанному с ошибкой. "с" и "е" давно путаются при не очень качественной размытой печати. При чем тут интеллект? И он скорее "пидер" вместо "лидер" наOCRит. Небось каждый сталкивался с таким.
Если б у этой сволочи был интеллект он бы никогда не писал предлога "з" вместо "в" или "н" вместо союза "и"...
Отв: Координация сканирования и вычитки
У этой сволочи есть "интеллект", но весьма своеобразный, девелоперы подтверждают. Самое простое доказательство - в тексте книги, где много раз встречается "мерс", ни разу оно не было распознано как "мерс", всегда как "мере". То же самое с пидером, который везде стал лидером, оба примера из старых книг Бушкова, распознавал не я. Второй пример: Юнкерс - Юнкере. И так далее, и тому подобное, включая подстановку тех слов, которых на скане нет и не было. Поэтому списать на плохое качество растра никак не получается. FR начинает подгонять слова под свой словарь, вот в этом и есть его "интеллект". А Ваши примеры его не касаются, одна буква для FR не повод ее исправлять, нет у него мозгов на самом деле :-) Это все его творцы выеживаются, чтобы в очередной раз заявить о небывалых процентах улучшения OCR в следующей версии.
Отв: Координация сканирования и вычитки
Очень бы хотелось пощупать это самому. Как-то не верится в описанное. Противоречит собственному опыту.
Может кто даст ссылочку на pdf/djvu книжку, в которой при распознании получались бы подобные артефакты?
Отв: Координация сканирования и вычитки
Попробовал сканировать и распознавать отключив словарь и выбрав новый язык. Ошибок стало на порядок больше. Например, очень большое количество букв "п" распозналось как "и". При этом да, "мерс и мере" стали отличаться. Но эта ошибка привычная и вылавливается скриптом "Поиск по набору регэкспов", а вот "п" и "и" менять почти в каждом слове очень утомительно. Поэтому вернулся к русскому и английскому со словарной поддержкой.
Отв: Координация сканирования и вычитки
Не жалеете Вы себя. В-)
Я пользуюсь только ФР и ФБЕ.
1. В ФР просматриваю каждую страницу, обращая внимание на неуверенно распознанные символы и подчёркнутые как ошибки слова.
2. После этого проверяю текст на склеенные абзацы - см. Советы TaKir'a.
3. Последняя версия ФР грешит разрывом абзацев в местах, где строка заканчивается точкой. Просматриваю ещё раз текст, включая непечатаемые символы, чтобы видеть конец абзаца.
4. Импортирую сразу в fb2.
5. Структурирование, форматирование и проверка скриптами (часть из которых позволяет исправить неверную пунктуацию и ошибки OCR) в ФБЕ.
6. Проверка орфографии при помощи встроенной опции ФБЕ.
Получается, кажется, неплохо. В-)
Отв: Координация сканирования и вычитки
Вот низашо мне не запомнить такие длинные алгоритмы...
Импортирую в fb2, потом структура-скрипты-вычитка-скрипты. Как правило, этого хватает.
Отв: Координация сканирования и вычитки
жму руку
Страницы